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Database System Concepts sixth Edition 


数据 库 领 域 的 殿堂 级 作品 
务实 数据 库 理论 基础 ， 增 强 数据 库 技术 内 功 的 必 备 之 先 
对 深入 理解 数据 库 ， 深 入 研究 数据 库 ， 深 入 操作 数据 库 都 具有 极 强 的 指导 作用 | 


本 书 是 数据 库 系统 方面 的 经 典 教材 之 一 ， 其 内 容 由 浅 入 深 ， 既 包含 数据 库 系 统 基本 概念 ， 又 反映 数据 库 
技术 新 进展 。 它 被 国际 上 许多 著名 大 学 所 采用 ， 包 括 斯 坦 福 大 学 、 耶 鲁 大 学 、 得 克 萨 斯 大 学 、 康 奈 尔 大 学 、 
伊利 诺 伊 大 学 等 。 我 国 也 有 多 所 大 学 采用 本 书 作为 本 科 生 和 研究 生 数据 库 课 程 的 教材 和 主要 教学 参考 书 ， 收 
到 了 良好 的 效果 。 . 

第 6 版 保持 了 前 5 版 的 总 体 风格 ， 同 时 对 内 容 进行 了 扩充 ， 对 结构 进行 了 调整 ， 以 更 好 地 符合 数据 库 教学 
的 需求 和 反映 数据 库 设计 、 管 理 与 使 用 方式 的 发 展 和 变化 。 具 体 更 新 内 容 如 下 : 

@ 调整 了 内 容 组 织 结构 ， 将 SQL 内 容 提前 ， 并 集中 进行 介绍 。 

@ 采用 一 个 新 的 模式 ( 基于 大 学 的 数据 ) 作为 贯穿 全 书 的 运行 实例 。 

o 修订 和 更 新 了 对 数据 存储 、 索 引 和 查询 优化 以 及 分 布 式 数据 库 的 涵盖 。 

@ 修订 了 E-R 模 型 、 关 系 设计 和 事务 管理 等 内 容 。 

@ 扩充 了 关于 应 用 开发 和 安全 性 的 素材 。 


本 书 配套 网 站 ( http:/www.db-book.com ) 提供 的 教 辅 资源 包括 : 

e 书 中 各 章 的 教学 课件 。 

@ 实践 练习 的 答案 。 

@ 未 放 入 纸 版 书 中 的 四 个 附录 ( 高 级 关系 数据 库 设 计 、 其 他 关系 查询 语言 、 网 状 模型 、 层 次 模型 ) 。 

@ 实验 素材 ( 包括 大 学 模式 和 习题 中 用 到 的 其 他 关系 的 SQL DDL 和 样 例 数据 ， 以 及 关于 建立 和 使 用 各 
种 数据 库 系 统 和 工具 的 说 明 书 ) 。 

@ 最 新 勘误 表 。 





RES: 计算 机 / 数据库 
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本 书 是 经 典 的 数据 库 系 统 教科 书 《Database System Concepts》 的 最 新 修订 版 ， 全 面 介绍 数据 库 系 统 的 各 
种 知识 ， 透 彻 阐释 数据 库 管 理 的 基本 概念 。 本 书 内 容 丰富 ， 不 仅 讨 论 了 关系 数据 模型 和 关系 语言 、 数 据 库 
设计 过 程 、 关 系数 据 库 理论 、 数 据 库 应 用 设计 和 开发 、 数 据 存储 结构 、 数 据 存 取 技 术 、 查 询 优 化 方法 、 事 
务 处 理 系统 和 并 发 控制 、 故 障 恢复 技术 、 数 据 仓 库 和 数据 挖掘 ， 而 且 对 性 能 调整 、 性 能 评测 标准 、 数 据 库 
应 用 测试 和 标准 化 、 空 间 和 地 理 数据 、 时 间 数 据 、 多 媒体 数据 、 移 动 和 个 人 数据 库 管 理 以 及 事务 处 理 监控 
器 、 事 务工 作 流 、 电 子 商 务 、 高 性 能 事务 系统 、 实 时 事务 系统 和 持续 长 时 间 的 事务 等 高 级 应 用 主题 进行 了 
广泛 讨论 。 

本 书 既 可 作为 高 年 级 本 科 生 或 低 年 级 研究 生 的 数据 库 课程 教材 ， 也 可 供 数据 库 领 域 的 技术 人 员 参 考 。 

Abraham Silberschatz, Henry F. Korth, S. Sudarshan; Database System Concepts, Sixth Edition (ISBN 978- 
0-07-352332-3). 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 
取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风 驮 。 
在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 
处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ,不仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 
既 遵 循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 人 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 
在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积 演 和 发 展 
的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 年 开始 ， 我 们 就 将 工作 重点 
放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill Elsevier, 
MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ,从 他 们 现 有 的 数 百 种 教 
材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, 
Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. 
Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书” 为 总 
称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹 理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 肯 的 选 
题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 
的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ”作为 
姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 有 了 
质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 
计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达 
到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联 
系 方法 如 下 : 


华章 网 站 : www. hzbook. com 
电子 邮件 : hzjsj@hzbook. com 1 
联系 电话 : (010) 88379604 FM = 


联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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数据 库 系 统 是 对 数据 进行 存储 、 管 理 、 处 理 和 维护 的 软件 系统 ， 是 现代 计算 环境 中 的 一 个 核心 成 
分 。 随 着 计算 机 硬件 、 软 件 技 术 的 飞速 发 展 和 计算 机 系统 在 各 行 各 业 的 广泛 应 用 ， 数 据 库 技术 的 发 展 
尤其 迅速 ， 引 人 注目 。 有 关 数 据 库 系统 的 理论 和 技术 是 计算 机 科学 技术 教育 中 必 不 可 少 的 部 分 。《 数 
据 库 系统 概念 》 是 一 本 经 典 的 、 备 受 狗 扬 的 数据 库 系统 教科 书 。 其 内 容 由 浅 人 深 ， 既 包含 数据 库 系 统 
的 基本 概念 ， 又 反映 数据 库 技 术 的 新 进展 。 本 书 被 国际 上 许多 著名 大 学 所 采用 ， 并 多 次 再 版 。 

我 们 先后 将 本 书 的 第 3 版 、 第 4 版 和 第 5 版 译 成 中 文 ， 由 机 械 工业 出 版 社 分 别 于 2000 年 、2003 年 
和 2006 年 出 版 改行。 国内 许多 大 学 采用 《数据 库 系统 概念 》 作为 本 科 生 和 研究 生 数 据 库 课 程 的 教材 
或 主要 教学 参考 书 ， 收 到 了 良好 的 效果 。 现 在 ， 我 们 又 翻译 了 该 书 第 6 版 。 第 6 版 保持 了 前 5 版 的 总 
体 风 格 ， 同 时 对 内 容 进 行 了 扩充 ， 对 结构 进行 了 调整 ， 以 更 好 地 符合 数据 库 教学 的 需求 ， 反 映 数据 库 
设计 、 管 理 和 使 用 方式 的 发 展 和 变化 。 第 6 版 的 内 容 大 体 上 可 以 分 为 五 个 部 分 。 

第 1 ~9 章 讲 述 数据 库 系统 的 基本 概念 ， 包 括 对 数据 库 系统 的 性 质 和 目标 的 综述 ， 对 关系 数据 模型 
和 关系 语言 的 介绍 ， 对 数据 库 设 计 过 程 、 关 系数 据 库 理论 以 及 数据 库 应 用 设计 和 开发 (包括 基于 Web 
的 界面 构建 数据 库 应 用 和 应 用 安全 性 问题 等 ) 的 详细 讨论 。 

第 10 ~ 19 章 主要 讨论 数据 库 系统 实现 技术 ， 包 括 数 据 存储 结构 、 数 据 存 取 技 术 、 查 询 优 化 方法 、 
事务 处 理 系统 的 基本 概念 和 并 发 控制 、 故 障 恢复 技术 ， 还 包括 在 并 行 数据 库 系 统 和 分 布 式 数据 库 系 统 
中 所 采用 的 一 些 主 要 策略 和 技术 。 

第 20 ~23 章 主要 讨论 数据 管理 与 应 用 的 深入 话题 ， 包 括 对 数据 仓库 和 数据 挖掘 概念 与 技术 的 较 详 
细 的 介绍 ， 以 及 对 用 于 查询 文本 数据 的 信息 检索 技术 (包括 在 Web 搜索 引擎 中 使 用 的 基于 超 链接 的 技 
AR) 的 介绍 。 这 一 部 分 还 介绍 了 新 型 的 数据 库 系统 ， 包 括 对 象 -关系 数据 库 模 型 、 数 据 表示 的 XML 标 
wE, AK XML 的 查询 语言 。 

第 24 ~ 26 章 是 一 些 高 级 话题 ， 内 容 包括 应 用 开发 中 的 诸如 性 能 调整 、 性 能 评测 标准 、 数 据 库 应 用 
测试 和 标准 化 等 高 级 话题 ， 以 及 空间 和 地 理 数 据 、 时 间 数 据 、 多 媒体 数据 、 移 动 和 个 人 数据 库 管 理 中 
的 问题 。 这 一 部 分 还 讨论 了 事务 处 理 监控 器 、 事 务工 作 流 、 电 子 商 务 、 高 性 能 事务 系统 、 实 时 事务 系 
统 和 持续 长 时 间 的 事务 等 高 级 事务 处 理 问 题 。 

第 27 ~ 30 章 对 PostgreSQL, Oracle, IBM DB2 和 Microsoft SQL Server 这 四 个 领先 的 数据 库 系 统 进行 
实例 研究 ， 结 合 这 几 个 具体 系统 来 讨论 前 面 各 部 分 描述 的 各 种 实现 技术 是 如 何 使 用 到 实际 系统 中 的 。 

上 述 五 大 部 分 中 第 一 部 分 的 主要 内 容 ， 以 及 第 二 、 第 三 、 第 四 部 分 的 部 分 内 容 可 以 作为 本 科 生 数 
据 库 概论 课程 的 教材 或 主要 参考 资料 ， 第 二 、 第 三 和 第 四 部 分 的 其 余 内 容 可 以 用 于 研究 生 的 数据 库 课 
程 教学 ， 第 五 部 分 可 以 作为 帮助 学 生 了 解 实际 系统 的 补充 材料 。 

杨 冬 青 、 李 红 燕 、 唐 世 渭 组 织 并 参加 了 本 书 的 翻译 和 审 校 工作 ; 参加 翻译 的 还 有 范 红 杰 、 程 序 、 
Ha, SBR. PRR. EWR. EM. BOY. 
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数据 库 管 理 已 经 从 一 种 专门 的 计算 机 应 用 发 展 为 现代 计算 环境 中 的 一 个 重要 成 分 ， 因 此 ， 有 关 数 

据 库 系统 的 知识 已 成 为 计算 机 科学 教育 中 的 一 个 核心 的 部 分 。 在 本 书 中 ， 我 们 讲述 数据 库 管 理 的 基本 
念 。 这 些 概念 包括 数据 库 设 计 、 数 据 库 语言 、 数 据 库 系统 实现 等 多 个 方面 。 

本 书 可 作为 本 科 生 三 年 级 或 四 年 级 数据 库 入 门 课程 的 教科 书 ， 也 可 作为 研究 生 一 年 级 的 教科 书 。 
除了 作为 入 门 课程 的 基本 内 容 外 ， 本 书 还 包括 了 可 作为 课程 补充 或 作为 高 级 课程 介绍 性 材料 的 高 级 
内 容 。 

我 们 仅 要 求 读 者 熟悉 基本 的 数据 结构 、 计 算 机 组 织 结构 和 一 种 高 级 程序 设计 语言 ， 例 如 Java、C 
或 Pascal。 书 中 的 概念 都 以 直观 的 方式 加 以 描述 ， 其 中 的 许多 概念 都 基于 我 们 大 学 运行 的 例子 加 以 痢 
释 。 本 书 中 包括 重要 的 理论 结果 ， 但 省 略 了 形式 化 证 明 ， 取 而 代 之 的 是 用 图 表 和 例子 来 说 明 为 什么 结 
论 是 正确 的 。 对 于 形式 化 描述 和 研究 结果 的 证 明 ， 读者 可 以 参考 文献 注解 中 列 出 的 研究 论文 和 高 级 
教材 。 

本 书 中 所 包括 的 基本 概念 和 算法 通常 是 基于 当今 的 商品 化 或 试验 性 的 数据 库 系 统 中 采用 的 概念 和 
算法 。 我 们 的 目标 是 在 一 个 通常 环境 下 描述 这 些 概 念 和 算法 ， 而 没有 与 某 个 特定 的 数据 库 系统 绑 定 。 
特定 的 数据 库 系 统 的 细节 将 在 第 九 部 分 “实例 研究 ”中 讨论 。 

在 本 书 第 6 版 中 ， 我 们 保持 了 前 面 版 本 的 总 体 风 格 ， 同 时 对 内 容 和 结构 进行 了 扩展 来 反映 数据 库 
设计 、 管 理 和 使 用 的 方式 所 发 生 的 变化 。 我 们 还 考虑 了 数据 库 概 念 的 教学 方面 的 趋势 ， 并 在 适当 的 地 
方 做 出 了 推动 这 种 趋势 的 修改 。 


本 书 的 组 织 


本 书 组 织 成 十 个 主要 部 分 : 

。 综述 (第 1 章 )。 第 1 章 对 数据 库 系统 的 性 质 和 目标 进行 了 一 般 性 综述 。 我 们 解释 了 数据 库 系 
统 的 概念 是 如 何 发 展 的 ， 各 数据 库 系 统 的 共同 特性 是 什么 ， 数 据 库 系统 能 为 用 户 做 什么 ， 以 及 
数据 库 系统 如 何 与 操作 系统 交互 。 我 们 还 引 人 了 一 个 数据 库 应 用 的 例子 : 包括 多 个 系 、 教 员 、 
学 生 和 课程 的 一 个 大 学 机 构 。 这 个 应 用 作为 贯穿 全 书 的 运行 实例 。 这 一 章 本 质 上 是 诱导 性 、 历 
史 性 和 解释 性 的 。 

。 第 一 部 分 : 关系 数据 库 (第 2 章 至 第 6 章 )。 第 2 章 介 绍 了 数据 的 关系 模型 ， 包括 基本 概念 ， 
诸如 关系 数据 库 的 结构 、 数 据 库 模 式 、 码 、 模 式 图 、 关 系 查询 语言 和 关系 操作 等 。 第 3 ~5 章 
主要 介绍 最 具 影 响 力 的 面向 用 户 的 关系 语言 一 一 SQL。 第 6 章 介 绍 形式 化 的 关系 查询 语言 ， 包 
括 关系 代数 、 元 组 关系 演算 和 域 关 系 演 算 。 

这 部 分 描述 了 数据 操纵 ， 包 括 查询 、 修 改 、 插 入 和 删除 (假设 已 有 一 个 模式 设计 )。 关 于 
模式 设计 的 问题 延迟 到 第 二 部 分 讲述 。 

。 第 二 部 分 : 数据 库 设 计 (第 7 章 至 第 9 章 ) 。 第 7 章 给 出 了 数据 库 设 计 过 程 的 概要 介绍 ， 主 要 


侧重 于 用 实体 - 联系 数据 模型 来 进行 数据 库 设 计 。 实 体 - 联系 模型 为 数据 库 设计 问题 ， 以 及 我 
们 在 数据 模型 的 约束 下 捕获 现实 应 用 的 语义 时 所 遇 到 的 问题 提供 了 一 个 高 层 视图 。UML 类 图 表 
示 也 在 这 一 章 中 讲述 。 

第 8 章 介绍 关系 数据 库 设计 理论 。 这 一 章 讲述 函数 依赖 和 规范 化 ， 重 点 强调 提出 各 种 范式 
的 动机 ， 以 及 它们 的 直观 含义 。 这 一 章 以 关系 设计 的 概览 开始 ， 依 赖 于 对 函数 依赖 的 逻辑 缠 酒 
的 直观 理解 。 这 使 得 规范 化 的 概念 可 以 在 函数 依赖 理论 的 完整 内 容 之 前 先 作 介绍 。 函 数 依赖 理 
论 将 在 本 章 中 稍 后 部 分 讨论 。 教 师 可 以 只 选用 8. 1 节 至 8. 3 节 这 些 较 前 面 的 章节 ， 而 不 会 丢失 
连贯 性 。 不 过 ， 完 整地 讲授 这 一 章 将 有 利于 学 生 对 规范 化 概念 形成 较 好 的 理解 ， 从 而 诱导 出 函 
数 依赖 理论 中 一 些 较 艰 深 的 概念 。 

第 9 章 讲述 应 用 设计 和 开发 。 这 一 章 侧重 于 用 基于 Web 的 界面 构建 数据 库 应 用 。 另 外 ， 这 
一 章 还 讲述 了 应 用 安全 性 。 

第 三 部 分 : 数据 存储 和 查询 (第 10 章 至 第 13 章 )。 第 10 章 讨论 存储 设备 、 文 件 和 数据 存储 结 
构 。 在 第 11 章 中 介绍 多 种 数据 存 取 技术 ， 包 括 B' 树 索引 和 散 列 。 第 12 章 和 第 13 章 阐 述 查 询 
执行 算法 和 查询 优化 。 这 两 章 使 用 户 能 更 好 地 理解 数据 库 的 存储 和 检索 的 内 部 机 制 。 
第 四 部 分 : 事务 管理 〈 第 14 章 至 第 16 章 ) 。 第 14 章 着 重 介绍 事务 处 理 系统 的 基本 概念 ， 包 括 
原子 性 、 一 致 性 、 隔 离 性 和 持久 性 。 它 还 提供 了 用 于 保证 这 些 特性 的 方法 的 一 个 概述 ， 包 括 封 
锁 和 快照 隔离 性 。 

第 15 章 重点 讲述 并 发 控制 ， 并 介绍 保证 可 串 行 化 的 几 种 技术 ， 包 括 封锁 、 时 间 惟 和 乐观 
(有 效 性 检查 ) 技术 。 在 这 一 章 中 还 讨论 死 锁 问 题 ， 并 介绍 保证 可 串 行 化 的 其 他 方法 ， 特 别 是 
详细 讨论 广泛 使 用 的 快照 隔离 方法 。 

第 16 章 讨论 在 系统 崩溃 和 存储 器 故障 情况 下 保证 事务 正确 执行 的 主要 技术 。 这 些 技术 包括 
日 志 、 检 查 点 和 数据 库 转 储 。 被 广泛 使 用 的 ARIES 算法 也 在 这 里 做 了 介绍 。 

第 五 部 分 : 系统 体系 结构 (第 17 章 至 第 19 章 ) 。 第 17 章 介 绍 计算 机 系统 体系 结构 ， 并 描述 了 
作为 基础 的 计算 机 系统 对 于 数据 库 系 统 的 影响 。 在 这 一 章 中 讨论 了 集中 式 系统 、 客 户 -服务 器 
系统 、 并 行 和 分 布 式 体系 结构 。 

在 第 18 章 关 于 并 行 数据 库 的 讨论 中 ， 我 们 探讨 了 各 种 并 行 技术 ， 包 括 YO 并 行 、 查 询 间 并 
行 和 查询 内 并 行 ， 以 及 操作 间 并 行 和 操作 内 并 行 。 这 一 章 中 还 讨论 了 并 行 系统 设计 。 

第 19 章 讨 论 分 布 式 数据 库 系 统 ， 在 分 布 式 数据 库 系 统 的 环境 下 重新 讨论 数据 库 设 计 、 事 务 
管理 、 查 询 执 行 和 优化 问题 。 这 一 章 还 包括 了 故障 时 的 系统 可 用 性 问题 ， 并 介绍 了 异 构 分 布 式 
数据 库 、 基 于 云 的 数据 库 和 分 布 式 目录 系统 。 

ABD: 数据 仓库 、 数 据 挖掘 与 信息 检索 (第 20 章 和 第 21 章 ) 。 第 20 章 介 绍 数 据 仓 库 和 数 
据 挖掘 的 概念 。 第 21 章 描 述 用 于 查询 文本 数据 的 信息 检索 技术 ， 包 括 在 Web 搜索 引擎 中 使 用 
的 基于 超 链接 的 技术 。 

第 六 部 分 使 用 了 第 一 部 分 和 第 二 部 分 的 模型 和 语言 概念 ， 但 并 不 依赖 于 第 三 部 分 、 第 四 部 

分 或 第 五 部 分 。 因 此 它 可 以 很 容易 地 结合 到 侧重 于 SQL 和 数据 库 设 计 的 课程 中 。 
第 七 部 分 : 特种 数据 库 (第 22 章 和 第 23 章 ) 。 第 22 章 介绍 基于 对 象 的 数据 库 。 该 章 讲 述 了 对 
象 - 关系 数据 模型 ， 该 模型 扩展 了 关系 数据 模型 以 支持 复杂 数据 类 型 、 类 型 继承 和 对 象 标识 。 
该 章 还 描述 了 用 面向 对 象 的 编程 语言 来 访问 数据 库 。 

第 23 章 介绍 数据 表示 的 XML 标准 ， 它 正 日 益 广泛 地 应 用 于 复杂 数据 交换 和 存储 。 这 一 章 





还 描述 了 XML 的 查询 语言 。 

。 第 八 部 分 : 高 级 主题 (第 24 章 至 第 26 章 ) 。 第 24 章 讨论 应 用 开发 中 的 高 级 话题 ， 包 括 性 能 调 
整 、 性 能 评测 标准 、 数 据 库 应 用 测试 和 标准 化 。 

第 25 章 介绍 空间 和 地 理 数 据 、 时 间 数 据 、 多 媒体 数据 以 及 移动 和 个 人 数据 库 管理 中 的 
问题 。 

最 后 ， 第 26 章 讨论 高 级 事务 处 理 。 这 一 章 的 内 容 包括 事务 处 理 监控 器 、 事 务工 作 流 、 电 子 
商务 、 高 性 能 事务 系统 、 实 时 事务 系统 和 持续 长 时 间 的 事务 。 

。 第 九 部 分 : 实例 研究 (第 27 章 至 第 30 章 ) 。 在 这 一 部 分 我 们 对 四 个 领先 的 数据 库 系 统 进 行 实 
例 研究 ， 包 括 PostgreSQL, Oracle, IBM DB2 和 Microsoft SQL Server。 这 几 章 中 列举 了 上 述 每 一 
种 系统 的 独 有 特性 ， 描 述 了 它们 的 内 部 结构 ， 提 供 了 关于 各 个 产品 的 丰富 的 有 用 信息 ， 帮 助 读 
者 了 解 前 面 各 部 分 描述 的 各 种 实现 技术 是 如 何 使 用 到 实际 系统 中 的 。 这 几 章 中 还 包括 实际 系统 
设计 中 的 几 个 有 趣 的 方面 。 

。 第 十 部 分 : 附录 (附录 A ~ 附录 玉 ) 。 我 们 提供 5 个 附录 ， 包 括 一 些 历 史 性 的 和 高 级 的 内 容 ; 这 
些 附录 只 在 本 书 的 Web 站 点 (http://www. db-book. com) 中 联机 提供 。 只 有 附录 A (详细 的 大 
学 模式 ) 例外 ， 它 给 出 了 我 们 的 大 学 模式 的 细节 ， 包 括 完整 的 模式 、DDL 和 所 有 的 表 。 这 个 附 
录 出 现在 纸 质 版 本 中 。 

附录 B ( 高 级 关系 数据 库 设计 ) 描述 了 高 级 关系 数据 库 设计 ， 包 括 多 值 依赖 理论 、 连 接 依 
赖 、 投 影 连接 和 域 - 码 范 式 。 这 个 附录 是 为 希望 更 详细 地 研究 关系 数据 库 设计 理论 的 读者 ， 以 
及 希望 在 课程 中 这 样 做 的 教师 准备 的 。 这 个 附录 同样 只 是 联机 提供 ， 就 在 本 书 的 网 站 上 ， 

附录 C《〈 其 他 关系 查询 语言 ) 描述 其 他 的 关系 查询 语言 ， 包 括 QBE Microsoft Access 和 
Datalog。 

虽然 大 多 数 新 的 数据 库 应 用 系统 使 用 关系 模型 或 对 象 - 关系 模型 ， 但 网 状 的 和 层次 的 数据 
模型 在 一 些 遗 留 应 用 中 也 仍然 在 使 用 。 为 了 满足 希望 了 解 这 些 数据 模型 的 读者 的 需要 ， 我 们 给 
出 了 描述 网 状 和 层次 的 数据 模型 的 附录 ， 分 别 为 附录 D (网 状 模型 ) 和 附录 卫 (层次 模型 ) 。 


第 6 版 


对 于 本 书 第 6 版 的 产生 起 指导 作用 的 包括 我 们 收 到 的 关于 前 面 几 版 的 许多 意见 和 建议 ,我 们 在 耶鲁 大 
学 、 利 哈 依 大 学 、 备 买 印度 理工 学 院 讲授 本 课程 的 体会 ， 以 及 我 们 对 于 数据 库 技 术 发 展 方向 的 分 析 。 

我 们 用 一 个 大 学 的 例子 替换 了 原先 的 银行 企业 的 运行 例子 。 这 个 例子 与 学 生 相 关 ， 不 仅 有 助 于 他 
们 记 住 这 个 例子 ， 而 且 更 重要 的 是 ， 使 他 们 能 够 更 深 地 洞察 所 需 进行 的 各 种 设计 决策 。 

我 们 重新 组 织 了 这 本 书 ， 将 我 们 关于 SQL 的 介绍 都 集中 在 一 起 ， 放 在 本 书 的 开头 部 分 。 第 3 章 、 
第 4 章 和 第 5 章 对 SQL 进行 完整 的 介绍 。 第 3 章 给 出 该 语言 的 基础 ， 而 将 更 高 级 的 特性 放 在 了 第 4 章 。 
在 第 5 章 中 ， 我 们 介绍 从 通用 的 程序 设计 语言 访问 SQL 的 JDBC 和 其 他 方法 。 我 们 介绍 触发 器 和 递归 ， 
最 后 讨论 联机 分 析 处 理 〈OLAP) 。 入 门 性 的 课程 可 以 选择 只 包括 第 5 章 的 某 些 节 ， 或 者 将 一 些 节 延 迟 
到 讲 过 了 数据 库 设计 之 后 再 讲 ， 这 样 也 不 失 连 续 性 。 

除了 这 两 个 主要 的 改变 外 ， 我 们 修订 了 每 一 章 中 的 素材 ， 对 旧 的 素材 进行 更 新 ， 增 加 对 于 数据 库 
技术 的 新 的 发 展 的 讨论 ， 并 且 改 进 学 生 难 于 理解 的 那些 内 容 的 描述 。 我 们 还 增加 了 新 的 练习 并 更 新 了 
参考 文献 。 具 体 的 改变 如 下 。 

© RENAT SQL. 许多 讲课 教师 使 用 SQL 作为 课程 实习 的 核心 成 分 (访问 我 们 的 网 站 www. db- 


book. com 以 参考 示例 课程 实习 ) 。 为 了 给 学 生 充 足 的 时 间 做 课程 实习 ， 尤 其 对 于 那些 四 学 期 制 
的 大 学 和 学 院 来 说 ， 尽 早教 授 SQL 非常 重要 。 有 了 这 个 认识 ， 我 们 在 内 容 组 织 方面 做 了 几 个 
改动 : 

O 用 新 的 一 章 (第 2 章 ) 介绍 关系 模型 ， 放 在 SQL 之 前 ， 打 下 概念 基础 ， 而 不 使 学 生 迷 失 在 
关系 代数 的 细节 中 。 

口 第 3 章 、 第 4 章 和 第 5 章 详 细 介绍 SQL。 这 几 章 还 讨论 不 同 的 数据 库 系统 支持 的 变 体 ， 从 而 
当 学 生 在 实际 的 数据 库 系统 上 执行 查询 时 会 少 遇 到 一 些 问题 。 这 几 章 泣 盖 了 SQL 的 所 有 方 
面 ， 包 括 查 询 、 数 据 定义 、 约 束 说 明 、0OLAP 和 从 各 种 语言 (包括 Java/ JDBC) 内 部 使 
用 SQL。 

O 形式 语言 (第 6 章 ) 推迟 到 SQL 之 后 ， 而 且 可 以 略 掉 不 讲 ， 而 不 会 影响 其 他 章 的 顺序 ， 
有 在 第 13 章 关 于 查询 优化 的 讨论 依赖 于 第 6 章 介 绍 的 关系 代数 。 

新 的 数据 库 模式 。 我 们 采用 了 一 个 新 的 模式 作为 贯穿 全 书 的 运行 实例 ， 基 于 大 学 的 数据 。 对 于 

学 生来 说 ， 这 个 模式 比 以 前 的 银行 模式 更 加 直观 和 有 意义 ， 而 且 在 数据 库 设 计 的 章节 中 展示 了 

更 复杂 的 设计 权衡 。 

对 学 生 的 亲手 实践 提供 了 更 多 的 支持 。 为 了 推动 学 生 跟 着 我 们 的 运行 实例 进行 实践 ， 我 们 在 附 

RA 中 列 出 了 大 学 数据 库 的 数据 库 模式 和 样 例 的 关系 实例 ， 并 在 用 到 大 学 实例 的 各 个 章 中 也 进 

行 了 说 明 。 另 外 ， 在 我 们 的 Web 站 点 http://www. db-book. com 上 ， 提 供 了 对 于 整个 例子 的 SQL 

数据 定义 语句 ， 以 及 建立 我 们 的 样 例 关系 实例 的 SQL 语句 。 这 鼓励 了 学 生 直 接 在 一 个 实际 的 数 

据 库 系统 中 去 运行 样 全 查询， 并 且 试 着 去 修改 这 些 查询 。 

修订 了 对 E-R 模型 的 涵盖 。 我 们 修改 了 第 7 章 中 E-R 图 的 符号 表示 ， 以 使 得 它 与 UML 更 兼容 。 

这 一 章 还 充分 利用 了 新 的 大 学 数据 库 模式 来 描述 更 复杂 的 设计 权衡 。 

修订 了 对 关系 设计 的 涵盖 。 第 8 章 的 风格 现在 更 具 可 读 性 ， 它 在 阐述 函数 依赖 理论 之 前 提供 了 

对 函数 依赖 和 规范 化 的 一 个 直观 的 理解 ， 其 结果 是 理论 的 动机 更 清晰 了 。 

扩充 了 关于 应 用 开发 和 安全 性 的 素材 。 第 9 章 包括 了 关于 应 用 开发 的 新 的 素材 ， 以 反映 该 领域 

的 快速 变化 。 特 别 地 ， 扩 展 了 关于 安全 性 的 介绍 ， 包 括 它 在 当今 紧密 互联 的 世界 中 的 至 关 重 要 

性 ， 并 重点 强调 了 抽象 概念 外 的 实际 问题 。 

修订 和 更 新 了 对 数据 存储 、 索 引 和 查询 优化 的 涵盖 。 对 第 10 章 进 行 了 新 技术 方面 的 更 新 ， 包 

括 对 闪存 的 更 多 的 讨论 。 

更 新 了 第 11 BY B' 树 的 讨论 ， 以 反映 实际 的 实现 ， 包 括 对 批量 载 人 的 介绍 ， 并 且 对 陈述 
方式 也 进行 了 改进 。 第 11 章 中 B' 树 的 例子 修改 成 了 n=4， 以 避免 (不 切实 际 的 ) n=3 时 发 
生 的 空 结 点 的 特殊 情况 。 

第 13 章 中 有 关于 高 级 查询 优化 技术 的 新 的 素材 。 
修订 了 对 事务 管理 的 涵盖 。 第 14 章 全 面 涵盖 了 入 门 性 课程 中 的 基础 知识 ， 而 高 级 的 细 记 在 第 
15 章 和 第 16 章 中 介绍 。 我 们 扩展 了 第 14 章 ， 以 涵盖 数据 库 用 户 和 数据 库 应 用 开发 人 员 所 面 对 
的 事务 管理 的 实际 问题 。 这 一 章 还 包括 了 对 第 15 章 和 第 16 章 所 讨论 话题 的 扩展 的 综述 ， 以 确 
保 即 使 略 掉 第 15 章 和 第 16 章 ， 学 生 仍 能 对 并 发 控制 和 恢复 的 概念 有 基本 的 了 解 。 

第 14 章 和 第 15 章 现 在 包括 了 对 当今 被 广泛 支持 和 使 用 的 快照 隔 立 性 的 详细 介绍 ， 对 于 使 
用 它 的 潜在 风险 也 做 了 介绍 。 

第 16 章 现在 对 基本 的 基于 日 志 的 恢复 进行 了 简化 的 描述 ， 进 一 步 介绍 了 ARIES 算法 。 
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。 修订 和 扩充 了 对 分 布 式 数据 库 的 涵盖 。 我 们 现在 涵盖 了 云 数据 存储 ， 它 在 商业 应 用 中 正 日 益 受 
到 极 大 的 重视 。 云 存储 为 企业 提供 了 改进 成 本 管理 和 增加 存储 可 扩充 性 的 机 遇 ， 特 别 是 对 于 基 
于 Web 的 应 用 。 我 们 分 析 了 这 些 优点 ， 也 指出 了 可 能 的 缺点 和 风险 。 

我 们 原来 在 高 级 事务 处 理 这 一 章 中 讨论 多 数据 库 ， 现 在 对 它 更 早 地 进行 了 介绍 ， 作 为 分 布 
式 数据 库 这 一 章 中 的 一 部 分 。 

。 推迟 了 对 对 象 数据 库 和 XML 的 介绍 。 虽 然 面向 对 象 的 语言 和 XML 在 数据 库 的 范围 之 外 被 广泛 
使 用 ， 但 在 数据 库 中 的 使 用 仍然 有 限 ， 这 使 得 它们 对 于 高 级 课程 或 作为 人 门 性 课程 的 补充 材料 
更 适合 一 些 。 因 此 这 些 话题 在 本 书 中 向 后 移 了 ， 放 到 了 第 22 章 和 第 23 章 。 

e QBE、Microsoft Access 和 Datalog 放 在 联机 附录 中 。 这 些 话题 原来 是 “其 他 关系 语言 ”这 一 
章 中 的 一 部 分 ， 现 在 放 在 联机 附录 C 中 了 。 

上 面 没有 列 出 的 所 有 话题 都 在 第 5 版 的 基础 上 做 了 更 新 ， 虽 然 相 对 地 它们 的 总 体 组 织 没有 


回顾 材料 和 习题 


每 一 章 都 有 一 个 术语 回顾 表 ， 还 有 一 个 总 结 ， 这 可 以 帮助 读者 回顾 这 一 章 中 涵盖 的 关键 话题 。 
练习 划分 成 两 部 分 : 实践 习题 (practice exercise) 和 习题 (exercise) 。 实 践 习题 的 解答 在 本 书 的 
Web 站 点 公开 发 布 。 我 们 鼓励 学 生 独 立 解决 这 些 实践 习题 ， 然 后 用 Web 站 点 上 的 解答 来 检查 自己 的 答 
案 。 其 他 练习 题 的 解答 只 有 讲课 教师 能 得 到 ( 参看 下 面 的 “讲课 教师 注意 事项 ”以 获取 如 何 得 到 题解 
的 信息 ) 。 
许多 章 的 末尾 有 一 个 “工具 ” 节 ， 它 提供 与 该 章 的 话题 相关 的 软件 工具 的 信息 ; 这 些 工具 中 的 一 
些 可 以 用 于 实验 室 练习 。 大 学 数据 库 和 习题 中 用 到 的 其 他 关系 的 SQL DDL 和 样 例 数 据 在 本 书 的 Web 站 
点 可 以 得 到 ， 也 可 以 用 于 实验 室 练 习 。 
讲课 教师 注意 事项 
本 书包 括 基本 内 容 和 高 级 内 容 ， 在 一 个 学 期 内 也 许 不 能 讲授 所 有 这 些 内 容 。 我 们 以 符号 “… ”把 
某 些 节 标记 为 高 级 内 容 ， 如 果 愿 意 的 话 可 以 省 略 这 些 节 ， 而 仍 能 保持 内 容 的 连续 性 。 较 难 的 〈 可 以 忽 
略 的 ) 练习 同样 用 符号 ““* ”标记 出 来 了 。 
可 以 用 本 书 各 章 的 不 同 子 集 来 设计 课程 。 某 些 章 也 可 以 用 不 同 于 本 书 中 的 顺序 来 讲授 。 我 们 列 出 
一 些 可 能 的 安排 如 下 : 
。 第 5 章 可 以 跳 过 或 推迟 到 后 面 讲 ， 而 不 失 连 续 性 。 我 们 期 望 大 多 数 的 课程 至 少 5. 1. 1 节 较 早 地 
讲授 ， 因 为 JDBC 很 可 能 会 是 学 生 实 习 的 一 个 有 用 工具 。 
。 第 6 章 可 以 在 第 2 章 之 后 、 讲 SQL 之 前 讲 。 也 可 以 把 这 一 章 从 人 门 性 的 课程 中 省 略 掉 。 
我 们 建议 如 果 课 程 中 讲 查询 处 理 的 话 ， 那 么 把 6. 1 节 也 包括 在 课程 中 。 但 是 ， 如 果 学 生 在 
课程 中 不 使 用 关系 演算 的 话 ， 那 么 6.2 节 和 6. 3 节 可 以 省 略 。 
。 如 果 教 师 愿 意 的 话 ， 第 7 章 可 以 在 第 3 章 、 第 4 章 和 第 5 章 之 前 讲 ， 因 为 第 7 章 完全 不 依赖 
于 SQL。 
。 第 13 章 可 以 从 入 门 性 的 课程 中 省 略 掉 ， 而 对 于 其 他 任何 章 的 讲授 都 没有 影响 。 
。 我 们 对 事务 处 理 的 讨论 (第 14 章 至 第 16 E) 和 对 系统 体系 结构 的 讨论 (第 17 章 至 第 19 章 ) 
都 包括 一 章 综述 (分 别 为 第 14 章 和 第 17 章 ) 和 后 续 的 两 章 详细 讨论 。 如 果 计 划 把 后 面 几 音 推 


迟到 高 级 课程 中 去 讲授 ， 可 以 选择 使 用 第 14 章 和 第 17 章 ， 省 略 第 15 章 、 第 16 章 、 第 18 章 和 
第 19 章 。 

。 第 20 章 和 第 21 章 介绍 数据 仓库 、 数 据 挖掘 和 信息 检索 ， 它 们 可 以 用 作 自 学 材料 或 从 入 门 性 课 
程 中 删 去 。 

© 对 于 入 门 性 课程 来 说 ， 可 以 不 讲 第 22 章 和 第 23 章 。 

© 第 24 章 至 第 26 章 涵盖 高 级 应 用 开发 ， 空 间 、 时 间 和 移动 数据 ， 以 及 高 级 事务 人 处理 ， 更 适合 于 
高 级 课程 或 学 生 自 学 。 

。 第 27 章 至 第 30 章 的 实例 研究 适合 学 生 自学 。 或 者 ， 这 几 章 可 以 用 作 课 堂上 讲 的 前 面 那 些 章 的 
概念 的 实例 。 

基于 本 书 的 样 例 课 程 提纲 可 以 在 本 书 的 Web 站 点 找到 。 


Web 站 点 和 教学 补充 材料 : 


本 书 的 Web 站 点 的 网 址 是 : 
http://www. db-book. com 

该 站 点 包括 以 下 内 容 : 

。 本 书 所 有 各 章 的 幻灯 片 

。 实践 习题 的 答案 

© 五 个 附录 

。 最 新 勘误 表 

。 实验 素材 ， 包 括 大 学 模式 和 习题 中 用 到 的 其 他 关系 的 SQL DDL 和 样 例 数据 ， 以 及 关于 建立 和 使 

用 各 种 数据 库 系统 和 工具 的 说 明 书 

下 列 附 加 材料 仅 有 教师 可 以 获得 : 

。 包括 书 中 所 有 习题 的 答案 的 教师 手册 

。 包括 额外 习题 的 问题 库 

关于 如 何 得 到 教师 手册 和 问题 库 的 进一步 信息 ， 请 发 电子 邮件 到 customer. service @ mcgraw- 
hill. com, McGraw-Hill 关于 本 书 的 网 页 是 


http://www. mhhe. com/silberschatz 


与 我 们 联系 


我 们 已 尽 了 最 大 的 努力 来 避免 在 本 书 中 出 现 排版 错误 、 内 容 失 误 等 。 然 而 ,与 发 布 新 软件 类 似 ， 
错误 在 所 难免 ; 在 本 书 的 Web 站 点 中 有 一 个 最 新 勘误 表 。 如 果 你 能 指出 尚未 包含 在 最 新 勘误 表 中 的 本 
书 的 疏漏 之 处 ， 我 们 将 十 分 感激 。 

我 们 很 高 兴 能 收 到 你 对 改进 本 书 的 建议 ， 我 们 也 很 欢迎 你 对 本 书 Web 站 点 做 出 对 其 他 读者 有 用 的 
贡献 ， 例 如 程序 设计 练习 、 课 程 实习 建议 、 联 机 实验 室 和 指南 以 及 讲课 要 点 等 。 

请 将 电子 邮件 发 到 db-book-authors @cs. yale. edu。 其 他 来 信 请 寄 到 Avi Silberschatz, Department of 
Computer Science, Yale University, 51 Prospect Street, P. O. Box 208285, New Haven, CT 06520-8285 USA, 


致谢 
许多 人 对 于 第 6 版 以 及 第 6 版 所 源 自 的 前 5 版 提供 了 帮助 。 


第 6 版 


Anastassia Ailamaki, Sailesh Krishnamurthy, Spiros Papadimitriou 和 Bianca Schroeder ( Carnegie 
Mellon University) ， 他 们 撰写 了 第 27 章 ， 描 述 PostgreSQL 数据 库 系 统 。 

Hakan Jakobsson (Oracle) ， 他 撰写 了 第 28 章 ， 描 述 Oracle 数据 库 系统 。 

Sriram Padmanabhan (IBM) ,他 撰写 了 第 29 章 ， 描 述 IBM DB2 数据 库 系统 。 

Sameet Agarwal, José A. Blakeley, Thierry D'Hers, Gerald Hinson, Dirk Myers, Vaqar Pirzada, Bill 
Ramos, Balaji Rathakrishnan, Michael Rys, Florian Waas 和 Michael Zwilling (全 部 来 自 Microsoft ) , 
他 们 撰写 了 第 30 章 ， 描 述 Microsoft SQL Server 数据 库 系 统 。 特 别 地 ，José Blakeley 对 这 一 章 进 
行 了 协调 和 编辑 ; César Galindo-Legaria，Goetz Graefe，Kalen Delaney 和 Thomas Casey ( 全 部 来 自 
Microsoft) 对 于 前 一 版 中 的 Microsoft SQL Server 这 一 章 做 出 了 贡献 。 

Daniel Abadi 审阅 了 第 5 版 的 目录 表 ， 并 协助 进行 了 新 的 组 织 。 

Steve Dolins (University of Florida), Rolando Fernanez (George Washington University), Frantisek 
Franek (McMaster University) , Latifur Khan ( University of Texas-Dallas) , Sanjay Madria ( University 
of Missouri-Rolla) , Aris Ouksel ( University of Illinois) 和 Richard Snodgrass ( University of Waterloo) , 
他 们 作为 本 书 的 审阅 人 ， 他 们 的 意见 对 于 我 们 形成 第 6 版 帮助 很 大 。 

Judi Paige， 她 帮助 形成 了 插图 和 演示 幻灯 片 。 

Mark Wogahn， 他 保证 了 生成 本 书 文本 的 软件 正常 工作 ,包括 LaTeX 宏和 字体 。 

N. L. Sarda， 他 的 反馈 帮助 我 们 改进 了 好 几 章 ， 特 别 是 第 11 Æ; Vikram Pudi， 他 促使 我 们 替换 
掉 原 来 的 银行 模式 ; Shetal Shah， 他 对 几 个 章节 给 出 了 反馈 。 

耶鲁 大 学 和 印度 孟买 理工 学 院 的 学 生 ， 他 们 对 第 5 版 ， 以 及 第 6 版 的 预 印 本 给 出 了 意见 。 


前 面 各 版 


Chen Li, Sharad Mehrotra, ， 他 们 为 第 5 版 提供 了 关于 JDBC 和 安全 性 的 素材 。 

Marilyn Turnamian 和 Nandprasad Joshi 为 第 5 版 担任 秘书 工作 ，Marilyn 还 为 第 5 版 准备 了 一 个 封 
面 设 计 的 早期 版 本 。 

Lyn Dupré 对 第 3 版 进行 了 审查 ，Sara Strandtman 对 第 3 版 进行 了 文字 编辑 。 

Nilesh Dalvi, Sumit Sanghai, Gaurav Bhalotia, Arvind Hulgeri K. V. Raghavan, Prateek Kapadia, Sara 
Strandtman, Greg Speegle 和 Dawn Bezviner 协助 准备 了 前 面 各 版 的 教师 素材 。 

用 船 作为 封面 概念 的 一 部 分 的 想法 最 初 是 Bruce Stephan 向 我 们 建议 的 。 

以 下 人 士 指出 了 第 5 版 中 的 错误 之 处 : Alex Coman, Ravindra Guravannavar, Arvind Hulgeri, Rohit 
Kulshreshtha, Sang-Won Lee, Joe H. C. Lu, Alex N. Napitupulu, H. K. Park, Jian Pei, Fernando 
Saenz Perez, Donnie Pinkston, Yma Pinto, Rajarshi Rakshit, Sandeep Satpal, Amon Seagull, Barry 
Soroka, Praveen Ranjan Srivastava, Hans Svensson, Moritz Wiese 和 Eyob Delele Yirdaw, 

以 下 人 士 对 本 书 第 5 版 和 前 面 各 版 提出 了 建议 和 意见 : R. B. Abhyankar, Hani Abu-Salem, Jamel 
R. Alsabbagh, Raj Ashar, Don Batory, Phil Bernhard, Christian Breimann, Gavin M. Bierman, Janek 
Bogucki, Haran Boral, Paul Bourgeois, Phil Bohannon, Robert Brazile, Yuri Breitbart, Ramzi 
Bualuan, Michael Carey, Soumen Chakrabarti, Tom Chappell, Zhengxin Chen, Y. C. Chin, Jan 
Chomicki, Laurens Damen, Prasanna Dhandapani, Qin Ding, Valentin Dinu, J. Edwards, Christos 
Faloutsos, Homma Farian, Alan Fekete, Frantisek Franek, Shashi Gadia, Hector Garcia-Molina, Goetz 


Graefe, Jim Gray, Le Gruenwald, Eitan M. Gurari, William Hankley, Bruce Hillyer, Ron Hitchens, 


Chad Hogg, Arvind Hulgeri, Yannis Ioannidis, Zheng Jiaping, Randy M. Kaplan, Graham J. L. Kemp, 
Rami Khouri, Hyoung-Joo Kim, Won Kim, Henry Korth ( Henry F. 的 父亲 ) , Carol Kroll, Hae Choon 
Lee, Sang-Won Lee, Irwin Levinstein, Mark Llewellyn, Gary Lindstrom, Ling Liu, Dave Maier, Keith 
Marzullo, Marty Maskarinec, Fletcher Mattox, Sharad Mehrotra, Jim Melton, Alberto Mendelzon, Ami 
Motro, Bhagirath Narahari, Yiu-Kai Dennis Ng, Thanh-Duy Nguyen, Anil Nigam, Cyril Orji, Meral 
Ozsoyoglu, D. B. Phatak, Juan Altmayer Pizzorno, Bruce Porter, Sunil Prabhakar, Jim Peterson, 
K. V. Raghavan, Nahid Rahman, Rajarshi Rakshit, Krithi Ramamritham, Mike Reiter, Greg Riccardi, 
Odinaldo Rodriguez, Mark Roth, Marek Rusinkiewicz, Michael Rys, Sunita Sarawagi, N. L. Sarda, 
Patrick Schmid, Nikhil Sethi, S. Seshadri, Stewart Shen, Shashi Shekhar, Amit Sheth, Max Smolens, 
Nandit Soparkar, Greg Speegle, Jeff Storey, Dilys Thomas, Prem Thomas, Tim Wahls, Anita 
Whitehall, Christopher Wilson, Marianne Winslett, Weining Zhang 和 Liu Zhenming, 


本 书 的 制作 出 版 

出 版 人 是 Raghu Srinivasan。 策 划 编 辑 是 Melinda D. Bilecki。 项 目 经 理 是 Melissa Leick。 市 场 经 理 是 
Curt Reynolds。 作 品 监督 人 是 Laura Fuller。 设 计 者 是 Brenda Rolwes。 封 面 设计 是 Studio Montage, 
St. Louis, Missouris X F fa fE Œ George Watson。 校 对 是 Kevin Campbell。 特 约 索 引 制 作者 是 Tobiah 
Waldron。Aptara team 由 Raman Arora 和 Sudeshna Nandy 组 成 。 
个 人 注 记 

Sudarshan 感谢 他 的 妻子 Sita 的 爱 和 支持 ， 感 谢 他 的 孩子 Madhur 和 Advaith 的 爱 和 乐观 精神 。Hank 
感谢 他 的 妻子 Joan, ZF Abby 和 Joe 的 爱 和 理解 。Avi 感谢 Valerie 在 本 书 修 订 期 间 的 爱 、 耐 心 和 支持 。 


出 版 者 的 话 
译 者 序 
前 言 
he Bey peer 1 
1. 1 数据 库 系统 的 应 用 eee 1 
1.2 ”数据库 系统 的 目标 ……………………………… 2 
LI 激 据 视图 nis 4 
L3.1 数据 芹 钢 eidvi 4 
13.3 ， 实 向 和 撞 址 veontssriseesissss 5 
1.3.3 北 据 灿 堆 ee 5 
1.4 数据库 语言 .pp 6 
1.4.1 数据 操纵 语言 和 6 
1.4.2 数据 定义 语言 .pp 6 
L5 FAE 0 7 
1.5.1 表 ee 7 
15.2 ARRET iiine 8 
1.5.3 数据 定义 语言 .ppp 8 
1.5.4 来 自 应 用 程序 的 数据 库 访问 ……… 8 
1.6 数据 库 设 计 pp 9 
1.6.1 设计 过 程 :ppp 9 
1.6.2 大 学 机 构 的 数据 库 设计 ………… 9 
3 BR —PE RMD eanan 10 
Gch BUTE A 11 
1.7 数据 存储 和 查询 PP 11 
1.7.1 存储 管理 器 .ee 12 
7:2 查询 外 理 吉 vesevessoisseiress 12 
1.8 事务 管理 … 12 
1.9 ”数据 库 体系 结构 ……………………………… 13 
1.10 数据 挖掘 与 信息 检索 ………………… 15 


目录 


Database System Concepts, 6E 


1. 11 特种 数据 库 0 15 
1.11.1 基于 对 象 的 数据 模型 ………… 15 
1.11.2 半 结 构 化 数据 模型 …………… 16 

1.12 ”数据 库 用 户 和 管理 员 ，…………………: 16 
1.12.1 数据 库 用 户 和 用 户 界面 ove 16 
1.12.2 数据 库 管 理 员 cee cece eee ee eee 16 

1.13 数据 库 系 统 的 历史 Gat IE i tees 17 

1.14 ”总结 ii 18 

a), See eee 19 

实践 习题 pp 19 

Sj 19 

TR es 20 

PEI T AE ET 20 

第 一 部 分 “关系 数据 库 
第 2 章 关系 模型 介绍 ppp 22 

3.1 关系 数据 库 的 结构 PENENT POTAS 22 

ple} 数据 库 模式 SUT Tre Iy Oro 23 

2.3 P erssserssrissssssisssveessscsssesserssós 24 

2.4 模式 图 pp 25 

2.5 关系 宕 询 语言 wooed 26 

2.6 关系 运算 pe 27 

pr ET 28 

术语 回顾 ee 29 

RJE vi ivireeninr rr 29 

Se 30 

Sh ey See ee Ee 30 

WS SOL as ccencscrncwsonsacer 31 

3.1 SQL 查询 语言 概览 eeen 31 


.2 ”SQL 数据 定义 eteeeeeeeee: 32 
3.2.1 基本 类 型 pp 32 
3.2.2 基本 模式 定义 .pp 32 

.3 SQL 查询 的 基本 结构 ………… 34 
3.3.1 BK RBM :pp 34 
53.9. A E accnniwrmsasacss 35 
3.3.3 自然 连接 和 38 

.4 ”附加 的 基本 运算 ………………………: 40 
3.4.1 更 名 运算 nd 40 
$4 Le mone peter ec 41 
3.4.3 select 子 句 中 的 属性 说 明 …… 42 
3.4.4 排列 元 组 的 显示 次 序 ………… 42 
3.4.5 where 子 句 谓词 ppp 42 

cS (ag A E 43 
3.5.1 并 运算 .pp 43 
is Bite" A 交 运 算 人 44 
3 tS Seperate 44 

SS |= eee 45 

.7 <<); Gee 46 
3.7.1 基本 聚集 … teense eseeee eens 46 
3.7.2 DMR Se 46 
3.7.3 having 也 名 ee 47 
3.7.4 ”对 空 值 和 布尔 值 的 聚集 ………: 48 

.8 册 套 子 查询 … eee e eee eee eee eene ees 48 
3.8.1 SEAR REG correc eee eee reece eee 49 
32 fo, Cee 49 
3.8.3 空 美 系 测试 人 enn。 50 
3.8.4 ”重复 元 组 存在 性 测试 …………… 51 
3.8.5 from 子 句 中 的 子 查询 …………… 52 
3.8.6 with 子 句 ee 53 
3 53 

.9 ”数据 库 的 修改 ………………… eee eeee eens 54 
3.9.1 WM) eee eee eee ces 54 
3.9.2 HEA .ee 55 
3.9.3 更 新 .pe 56 
10 总结 pe 57 


3 60 
工具 se 61 
文献 注解 62 
WAM WE SOL. joven 63 
4.1 连接 表达 式 RSs a E E ES 63 
4.1.1 连接 条 件 PP 63 
4.1.2 外 连接 re 64 
ATS 连接 类 型 和 条 件 A 67 
2 视图 于 eis 67 
42:1 视图 定义 op 68 
4.2.2 SQL 查询 中 使 用 视图 .……………- 68 
4.2.3 HACME oooveeeaeoeeeseoee 69 
ee ae he omer Terre 69 
We 71 
i 71 
4.4.1 单个 关系 上 的 约束 pv 72 
A.B. % not ull BYR -e~eesees vevereveeess 72 
4.4.3 unique 约束 pp 72 
pe 72 
4.4.5 参照 完整 性 i 73 
4.4.6 事务 中 对 完整 性 约束 的 
违反 75 
4.4.7 复杂 check 条 件 与 断言 ………… 75 
.5 SQL 的 数据 类 型 与 模式 …………………… 76 
4.5.1 SQL 中 的 日 期 和 时 间 类 型 …… 76 
4.5.2 误导 0 77 
4.5.3 创建 索引 .ee 77 
4.5.4 大 对 象 类 型 .pp FT 
4.5.5 FP RMA KB cree eee ee eeee eee 78 
4.5.6 create table 的 扩展 ………………… 79 
4.5.7 模式 、 目 录 与 环境 ……………………… 80 
.6 授权 .pe 80 
4.6.1 权限 的 授予 与 收回 …………… 81 
4.6.2 角色 00 roe 82 
4.6.3 AAA eers 82 


4.6.4 模式 的 授权 83 
4.6.5 权限 的 转移 ee 83 
ASG RAEE e eraai 84 
4.7 总 缚 .pp 85 
术语 回顾 pp 85 
实践 习题 oo 85 
习题 PE Tr rer T 87 
Ba ccs Meee 87 
第 5 章 高 级 SQL .pp 88 
5.1 使 用 程序 设计 语言 访问 数据 库 …… 88 
5.1.1 JDBC Cee 89 
5.1.2 ODBC wi i 93 
5-153 AANA SQL Cee 95 
5.2 函数 和 过 程 pp 97 

5.2.1 上 声明 和 调用 SQL 函数 和 
过 外 dows apes cecstst acs cae 98 

5.2.2 支持 过 程 和 函数 的 语言 
Pp one cevvraiee censnesyvernereseiees 99 
eee 2 ee erro 101 
ee 6 See ee eres 102 
5.3.1 对 触发 器 的 需求 ereere 102 
5.3.2 SQL 中 的 触发 器 和 pp 102 
5.3.3 何 时 不 用 触发 器 ………………… 105 
5.4 递归 查询 pp 106 
5.4.1 用 和 迭代 来 计算 传递 闭 包 ……: 106 
5.4.2 SQL 中 的 递归 pp 107 
5.5 高 级 聚集 特性 ” pp 109 
5.5.1 排名 pp 109 
5.5.2 分 窗 ee 110 
5.6 OLA .es 112 
5.6.1 WDM ainia 112 
5.6.2 交叉 表 与 关系 表 和 pp 114 
5.6.3 SQL 中 的 OLAP eetere 116 
ST 总 结 KLE EE EY LEA LEN EA EIT 118 
RE Gl) | eee 118 


习题 .pp 120 
工具 .Ne 121 
文献 注解 122 
第 6 章 形式 化 关系 查询 语言 …… 123 
6.1 关系 代数 ppp 123 
6.1.1 基本 运算 pp 123 
6.1.2 关系 代数 的 形式 化 定义 or 128 
6.1.3 附加 的 关系 代数 运算 ………: 129 
6.1.4 扩展 的 关系 代数 运算 ……… 132 
6.2 元 组 关系 演算 wee5sosoeosoieees 135 
6.2.1 查询 示例 :pp 135 
6.2.2 形式 化 定义 creeceeerccesceeevees 137 
6.2.3 REAR ece 137 
6.2.4 FERIA erris 138 
6.3 MEANA Bor rey 138 
6.3.1 形式 化 定义 creececec ee eeeeeeees 138 
6.3.2 查询 的 例子 pp 138 
6.3.3 表达 式 的 安全 性 ……………… 139 
6.3.4 语言 的 表达 能 力 pp 140 
6.4 ”总结 terrerrererererrserenerereeseereens 140 
术语 回顾 和 pp 140 
实践 习题 140 
习题 142 
文献 注解 … eee ee cere ee eee eee e nsec neee eee ees 143 


第 二 部 分 “数据 库 设计 


第 7 章 数据 库 设 计 和 E-R 


模型 on ccesvveccvcenssvens ii 146 

7.1 设计 过 程 概览 pp 146 
7.1.1 设计 阶段 pe 146 
7.1.2 设计 选择 pp 147 
7.2 实体 -联系 模型 148 
7.2.1 实体 集 ee 148 
7.2.2 联系 集 pe 148 

了 .2.3 属 注 oer ii 150 


.3 约束 a S AEP P EE E ES, 151 
7-3 1 APER orei 152 
7.3.2 参与 约束 ee 152 
7.3.3 I ee 153 

.4 从 实体 集中 删除 元 余 属 性 ……… 153 

.5 实体 -联系 图 pp 155 
7.5.1 基本 结构 ppp 155 
1.52. WBE. aias 156 
7.5.3 复杂 的 属性 ee 156 
7.5.4 角色 ee 157 
7.5.5 非 三 元 的 联系 集 recrei 157 
7.5.6 AE eee: 157 
7.5.7 大 学 的 EE-R 图 .pp 159 

.6 转换 为 关系 模 匠 ecciesia 159 
7.6.1 具有 简单 属性 的 强 实体 集 

LE ee sa $60 
7.6.2 具有 复杂 属性 的 强 实体 集 

的 表示 ee 160 
7.6.3 弱 实 体 集 的 表示 pp 161 
7.6.4 联系 集 的 表示 pp 161 

7 实体 -联系 设计 问题 erer 163 
7.7.1 用 实体 集 还 是 用 属性 ………… 163 
7.7.2 用 实体 集 还 是 用 联系 集 …… 164 
7.7.3 DABA n AMAA ………… 165 
7.7.4 联系 属性 的 布局 …………………… 165 

.8 扩展 的 E-R 特性 166 
AE T AE 166 
7.8.2 概 化 pp 167 
7.8.3 属性 继承 pp 168 
7.8.4 概 化 上 的 约束 168 
7.8.5 聚集 ee 169 
7.8.6 转换 为 关系 模式 …………………: 170 
9 数据 建 模 的 其 他 表示 法 ………… 171 
7.9.1 E-R 图 的 其 他 表示 法 cee 171 
7.9.2 统一 建 模 语言 UML ……………… 173 

.10 数据库 设计 的 其 他 方面 ………… 174 


7.10.1 数据 约束 和 关系 数据 库 
a 174 
7.10.2 使 用 需求 : EH, Efe 司 175 
TIOJ RERE enamoras 175 
7.10.4 数据 流 、 工 作 流 ……………… 175 
7.10.5 数据 库 设 计 的 其 他 问题 ……: 176 
7.11 总结 176 
术语 回顾 RCO ECO OTERO OT AT 177 
实践 习题 {ASEAN ee ADEA SES LEN EAD ATE 177 
习题 pier oth eats we Se Saas wri fa'd a ora btn re Sta er Sietaracorapaya. Ora 179 
工具 ee 180 
二 180 
第 8 章 关系 数据 库 设计 …………… 181 
8. 1 好 的 关系 设计 的 特点 …………… eee 181 
8.1.1 设计 选择 : 更 大 的 模式 ooe 181 
8.1.2 设计 选择 : 更 小 的 模式 ooe 182 
8.2 原子 域 和 第 一 范 武 :pe 183 
8.3 使 用 函数 依赖 进行 分 解 …………… 184 
8.5.1 FBP ronu 185 
8.3.2 Boyce-Codd 范式 pp 186 
8. 3.3 BCNF 和 和 保持 依赖 ……………… 187 
8.3.4 第 三 范式 i seeleagesssewese en's 188 
0:35.38. PEREZ stim series 189 
8.4 函数 依赖 理论 pp 189 
8.4.1 函数 依赖 集 的 闭 包 pp 189 
8.4.2 属性 集 的 闭 包 pp 191 
SAS FORME eaii 191 
8.4.4 MDM ossasa 193 
8.4.5 保持 依赖 pp 194 
8.5 分 解 算法 195 
85.1 BONE ii 195 
8:5:2 SNP AWE oresar ster canes 197 
8.5.3 3NF 算法 的 正确 性 veers 198 
8.5.4 BCNF 和 3NF 的 比较 ………… 198 
8.6 使 用 多 值 依赖 的 分 解 ……………………… 199 


8.6.1 BAAR cere ere ere ee eee eee ee ees 199 
8.6.2 第 四 范式 pp 201 
8.6.3 4NF 分 解 ee 201 
8.7 更 多 的 范式 pp 202 
8.8 数据 库 设 计 过 程 …………… 202 
8.8.1 E-R 模型 和 规范 化 creer eee 202 
8.8.2 属性 和 联系 的 命名 :………………: 203 
8.8.3 为 了 性 能 去 规范 化 …………… 203 
8.8.4 FER GGT IRA eeens 204 
8.9 时 态 数据 建 模 PETAR AAAI ART 204 
8.10 总结 206 
术语 回顾 Sede eeDORS SECA Ws 206 
实践 习题 … eee ee cence eee eee ee eeee eee nen een ens 206 
习题 er Ne E EET 208 
文献 注解 209 
第 9 章 MARAE e 210 
9.1 应 用 程序 和 用 户 界 面 ………………… 210 
i 211 
D21 Bi RRR verter 211 
9.2.2 超 文本 标记 语言 coerce 211 
9.2.3 Web 服务 器 和 会 话 ……………… 213 
9.3 servlet 和 JSP ere 214 
9.3.1 一 个 servlet 的 例子 ………………- 215 
9.3.2 servlet 会 话 pp 216 
9.3.3 servlet 的 生命 周期 一 …………: 216 
9.3.4 servlet 支持 pp 216 
5.35 MIERA oesie 217 
9.3.6 客户 端 脚 本 ppp 218 
ee ee iv 219 
9.4.1 业务 逻辑 层 pp 220 
9.4.2 ”数据 访问 层 和 对 象 -关系 
上 映射 220 
9.4.3 Web 服务 ee nD 
9.4.4 断 连 操作 222 
9.5 快速 应 用 开发 pp 222 


9.5.1 构建 用 户 界面 的 工具 oee 223 


9.5.2 Web 应 用 框架 .PP 224 
9.5.3 报表 生成 器 eee， 224 
9.6 应 用 程序 性 能 een。 225 
9.6.1 利用 缓存 减少 开销 ……………… 225 
9.6.2 并 行 处 理 pp 226 
97 应 用 程序 安全 性 cv eeeeeeeeeeseesenees 226 
9.7.1 SQL 注入 226 
9.7.2 跨 站 点 脚本 和 请 求 伪造 ……: 227 
9.7.3 密码 泄露 pp 997 
9.7.4 应 用 程序 认证 ee 228 
55 EMDR esn meon 229 
9.7.6 审计 追踪 ee 230 
和 230 
9.8 WEREMA pp 231 
9.8.1 MERA ere 231 
9.8.2 数据 库 中 的 加 密 支 持 ………… 233 
9.8.3 加密 和 认证 ete 233 
9.9 总 缚 pp 234 
术语 回顾 -pp 235 
实践 习题 235 
习题 236 
项 目 建 议 eee 237 
工具 239 
文献 注解 239 


第 三 部 分 ”数据 存储 和 查询 


第 10 章 存储 和 文件 结构 ………… 242 
10.1 物理 存储 介质 概述 ……………… 242 
10.2 RRAK e 244 

10.2.1 磁盘 的 物理 特性 …………………… 244 
10.2.2 AHBAP oee 245 
10.2.3 磁盘 块 访问 的 优化 246 
10.2.4 快 闪存 储 … 248 
10.3 RAID oor. 249 
10.3.1 通过 宛 余 提 高 可 人 靠 性 ……… 249 
10.3.2 通过 并 行 提高 性 能 ………… 250 


10.3.3 RAID 级 别 pp 250 
10.3.4 RAID 级 别 的 选择 cree 253 
10.3.5 硬件 问题 pp 253 
10.3.6 其 他 的 RAID 应 用 eee 254 
10. 4 第 三 级 存储 si i SHETTY 254 
10.4.1 光盘 ee 254 
10. 4.2 磁带 dcop dare uh Salama asa Ne 255 
10.5 ”文件 组 织 .0 255 
10.5.1 定 长 记录 pp 256 
10.5.2 变 长 记录 :pe 257 
10.6 文件 中 记录 的 组 织 ……………… 259 
10.6.1 顺序 文件 组 织 .ppp 259 
10.6.2 SRB THAR .……………… 260 
10.7 数据 字典 存储 .pp 261 
10.8 ”数据 库 缓冲 区 …………… 262 
10.8.1 缓冲 区 管理 器 262 
10.8.2 缓冲 区 替换 策略 ………………: 263 
10S e iii aimee 264 
RABE [BI JB ces ee eee ec eee eee tense ee eeee eee eee ees 265 
实践 习题 265 
习题 266 
文献 注解 267 
第 11 章 ”索引 与 散 列 eee 568 
11.1 基本 概念 268 
11.2 顺序 索引 eee 269 
11.2.1 稠密 索引 和 稀 朴 索引 …………: 269 
11.2.2 多 级 索引 ene 270 
11.2.3 索引 的 更 新 ee 272 
11.2.4 辅助 索引 .pp 272 
11.2.5 多 码 上 的 索引 .pp 273 
11.3 B* 树 索引 文件 pp 274 
11.3.1 B+ 树 的 结构 9 274 
11.3.2 B+ 树 的 查询 pp 275 
11.3.3 B REM pp 277 
11.34 Ae OAR Ry west tenses 281 
11.3.5 B’' 树 更 新 的 复杂 性 ………… 282 
11.4 B!* 树 扩展 esos 283 
11.4.1 B’* 树 文件 组 织 ………………………… 283 


11.4.2 辅助 索引 和 记录 重 定位 ……: 284 
11.4.3 字符 串 上 的 索引 284 
11.4.4 B' 树 索引 的 批量 加 载 oe 285 
11.4.5 B 树 索引 文件 eee 285 
11,4516: 闪闪 ci is 287 
11.5 多 码 访 问 ee 287 
11.5.1 使 用 多 个 章 码 索引 …………… 287 
11.5.2 多 码 索引 ese 287 
5.3 BRET ornoa cuna 288 
i in ia 288 
11.6.1 FF Bkk vere ee ee eee eee ee eee eee 289 
11.6.2 AR HH ALIE -ce eee e cere eee eee 290 
11,6.3: SRP E, 29] 
i 292 
ILII SURGE esant vn 292 
11.7.2 EWP ER 293 
11.7.3 静态 散 列 与 动态 散 列 
A 297 
11.8 顺序 索引 和 散 列 的 比较 ……………: 297 
11.9 位 图 索引 pp 298 
11.9.1 位 图 索引 结构 .ppp 298 
11.9.2 ARREBARI 299 
11.9.3 位 图 和 B'* 树 sn. 300 
11.10 SQL 中 的 索引 定义 eee 300 
11. 11 Be i cial Cink Honan Ree enTE 300 
术语 回顾 … 301 
实践 习题 302 
习题 303 
文献 注解 304 
第 12 章 BiMAhB.... 305 
12.1 概述 pp 305 
12.2 查询 代价 的 度量 wore e eee ee eee eee eee 306 
12.3 选择 运算 和 307 
12.3.1 使 用 文件 扫描 和 索引 的 
选择 i 307 


12.3.3 复杂 选择 的 实现 ……………… 309 
12.4 排序 .pp 310 
12.4.1 外 部 排序 归并 算法 .…………… 310 
12. 4.2 ”外 部 排序 归并 的 代价 
DS Ce 311 
12.5 连接 运算 pp 312 
12.5.1 KÄMPE eree 312 
12.5.2 块 谋 套 循环 连接 ……………: 313 
12.5.3 索引 性 套 循环 连接 ………… 314 
12.5.4 归并 连接 314 
25:5 KARA 317 
126 RMER oenen 320 
12.6.1 去 除 重 复 pp 320 
i 320 
12. 6.3 集合 运算 ee 320 
12.6.4 外 连接 seein 321 
PES E 322 
12.7 ”表达 式 计算 pp 322 
1B Fo) Aya, sevxctesesronscowsnesans sans vs 322 
ZLI RAE errara peers 323 
12.8 RAIE eerreerereererrorrrrererrererresenes 325 
术语 回顾 326 
ee 状语 326 
习题 327 
文献 注解 328 
第 13 章 ERU 329 
13. 1 概述 PE ANE er Ct sanenaRe 329 
13.2 关系 表达 式 的 转换 ……………………… 330 
13.2.1 等 价 规则 :pp 331 
13.2.2 转换 的 例子 333 
13.2.3 连接 的 次 序 pp 334 
13.2.4 等 价 表 达 式 的 枚 举 ……………… 335 
13.3 ”表达 式 结果 集 统计 大 小 的 
和 335 
13. 3. 1 目录 信息 :ppp 335 


13.3.2 选择 运算 结果 大 小 的 


13. 3.3 连接 运算 结果 大 小 的 估计 … 338 
13.3.4 其 他 运算 的 结果 集 大 小 


WY AEGP akanai ianiai 339 
13.3.5 不 同 取 值 个 数 的 估计 ………… 339 
13.4 执行 计划 选择 rererere 340 
13.4.1 基于 代价 的 连接 顺序 

选择 .ee 340 

13.4.2 采用 等 价 规则 的 基于 代价 
E Er A ATEA E 342 
13.4.3 BA RAIG onions 342 
13.4.4 KAFEA eee 344 
13.5 物化 视图 ee tas se vee RNs 345 
13.5.1 PRB BEG enn e cece eee eeeeeeeeenes 346 
13.5.2 增 量 的 视图 维护 ………………… 346 
13.5.3 查询 优化 和 物化 视图 ……… 348 
13.5.4 物化 视图 和 索引 选择 ………. 348 
13.6 查询 优化 中 的 高 级 话题 ………… 348 
13.6.1 top- 天 优化 vrceeeeeeeeeeeeeeeees 348 
13. 6.2 连接 极 小 化 349 
13.6.3 ”更 新 的 优化 eens 349 
13.6.4 多 查询 优化 和 共享 式 扫描 --- 349 
13.6.5 参数 化 查询 优化 ………………… 350 
13.7 症结 oii 350 
PREF [I EE seseseane 351 
SOG Sj ME css sis O beeuawias 351 
习题 353 
p's 353 

第 四 部 分 事务 管理 

| oS a. oi 356 
14. 1 事务 概念 .pe 356 
14.2 一 个 简单 的 事务 模型 …………………: 357 
Os 358 
14.4 事务 原子 性 和 持久 性 NT 359 
14.5 事务 隔离 性 pp 360 


XX 


第 


14.6 = Ce) eeeeererrrrreereererreee 363 
14.7 事务 隔离 性 和 原子 性 …………… 366 
14.7.1 THRE corer reer reece cence 366 
ae cS ef merce 366 
14.8 事务 隔离 性 级 别 ………………………………… 366 
14.9 ”隔离 性 级 别 的 实现 ……………… 368 
oe ee) eee 368 
14.9.2 FIJAR we eee cece reece eee eee eee ees 368 
14.9.3 多 版 本 和 快照 隔离 .……………: 368 
14.10 事务 的 SQL 语句 表示 …………… 369 
14.11 总结 ee 370 
术语 回顾 …… eee 371 
实践 习题 eee e ee eee eee eee eee eer crease eeeeeeees 371 
习题 Sino wieis-e cal ee bead NaS OTH RNE SEO SH OCeweRSTOESeesee 372 
文献 注解 372 
15 HRPP 373 
15. 1 基于 锁 的 协议 ………… reece cece eee 373 
1 373 
15.1.2. 锁 的 授予 pp 375 
15.1.3 两 阶段 封锁 协议 ………… ee 376 
15.14 HAr 377 
15.1.5 基于 图 的 协议 ………………………… 378 
15.2 死 锁 处 理 «+. 0 eee cece eee reeeeee ene ens 379 
15.2.1 死 锁 预 防 .pp 379 
15.2.2 死 锁 检测 与 恢复 ………………… 380 
15.3 ”多 粒度 ee 381 
15.4 ”基于 时 间 惟 的 协议 ………………… 383 
15.4.1 BP TA) BR wor cence eee ecceeene scenes 383 
15.4.2 ARAE were ee eee eee eee 384 
15.4.3 Thomas 写 规则 pp 385 
15.5 ”基于 有 效 性 检查 的 协议 ……………: 386 
15.6 多 版 本 机 制 …………… 387 
15.6.1 多 版 本 时 间 玲 排序 -…………… 387 
15.6.2 多 版 本 两 阶段 封锁 …………… 388 
15.7 ”快照 隔离 .PP 388 
15.7.1 更 新 事务 的 有 效 性 检验 


15.7.2 串 行 化 问题 pp 389 
15.8 插入 操作 、 删 除 操作 与 谓 
词 读 eetreererrerrrersernsressrnnrrernes 391 
15.8.1 删除 pp 391 
15. e S E ET, 392 
15.8.3 谓词 读 和 幻象 现象 …………… 392 
15.9 ”实践 中 的 弱 一 致 性 级 别 ………… 394 
15.9.1 二 级 一 致 性 tnt， 394 
15.9.2 游标 稳定 性 pp 394 
15. 9.3 ”跨越 用 户 交互 的 并 发 控制 … 394 
15.10 ”索引 结构 中 的 并 发 ” …… 395 
15.11 总结 ee 397 
FR TE [BY BR ee eee cece eee eee eee eee eee eee ee ene ee 399 
实践 习题 pp 399 
习题 401 
文献 注解 … eee 402 
第 16 章 RERA 403 
16.1 故障 分 类 403 
16.2 存储 器 L A N T A E 403 
16.2.1 稳定 存储 器 的 实现 …………… 404 
16.2.2 ”数据 访问 sanssasasasssssssosseseo 404 
16.3 恢复 与 原子 性 pp 405 
16.3.1 目 志 记 录 .po 406 
16.3.2 数据 库 修 改 ee ee eeee eee ees 407 
16.3.3 HRPM FER oreeresurss 407 
16. 3.4 事务 提交 rr 408 
16.3.5 使 用 日 志 来 重 做 和 撤销 
事务 408 
16.3.6 检查 点 ee 410 
16.4 恢复 算法 .PP 411 
16. 4. 1 事务 回 滚 renidi sanies 411 
16.4.2 系统 崩 演 后 的 恢复 ee 411 
16.5 缓冲 区 管理 re ode wi 412 
16.5.1 B WRAP ee 412 
16. 5.2 数据 库 缓 冲 Ne 413 
16.5.3 操作 系统 在 缓冲 区 管理 中 的 
D, 414 


16.5.4 ”模糊 检查 点 414 
16.6 非 易 失 性 存储 器 数据 丢失 的 

d 415 

16.7 SARERA; undo 操作 415 

16.7.1 BAE vereereneveeceeeneene ses 416 

16.7.2 逻辑 undo 日 志 记 录 eeose 416 


16.7.3 AHH undo 的 事务 回 滚 … 417 
16.7.4 逻辑 undo 中 的 并 发 问题 … 419 


| S cerae EAER tix 419 
16, 8.1 APEEP es cere news ior 419 
16.8.2 恢复 算 污 ieeers 421 
16.8.3 其 他 特性 和 422 

16,9 ”之 得 备份 逐 统 di 423 

16.10 总结 eer 424 

术语 回顾 eter 425 

S ae tac ents dean eves EELEE oz 426 

Bp Bl vasces ewer seep exes eceontes ewan yesesaoensa vee 427 

SP RTPI MR Wed cmon cosmsinninccasas 428 


第 五 部 分 “系统 体系 结构 


第 17 章 “数据库 系 统 体系 结构 .…… 430 
17.1 集中 式 与 客户 -服务 器 体系 
结构 eeeereererersresrenrerenerrereesnens 430 
17.1.1 PRAA eerren 430 
17.1.2 客户 -服务 器 系统 .………………… 431 
17.2 ”服务 器 系统 体系 结构 ………………… 432 
17.2.1 事务 服务 器 pp 432 
RI YPMA E oroia 434 
17.2.3 基于 云 的 服务 器 ………………… 435 
17.3. 并行 系统 435 
17.3.1 加 速 比 和 扩展 比 pp 435 
17.3.2 互连网 络 .pp 437 
17.3.3 ”并行 数据 库 体系 结构 ……… 437 
17.4 分 布 式 系统 .PN 439 
17.4.1 分 布 式 数据 库 示例 ………………… 440 


17.4.2 实现 问题 441 
17.5 PAJER eee 442 
TRS. E eiviwcneretnnns: 442 
(a ae ae). Coron 443 
17.6 总 vi 443 
RISPJE es ees ee cece eee cece cece eee eens eens 444 
实践 习题 444 
DAME s cavawins L A eas penexe 445 
Ea IEn «+o vee scrasven vere coveresvones veereees 445 
第 18 章 并 行 数 据 库 «oe 447 
下 当主 447 
1B. 2 VOJE cvereececcesseseresssvoosannes 447 
R2 i eee, © eer eee 447 
18.2.2 划分 技术 比较 creer e creer eee ees 448 
18.2.3 4a PERE RE ainn 449 
18.3 ”查询 间 并 行 …………………… eneee 450 
18.4 查询 内 并 行 A Gees suse ES aR sees Se 450 
18:5 JAEP o vers srr 451 
18.5.1 并 行 排序 .pp 451 
18.5.2 并 行 连接 452 
18.5.3 其 他 关系 运算 iisss 455 
18.5.4 运算 的 并 行 计算 代价 …………: 455 
18.6 操作 间 并 行 …………………… cee eee cee wen eee 456 
18.6.1 ARAHI creer ere eee ere eee ee 456 
18.6.2 MEEA esa 456 
18.7 APAE err nevniriiiri 456 
18.8 并行 系 统 设 计 …… 和 pe 99 457 
18.9 多核 处 理 器 的 并 行 性 …………………: 458 
18.9.1 并 行 性 与 原始 速度 …………… 458 


18.9.2 ”高速 缓冲 存储 器 和 多 线程 … 458 
18.9.3 适应 现代 体系 架构 的 


数据 库 系 统 设计 A 459 
18. 10 AGE ee 459 
术语 回顾 ……… eet ee ceneee eee seueeneneeee ees 460 


第 19 章 


19. 1 
19:2 


19.6 


19.7 


分 布 式 数据 库 


同 构 和 异 构 数据 库 ………………: 
分 布 式 数据 存储 ……………… 
Cla peer 


分 布 式 数据 库 中 的 并 发 控制 …… 
i 
SF: E EE T 
.5.3 RAR A ………: 


s61 
.6.2 
56.3 
.6.4 
.6.3 
.6.6 为 可 用 性 而 牺牲 一 致 性 …… 
分 布 式 查询 处 理 ……………………………… 
i 于 
.7.2 简单 的 连接 处 理 …………… 
7.3 ARIE eaa 
.7.4 利用 并 行 性 的 连接 策略 …… 
异 构 分 布 式 数据 库 ……………… 
.8.1 数据 统一 视图 -ees 
.8.2 查询 处 理 .pp 


19.8.3 多 数据 库 中 的 事务 管理 …… 482 
19.9 ÆTTUM cessera 483 
19.9.1 云 上 的 数据 存储 系统 ……… 484 
19.9.2 云 上 的 传统 数据 库 …………… 487 
19.9.3 基于 云 的 数据 库 的 挑战 …… 488 
19:10. BARA onica 488 
19.10. 1 目录 访问 协议 489 
19. 10.2 LDAP: 轻 量 级 目录 访问 
PIR sseasdcontessdseedvcosscons 489 
19.11 总结 pe 492 
术语 回顾 pp 493 
实践 习题 493 
3 ices cies ioi haai dta 495 
文献 注解 495 
第 六 部 分 “数据 仓库 、 数 据 挖掘 
与 信息 检索 
$208 “数据 仓库 与 数据 挖掘 …… 498 
20.1 决策 支持 系统 cece eee rece nsec eee 498 
20.2 ”数据 仓库 499 
20.2.1 数据 仓库 成 分 499 
20.2.2 数据 仓库 模式 pp 500 
30.2.3 Tote: © ieii nsis 501 
20.3. 数据 擦 据 eee 501 
20.4 分 类 ee 502 
20:4..1 泌 这 和 宰 分 类 器 odin 503 
20.4.2 其 他 类 型 的 分 类 器 ………… 505 
Ne ee E = eee cen eer ere tere re 507 
BAR PEGE rao e Eh 507 
20.5 关联 规则 ete 508 
20.6 其 他 类 型 的 关联 ee 509 
0.3 FEE iyo ve 509 
20.8 ”其 他 类 型 的 数据 挖 据 …………… 510 
20.9 ”总结 ee 511 
术语 回顾 … 511 
实践 习题 512 


习题 519 22.2 复杂 数据 类 型 «seco eee cece ereee ee eee 532 
Te dy 512 22.3 SQL 中 的 结构 类 型 和 继承 ………… 534 
SOR TEAR, 0+ ose sivinenieanaad O 513 22.3.1 PER HR apanar 534 
yi 536 
第 21 章 ”信息 检索 …………………… 514 IE ME. E ES EE 537 
21.1 概述 .ev 514 22.5 SQL 中 的 数组 和 多 重 集合 类 型 … 538 
21.2 使 用 术语 的 相关 性 排名 …………… 515 22.5.1 创建 和 访问 集合 体 值 ……… 539 
21.2.1 使 用 TF-IDF 的 排名 方法 …… 515 22. 5.2 查询 以 集合 体 为 值 的 属性 ……: 539 
O11. 2:2. 基于 相似 性 的 检索 人 516 22.5.3 he B Fo EEN SE 540 
21.3 ”使 用 超 链接 的 相关 性 ……………… 517 22.6 SQL 中 的 对 象 标识 和 引用 类 型 541 
21.3.1 流行 度 排名 pe 517 22.7 QR 特性 的 实现 005siss 542 
21.3.2 PageRank sore 518 22.8 持久 化 程序 设计 语言 …………… 543 
21.3.3 其 他 的 流行 度 度量 ………… 518 22.8.1 JAGRA anrs 544 
21.3.4 搜索 引擎 作弊 ………………… 519 22.8.2 ”对象 标 识 和 指针 …………… 544 
21.3.5 将 TF-IDF 和 流行 度 排名 22. 8.3 持久 对 象 的 存储 和 访问 …… 545 
[te ee 520 22.8.4 持久 化 C++ 系统 crete 545 
21.4 同义词 、 多 义 词 和 本 体 ……………: 520 22.8.5 持久 化 Java 系统 ………………… 547 
2.5 HRE, en 521 22.9 ”对象 -关系 上 映射 …………… 548 
21.6 检索 的 有 效 性 度量 ……………… 522 22.10 面向 对 象 与 对 象 -关系 vee 548 
21.7 Web 的 抓 取 和 索引 …………… 523 i) i men 549 
21.8 ”信息 检索 : 网 页 排名 之 外 ………… 524 IRB [BY JBL ee eee eee eee eee eee eee eee eee eee eee es 549 
21.8.1 坦 询 结果 的 多 样 化 e 524 三 的 AIR A E T 550 
MET pe. er rere 524 习题 551 
MES RRB acta. 525 本 551 
21.8.4 ”查询 结构 化 数据 ……………… 525 文献 注解 552 
nt ERR a ah ny oma ae w290 XME Os 553 
21.10 Zh eee 527 
站 528 23. 4 动机 enn 553 
ON E T 528 23.2 XML 数据 结构 pp 555 
SSM N A E 528 23:3 XML SOBEL, enasna 558 
工具 :ee 529 23.3.1 KPA RL Seriese 558 
pa 023, eee eee 529 23.3.2 XML Schema pp 560 
23.4 AAA HE naea aA 563 
第 七 部 分 “特种 数据 库 23.4.3 MME 社 神 开 Wivesiianss 563 
A NP acc excsadessvseswenceverses 563 
第 22 章 ， 基 于 对 象 的 数据 库 …… 532 和 on 


22,1 概述 oar 532 23.5 XML 应 用 程序 接 避 oiiiins 568 


XXIV 


23.6 XML 数据 存储 ………………………………… 569 
23.6.1 非 关系 的 数据 存储 …………… 569 
23.6.2 关系 数据 库 … eee eee ee eens 570 
23.6.3 SQL/XML pp 572 

23.7 XML 应 用 pp 573 
23.7.1 存储 复杂 结构 数据 …………… 573 
23.7.2 标准 化 数据 交换 格式 ……… 573 
23.7.3 Web 服务 ene 574 
23.7.4 数据 中 介 de a a 574 

23.8 PAGE 站 575 

术语 回顾 pp 576 

实践 习题 576 

习题 577 

工具 ee 578 

文献 注解 578 

第 八 部 分 ”高 级 主题 
第 24 章 高 级 应 用 开发 o 580 

24.1 性 能 调整 PP 580 
24.1.1 提高 面向 集合 的 特性 ………… 580 
24.1.2 批量 加 载 和 更 新 的 调整 …… 581 
24.1.3 瓶颈 位 置 ee 582 
24.1.4 可 调 参数 A 583 
24. 1.5 硬件 调整 584 
24.1.6 模式 调整 .pp 585 
24.1.7 索引 调整 pp 585 
24.1.8 48 AHIRA eere 586 
24.1.9 ”物理 设计 的 自动 调整 ………… 586 
24.1.10 并 发 事务 调整 ………………………… 587 
24.1.11 性 能 模拟 589 

24.2 ”性 能 基准 程序 ……………… ee ees 589 
24.2.1 AEJ wr ecceee eee eeee ee eee eee ees 589 
24.2.2 数据 库 应 用 类 型 …………………: 589 
24.2.3 TPC 基准 程序 We P i 590 

24.3 ”应 用 系统 开发 的 其 他 问题 ……… 591 
24.3.1 应 用 系统 测试 eree 591 


24.3.2 应 用 系统 移植 oee 592 
24.4 ”标准 化 592 
24.4.1 SQL 标准 .pp 593 
24.4.2 数据 库 连 接 标 准 PEE EEE tes 593 
24.4.3 对 象 数据 库 标 准 SE rT 594 
24.4.4 基于 XML 的 标准 eccere 594 
24.5 总 结 ICR TEE TICLE CICCOLO 595 
术语 回顾 站 pp 595 
实践 习题 pp 596 
本 596 
文献 注解 597 
FOB ”时 空 数据 和 移动 性 ……… 598 
2$.1 动机 eeereeerersrerrereressrressnsenes 598 
25.2 ”数据 库 中 的 时 间 …………………… 598 
25.2.1 SQL 中 的 时 间 规 范 …………… 599 
25.2.2 时 态 查询 语言 ……………………- 599 
25.3 空间 与 地 理 数 据 cee eee cee cece reece eee 600 
25.3.1 几何 信息 表示 creer 600 
25.3.2 IAE irarria 601 
25.3.3 地 理 数 据 和 602 
25.3.4 空间 查询 ents， 603 
25.3.5 空间 数据 的 索引 ……………………… 604 
25.4 多 媒体 数据 库 ………………………… eee eee 607 
25.4.1 多 媒体 数据 格式 …………………: 607 
25.4.2 3 EAE rnense 607 
25.4.3 基于 相似 性 的 检索 ………… 608 
25.5 移动 性 和 个 人 数据 库 …………… 608 
25.5.1 移动 计算 模型 oeren 609 
25.5.2 路 由 和 查询 处 理 ………………………… 610 
ey 53 广播 数据 Pee PETES Ct eS 610 
25.5.4 连接 断 开 与 一 致 性 ………………… 610 
25.6 Mih ee 612 
术语 回顾 .pp 612 
实践 习题 … 613 
BY Bh se eviswneed esas ceweosseseevass vosseseeaaes see 613 


第 26 章 高 级 事务 处 理 occ 615 
26.1 事务 处 理 监控 器 …………………… 615 
26. 1.1 TP 监控 器 体系 结构 cree 615 
26.1.2 使 用 TP 监控 器 进行 应 用 
dE GM Eiaa aE TEE 617 
26.2 事务 工作 流 和 PP 618 
26. 2. 1 工作 流 说 明 i 619 
26. 2.2 工作 流 的 故障 原子 性 需求 620 
26.2.3 工作 流 执行 soos.。 620 
26.2.4 工作 流 恢复 oes 621 
26.2.5 工作 流 管 理 系统 …………………: 621 
26. 3 电子 商务 ON 622 
26.3.1 电子 目 如 er 622 
2 622 
26. 3.3 订单 结算 Se EE NE EES 623 
26.4 主 存 数 据 库 ECE TORE CO Ore: 623 
26.5 实时 事务 系统 AE womevenws 625 
26.6 长 事务 FIFRA ARSE TAT SAR ARRA TERS ORES 625 
26.6.1 不 可 串 行 化 的 执行 ……………… 626 
26.6.2 并 发 控制 627 
26.6.3 REFS PaF p 627 
26.6.4 补偿 事务 ssa WO sass weSeseinws 628 
56.6 类 开 和 是 vii 628 
SEF GOR T aeasonaranee 629 
术语 回顾 pp 629 
实践 习题 … 630 
习题 630 
RIE BE A 631 
第 九 部 分 “实例 研究 
第 27 Æ PostgreSQL -eee 634 
27.1 概述 ese 634 
27.2 ”用 户 界面 ese, 634 
27.2.1 ERAMI erer 634 
27.2.2 图 形 界面 ee 635 
27.2.3 QRT eee cesses wees 636 


27.3 SGQ 变 化 和 扩展 ee 636 
27.3.1 PostgreSQL 类 型 pp 637 
27.3.2 规则 和 其 他 主动 数据 库 

特征 .pe 638 
27.3.3 可 扩展 性 pp 639 

27.4 PostgreSQL 中 的 事务 管理 ………… 642 
27.4.1 PostgreSQL 的 并 发 控制 ……: 642 
27.4.2 恢复 see 647 

27.5 存储 和 索引 647 
27.5.1 Å pp 648 
27.5.2 索引 ee 648 

27.6 查询 处 理 和 优化 ………………………………… 650 
27.6.1 查询 重 写 人 een， 650 
27.6.2 查询 规划 和 优化 ……………… 650 
27.6.3 查询 执行 器 651 
27. 6.4 触发 器 和 约束 .pp 651 

27.7 系统 结构 .PP 652 

文献 注解 652 

%28% Oracle simi 654 

28.1 数据 库 设 计 和 查询 工具 .……………… 654 
28.1.1 数据 库 和 应 用 设计 工具 …… 654 
28. 1.2 查询 工具 eosin 654 

28.2 SQL 的 变化 和 扩展 ………………… 655 
28.2.1 对 象 - 关 系 特性 ………………….… 655 
28.2.2 Oracle XML DB ……………… 655 
5 656 
r toe ae. 9, See ee eee er 656 
28.2.5 联机 分 析 处 理 concen eee eee ees 656 
r. SG Bid OE css vecasts sxc eesssneens 656 

28.3 ”存储 和 索引 .pe 656 
7 Aaea ae 657 
28.3.2 f ereesesssssssersssnsererrssrenes 657 
s1 MRE E LO Pe 657 
7 e E 1 eee eee 659 
28.3.5 位 图 索引 .pp 659 
28.3.6 基于 函数 的 索引 .……………，…: 660 


28.3.7 连接 索引 es 
eae. E 
WO Bi De csveveses snare scrvevescareeaved 
28.3.10 物化 视图 
查询 处 理 和 优化 …………………………… 
98.4.1 PRAT AE vor sisiane irsi 


28.4.3 并 行 搞 行 .0 
28.4.4 ”结果 高 速 缓存 ………………… 
并 发 控制 与 恢复 ………………… 
28.5.1 并 发 控制 eee. 
28.5.2 恢复 的 基本 结构 e 
28.5.3 Oracle 数据 卫士 ………………: 
RIER A esaat vias uneia 
28.6.1 专用 服务 器 : 内 存 结构 ……: 
28.6.2 专用 服务 器 : 进程 结构 …… 
28.6.3 


28.6.4 Oracle Real Application 


Clusters 
28.6.5 BARRE BR vce 
28.6.6 Oracle Exadata 
复制 、 分 布 以 及 外 部 数据 ……… 
28. 7. 1 
28.7.2 FRAT RPGR niis 
28.7.3 ”外 部 数据 源 ……… eee eee nes 
数据 库 管 理工 具 ……………………… 
28. 8. 1 Oracle 企业 管理 器 …………… 
28.8.2 自动 工作 负载 存储 ……………: 
28.8.3 数据 库 资源 管理 eee 


IBM DB2 Universal 
Database 


第 29 章 


29. | 


29.3.1 XML 特性 cree eet e eee ee eee 675 
29.3.2 HH RA BG creer eee 676 
29.3.3 用 户 自 定 义 函 数 和 方法 …… 676 
29.3.4 大 对 象 aa 677 
29.3.5 索引 扩展 和 约束 eee 677 
29.3.6 Web 服务 和 pp 677 
20.3.7 SEABIRD asse annus 678 
29.4 存储 和 索引 eerren 678 
29.4.1 存储 体系 结构 ………………… 678 
29.4.2 缓冲 池 人 ee 679 
29.4.3 表 、 记 录 和 索引 ……………………… 679 
29.5 多 维 聚 艇 … cec eee ec ee eeeenen eee 680 
29.5.1 FRE] ee 681 
29.5.2 FR BRI cer reete cece eee eee reece ees 682 
99.5.3. TEP AR RE eoa a 682 
29.5.4 ”对 现 有 技术 的 影响 ………… 682 
29.6 查询 处 理 和 优化 ……………………………: 682 
5 684 
29.6.2 连接 、 聚 集 和 集合 运算 …… 684 
29.6.3 对 复杂 SQL 处 理 的 支持 ……: 684 
29.6.4 多 处 理 器 查询 处 理 特性 …… 684 
29.6.5 查询 优化 :pp 685 
29.7 物化 的 查询 表 ………………… 685 
29.7.1 查询 路 由 到 MQT pp 686 
29.7.2 MQT 的 维护 ee 686 
29.8 DB2 中 的 自治 特性 ……………… 686 
ARA N E A ET 687 
29.8.2 优化 :pe 687 
29.9 工具 和 实用 程序 …………………………… 687 
29.10 ”并 发 控制 和 恢复 oee 688 
29. 10. 1 并 发 与 隔离 .pp 688 
29. 10.2 提交 与 回 滚 pp 689 
29. 10.3 ”日志 与 恢复 ppp 689 
29.11 系统 体系 结构 .pp 690 
29.12 复制 、 分 布 和 外 部 数据 ……… 691 
29. 13 ”商务 智能 特性 pp 691 
文献 注解 … 692 


第 30 Æ Microsoft SQL Server …… 693 
30.1 管理、 设计 和 查询 工具 …………… 693 
30. 1.1 数据 库 开发 和 可 视 化 数据 库 
Co anandsa scx E damn epee 693 
30.1.2 数据 库 查 询 和 调 优 工 具 …… 693 
30.1.3 SQL Server Management 
人 695 
30.2 SQL 变化 和 扩展 eee 696 
30.2.1 PERM reei ne 696 
30.2.2 查询 语言 增强 .pp 697 
SO URE Soca esdecs ERRA 697 
30.2.4 带 过 滤 的 索引 pe 698 
30. 3 存储 和 索引 6 views 699 
SEE Aeae 699 
30.3.2 文件 组 内 的 空间 管理 ………… 699 
用 699 
3 699 
3 700 
30.3.6 在 线 创 建 索引 e 700 
30.3.7 JaRRHOTNGE «00-20 osacevese cscs 700 
IE PREP rereana rrie avross 700 
30.4 查询 处 理 和 优化 .pp 700 
30.4.1 编译 处 理 概述 ………………… 700 
30: 452 BE AG eeen nanei 701 
30.4.3 重 排序 和 基于 代价 的 优化 … 701 
zA A PBF ER -cscececcncensesescssave 702 
30.4.5 优化 时 的 数据 分 析 ……………… 702 
30.4.6 部 分 搜索 和 启发 式 搜索 oe 702 
30.4.7 ETB neesi sin 703 


30.5 ”并 发 与 恢复 .es 703 


30.5.1 事务 ee 703 
30,5. 2: -本本 704 
30.5.3 恢复 和 可 用 性 ………………… zea: FOS 
30.6 系统 体系 结构 … e reece eee ees 706 
30.6.1 服务 器 上 的 线程 池 ……………: 706 
30. 6.2 内 存 管理 :pp 706 
30. 6.3 安全 性 ee 707 
30.7 ”数据 访问 es 707 
30.8 分布 式 异 构 查询 处 理 ……………… 708 
30,6 SED ve poseidon rd 709 
30.9.1 复制 模型 709 
30.9.2 复制 选项 pp 709 
30. 10 .NET 中 的 服务 器 编程 .……………: 710 
30. 10.1 .NET 基本 概念 ………………… 710 
30. 10.2 SQL CLR 宿主 pp 711 
30. 10.3 ”可 扩展 性 协定 pp 711 
30. 11 XML 支持 pp 712 
30. 11.1 本 地 存储 和 组 织 XML …… 713 
30. 11.2 查询 和 更 新 XML 数据 
类 型 ee 713 
30. 11.3 XQuery 表达 式 的 执行 …… 714 
30.12 SQL Server 服务 代理 ……………… 714 
30. 13 ”商务 智能 ee。 va TIG 
30. 13.1 SQL Server 集成 服务 e 716 
30. 13.2 SQL Server 分 析 服 务 = 717 
30. 13.3 SQL Server 报表 服务 = 718 
文献 注解 和 718 
第 十 部 分 “附录 
附录 A 详细 的 大 学 模式 ……………… 722 
参考 文献 EEA LAE deduce EE ET 729 
索引 SN de i a a 754 


| 第 1 章 


Database System Concepts, 6E 


引 š 


数据 库 管理 系统 (DataBase-Management System, DBMS) 由 一 个 互相 关联 的 数据 的 集合 和 一 组 用 以 访 
问 这 些 数 据 的 程序 组 成 。 这 个 数据 集合 通常 称 作 数 据 库 ( database) ， 其 中 包含 了 关于 某 个 企业 的 信息 。 
DBMS 的 主要 目标 是 要 提供 一 种 可 以 方便 、 高 效 地 存 取 数据 库 信息 的 途径 。 

设计 数据 库 系统 的 目的 是 为 了 管理 大 量 信息 。 对 数据 的 管理 既 涉 及 信息 存储 结构 的 定义 ， 又 涉及 
信息 操作 机 制 的 提供 。 此 外 ,数据库 系统 还 必须 提供 所 存储 信息 的 安全 性 保证 ， 即 使 在 系统 崩溃 或 有 
人 企图 越权 访问 时 也 应 保障 信息 的 安全 性 。 如 果 数 据 将 被 多 用 户 共享 .那么 系统 还 必须 设法 避免 可 能 
产生 的 异常 结果 。 

在 大 多 数组 织 中 信息 是 非常 重要 的 ， 因 而 计算 机 科学 家 开发 了 大 量 的 用 于 有 效 管理 数据 的 概念 和 
技术 。 这 些 概 念 和 技术 正 是 本 书 所 关注 的 。 在 这 一 章 里 ,我 们 将 简要 介绍 数据 库 系统 的 基本 原理 。 


1.1 数据 库 系统 的 应 用 


数据 库 的 应 用 非常 广泛 ， 以 下 是 一 些 具有 代表 性 的 应 用 : 
。 企业 信息 

口 销售 : 用 于 存储 客户 、 产 品 和 购买 信息 。 

D 会 计 : 用 于 存储 付款 、 收 据 、 账 户 余额 、 资 产 和 其 他 会 计 信息 。 

口 人 力 资源 : 用 于 存储 雇员 、 工 资 、 所 得 税 和 津贴 的 信息 ， 以 及 产生 工资 单 。 

口 生产 制造 : 用 于 管理 供应 链 ， 跟 踪 工厂 中 产品 的 生产 情况 、 仓 库 和 商店 中 产品 的 详细 清单 以 
及 产品 的 订单 。 
ORARE: 用 于 存储 以 上 所 述 的 销售 数据 ， 以 及 实时 的 订单 跟踪 ， 推 荐 品 清单 的 生成 ， 还 有 

实时 的 产品 评估 的 维护 。 

。 银行 和 人 金融 

ORL: 用 于 存储 客户 信息 、 账 户 、 贷 款 ， 以 及 银行 的 交易 记录 。 

口 信用 卡 交易 ; 用 于 记录 信用 卡 消费 的 情况 和 产生 每 月 清单 。 

口 金融 业 : 用 于 存储 股票 、 债 券 等 金融 票据 的 持 有 、 出 售 和 买 人 的 信息 ; 也 可 用 于 存储 实时 的 
市 场 数据 ， 以 便 客户 能 够 进行 联机 交易 ， 公 司 能 够 进行 自动 交易 。 

。 大 学 : 用 于 存储 学 生 信息 、 课 程 注册 和 成 绩 。( 此 外 ， 还 存储 通常 的 单位 信息 ， 例 如 人 力 资源 
和 会 计 信息 等 。) 

。 航 空 业 : 用 于 存储 订 票 和 航班 的 信息 。 航 空 业 是 最 先 以 地 理 上 分 布 的 方式 使 用 数据 库 的 行业 
ae 
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。 电信 业 : 用 于 存储 通话 记录 ,产生 每 月 账单 ， 维 护 预付 电话 卡 的 余额 和 存储 通信 网 络 的 信息 。 

正如 以 上 所 列举 的 ， 数 据 库 已 经 成 为 当今 几乎 所 有 企业 不 可 默认 的 组 成 部 分 ， 它 不 仅 存 储 大 多 数 
企业 都 有 的 普通 的 信息 ， 也 存储 各 类 企业 特有 的 信息 。 

在 20 世纪 最 后 的 40 年 中 ,数据 库 的 使 用 在 所 有 的 企业 中 都 有 所 增长 。 在 早期 ， 很 少 有 人 直接 和 
数据 库 系统 打交道 ， 尽 管 没 有 意识 到 这 一 点 ， 他 们 还 是 与 数据 库 间 接地 打 着 交道 ， 比 如 ， 通 过 打印 的 
报表 (如 信用 卡 的 对 账单 ) 或 者 通过 代理 (如 银行 的 出 纳 员 和 机 票 预 订 代理 等 ) 与 数据 库 打 交道 。 自 动 取 
款 机 的 出 现 ， 使 用 户 可 以 直接 和 数据 库 进 行 交 互 。 计 算 机 的 电话 界面 (交互 式 语音 应 答 系 统 ) 也 使 得 用 
户 可 以 直接 和 数据 库 进 行 交 互 ， 呼 叫 者 可 以 通过 拨号 和 按 电话 键 来 输入 信息 或 选择 可 选项 ， 来 找 出 如 
航班 的 起 降 时 间或 注册 大 学 的 课程 等 。 

20 世纪 90 年 代 末 的 互联 网 革命 急剧 地 增加 了 用 户 对 数据 库 的 直接 访问 。 很 多 组 织 将 他 们 的 访问 
数据 库 的 电话 界面 改 为 Web 界面 ， 并 提供 了 大 量 的 在 线 服 务 和 信息 。 比 如 ， 当 你 访问 一 家 在 线 书店 ， 
浏览 一 本 书 或 一 个 音乐 集 时 ， 其 实 你 正在 访问 存储 在 某 个 数据 库 中 的 数据 。 当 你 确认 了 一 个 网 上 订购 ， 

你 的 订单 也 就 保存 在 了 某 个 数据 库 中 。 当 你 访问 一 个 银行 网 站 ， 检 索 你 的 账户 余额 和 交易 信息 时 ， 这 
些 信 息 也 是 从 银行 的 数据 库 系统 中 取出 来 的 。 当 你 访问 一 个 网 站 时 ， 关 于 你 的 一 些 信 息 可 能 会 从 某 个 
数据 库 中 取出 ， 并 且 选 择 出 那些 适合 显示 给 你 的 广告 。 此 外 ， 关 于 你 访问 网 络 的 数据 也 可 能 会 存储 在 
一 个 数据 库 中 。 

因此 ， 尽 管用 户 界 面 隐藏 了 访问 数据 库 的 细节 ， 大 多 数 人 甚至 没有 意识 到 他 们 正在 和 一 个 数据 库 
打交道 ， 然 而 访问 数据 库 已 经 成 为 当今 几乎 每 个 人 生活 中 不 可 默认 的 组 成 部 分 。 

也 可 以 从 另 一 个 角度 来 评判 数据 库 系统 的 重要 性 。 如 今 ， 像 Oracle 这 样 的 数据 库 系 统 厂商 是 世界 
上 最 大 的 软件 公司 之 一 ,并且 在 微软 和 IBM 等 这 些 有 和 多样 化 产品 的 公司 中 ,数据 库 系统 也 是 其 产品 线 
的 一 个 重要 组 成 部 分 。 


1.2 数据 库 系统 的 目标 


数据 库 系统 作为 商业 数据 计算 机 化 管理 的 早期 方法 而 产生 。 作 为 20 世纪 60 年 代 这 类 方法 的 典型 
实例 之 一 ， 考 虑 大 学 组 织 中 的 一 个 部 分 ， 除 其 他 数据 外 ， 需 要 保存 关于 所 有 教师 、 学 生 、 系 和 开设 课 
程 的 信息 。 在 计算 机 中 保存 这 些 信息 的 一 种 方法 是 将 它们 存放 在 操作 系统 文件 中 。 为 了 使 用 户 可 以 对 
信息 进行 操作 ， 系 统 中 应 有 一 些 对 文件 进行 操作 的 应 用 程序 ， 包 括 : 
。 增加 新 的 学 生 、 教 师 和 课程 。 
。 为 课程 注册 学 生 ， 并 产生 班级 花 名 册 。 
。 为 学 生 填 写成 绩 、 计 算 绩 点 (GPA)、 产 生成 绩 单 。 
这 些 应 用 程序 是 由 系统 程序 员 根 据 大 学 的 需求 编写 的 。 
随 着 需求 的 增长 ， 新 的 应 用 程序 被 加 入 到 系统 中 。 例 如 ， 某 大 学 决定 创建 一 个 新 的 专业 (例如 ， 计 
算 机 科学 ) ， 那 么 这 个 大 学 就 要 建立 一 个 新 的 系 并 创建 新 的 永久 性 文件 (或 在 现 有 文件 中 添加 信息 ) 来 
记录 关于 这 个 系 中 所 有 的 教师 、 这 个 专业 的 所 有 学 生 、 开 设 的 课程 、 学 位 条 件 等 信息 。 进 而 就 有 可 能 
需要 编写 新 的 应 用 程序 来 处 理 这 个 新 专业 的 特殊 规则 。 也 可 能 会 需要 编写 新 的 应 用 程序 来 处 理 大 学 中 
的 新 规则 。 因 此 ， 随 着 时 间 的 推移 ， 越 来 越 多 的 文件 和 应 用 程序 就 会 加 入 到 系统 中 。 
以 上 所 描述 的 典型 的 文件 处 理 系统 (fie-processing system ) 是 传统 的 操作 系统 所 支持 的 。 永 和 久 记 录 
被 存储 在 多 个 不 同 的 文件 中 ， 人 们 编写 不 同 的 应 用 程序 来 将 记录 从 有 关 文 件 中 取出 或 加 入 到 适当 的 文 
件 中 。 在 数据 库 管理 系统 (DBMS) 出现 以 前 ， 各 个 组 织 通常 都 采用 这 样 的 系统 来 存储 信息 。 
在 文件 处 理 系 统 中 存储 组 织 信 息 的 主要 痊 端 包括 : 
© 数据 的 元 余 和 不 一 致 (data redundancy and inconsistency) 。 由 于 文件 和 程序 是 在 很 长 的 一 段 时 间 
内 由 不 同 的 程序 员 创建 的 ， 不 同文 件 可 能 有 不 同 的 结构 ， 不 同 程序 可 能 采用 不 同 的 程序 设计 语 
言 写成 。 此 外 ， 相 同 的 信息 可 能 在 几 个 地 方 ( 文 件 ) 重 复 存 储 。 例 如 ， 如 果 某 学 生 有 两 个 专业 
(例如 ， 音 乐 和 数学 ) ， 该 学 生 的 地 址 和 电话 号 码 就 可 能 既 出 现在 包含 音乐 系 学 生 记 录 的 文件 
中 ， 又 出 现在 包含 数学 系 学 生 记 录 的 文件 中 。 这 种 元 余 除 了 导致 存储 和 访问 开销 增 大 外 ， 还 可 
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能 导致 数据 不 一 致 性 ( data inconsistency) ， 即 同一 数据 的 不 同 副本 不 一 致 。 例 如 ， 学 生地 址 的 更 
改 可 能 在 音乐 系 记录 中 得 到 反映 而 在 系统 的 其 他 地 方 却 没有 。 

© 数据 访问 困难 ( difficulty in accessing data) 。 假 设 大 学 的 某 个 办 事 人 员 需 要 找 出 居住 在 某 个 特定 邮 
编 地 区 的 所 有 学 生 的 姓名 ， 于 是 他 要 求 数 据 处 理 部 门生 成 这 样 的 一 个 列表 。 由 于 原始 系统 的 设 
计 者 并 未 预料 到 会 有 这 样 的 需求 ， 因 此 没有 现成 的 应 用 程序 去 满足 这 个 需求 。 但 是 ， 系 统 中 却 
有 一 个 产生 所 有 学 生 列表 的 应 用 程序 。 这 时 该 办 事 人 员 有 两 种 选择 : 一 种 是 取得 所 有 学 生 的 列 
表 并 从 中 手工 提取 所 需 信 息 ， 另 一 种 是 要 求 数据 处 理 部 门 让 某 个 程序 员 编 写 相应 的 应 用 程序 。 
这 两 种 方案 显然 都 不 太 令 人 满意 。 假 设 编写 了 相应 的 程序 ， 几 天 以 后 这 个 办 事 人 员 可 能 又 需要 
将 该 列表 减少 到 只 列 出 至 少 选课 60 学 时 的 那些 学 生 。 可 以 预见 ， 产 生 这 样 一 个 列表 的 程序 又 不 
存在 ， 这 个 职员 就 再 次 面临 前 面 那 两 种 都 不 尽 如 人 意 的 选择 。 

这 里 需要 指出 的 是 ， 传 统 的 文件 处 理 环 境 不 支持 以 一 种 方便 而 高 效 的 方式 去 获取 所 需 数据 。 

我 们 需要 开发 通用 的 、 能 对 变化 的 需求 做 出 更 快 反应 的 数据 检索 系统 。 

o 数据 孤立 (data isolation) 。 由 于 数据 分 散在 不 同文 件 中 ， 这 些 文件 又 可 能 具有 不 同 的 格式 ， 因 此 
编写 新 的 应 用 程序 来 检索 适当 数据 是 很 困难 的 。 

© 完整 性 问题 integrity problem ) 。 数 据 库 中 所 存储 数据 的 值 必须 满足 某 些 特定 的 一 致 性 约束 
(consistency constraint) 。 假 设 大 学 为 每 个 系 维护 一 个 账户 ， 并 且 记 录 各 个 账户 的 余额 。 我 们 还 
假设 大 学 要 求 每 个 系 的 账户 余额 永远 不 能 低 于 零 。 开 发 者 通过 在 各 种 不 同 应 用 程序 中 加 入 适当 
的 代码 来 强制 系统 中 的 这 些 约 束 。 然 而 ， 当 新 的 约束 加 入 时 ， 很 难 通过 修改 程序 来 体现 这 些 新 
的 约束 。 尤 其 是 当 约 束 涉 及 不 同文 件 中 的 多 个 数据 项 时 ， 问 题 就 变 得 更 加 复杂 了 。 

© 原子 性 问题 (atomicity problem) 。 如 同 任何 别 的 设备 一 样 ， 计 算 机 系统 也 会 发 生 故 障 。 一 旦 故障 
发 生 ， 数 据 就 应 被 恢复 到 故障 发 生 以 前 的 一 致 的 状态 ， 对 很 多 应 用 来 说 ， 这 样 的 保证 是 至 关 重 
要 的 。 让 我 们 看 看 把 A 系 的 账户 余额 中 的 500 美元 转 入 B 系 的 账户 余额 中 的 这 样 一 个 程序 。 假 
设 在 程序 的 执行 过 程 中 发 生 了 系统 故障 ， 很 可 能 A 系 的 余额 中 减 去 的 500 美元 还 没 来 得 及 存 人 
B 系 的 余额 中 ， 这 就 造成 了 数据 库 状 态 的 不 一 致 。 显 然 ， 为 了 保证 数据 库 的 一 致 性 ， 这 里 的 借 
和 贷 两 个 操作 必须 是 要 么 都 发 生 ， 要 么 都 不 发 生 。 也 就 是 说 ， 转 账 这 个 操作 必须 是 原子 的 
它 要 么 全 部 发 生 要 么 根本 不 发 生 。 在 传统 的 文件 处 理 系统 中 ， 保 持原 子 性 是 很 难 做 到 的 。 

© 并 发 访问 异常 (concurrent- access anomaly) 。 为 了 提高 系统 的 总 体 性 能 以 及 加 快 响应 速度 ， 许 多 
系统 允许 多 个 用 户 同 时 更 新 数据 。 实 际 上 ， 如 今 最 大 的 互联 网 零售 商 每 天 就 可 能 有 来 自 购买 者 
对 其 数据 的 数 百 万 次 访问 。 在 这 样 的 环境 中 ， 并 发 的 更 新 操作 可 能 相互 影响 ， 有 可 能 导致 数据 
的 不 一 致 。 设 A 系 的 账户 余额 中 有 10 000 美元 , 假如 系 里 的 两 个 职员 几乎 同时 从 系 的 账户 中 取 
款 (例如 分 别 取 出 500 美元 和 100 美元 ) ， 这 样 的 并 发 执行 就 可 能 使 账户 处 于 一 种 错误 的 (或 不 
一 致 的 ) 状态 。 假 设 每 个 取款 操作 对 应 执行 的 程序 是 读 取 原 始 账户 余额 ， 在 其 上 减 去 取款 的 金 
额 ， 然 后 将 结果 写 回 。 如 果 两 次 取款 的 程序 并 发 执行 ， 可 能 它们 读 到 的 余额 都 是 10 000 美元 ， 
并 将 分 别 写 回 9500 美元 和 9900 美元 。A 系 的 账户 余额 中 到 底 剩 下 9500 美元 还 是 9900 美元 视 
哪个 程序 后 写 回 结果 而 定 ， 而 实际 上 正确 的 值 应 该 是 9400 美元 。 为 了 消除 这 种 情况 发 生 的 可 
能 性 ， 系 统 必须 进行 某 种 形式 的 管理 。 但 是 ， 由 于 数据 可 能 被 多 个 不 同 的 应 用 程序 访问 ， 这 些 
程序 相互 间 事 先 又 没有 协调 ， 管 理 就 很 难 进行 。 

作为 另 一 个 例子 ， 假 设 为 确保 注册 一 门 课程 的 学 生 人 数 不 超 过 上 限 ， 注册 程序 维护 一 个 注 

册 了 某 门 课程 的 学 生计 数 。 当 一 个 学 生 注册 时 ， 该 程序 读 和 人 这 门 课 程 的 当前 计数 值 ， 核 实 该 计 
数 还 没有 达到 上 限 ， 给 计数 值 加 1， 将 计数 存 回 数据 库 。 假 设 两 个 学 生 同 时 注册 ， 而 此 时 的 计 
数值 是 (例如 )39。 尽 管 两 个 学 生 都 成 功 地 注册 了 这 门 课程 ， 计 数值 应 该 是 41， 然 而 两 个 程序 
执行 可 能 都 读 到 值 39， 然 后 都 写 回 值 40 ， 导 致 不 正确 地 只 增加 了 1 个 注册 人 数 。 此 外 ， 假 设 该 
课程 注册 人 数 的 上 限 是 40; 在 上 面 的 例子 中 ， 两 个 学 生 都 成 功 注 册 ， 就 导致 违反 了 40 个 学 生 
为 注册 上 限 的 规定 。 

。 安全 性 问题 (security problem ) 。 并 非 数据 库 系 统 的 所 有 用 户 都 可 以 访问 所 有 数据 。 例 如 在 大 学 中 ， 
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工资 发 放 人 员 只 需要 看 到 数据 库 中 关于 财务 信息 的 那个 部 分 。 他 们 不 需要 访问 关于 学 术 记录 的 信息 。 
但 是 ， 由 于 应 用 程序 总 是 即席 地 加 入 到 文件 处 理 系统 中 来 ， 这 样 的 安全 性 约束 难以 实现 。 
以 上 问题 以 及 一 些 其 他 问题 ， 促 进 了 数据 库 系 统 的 发 展 。 接 下 来 我 们 将 看 一 看 数据 库 系 统 为 了 解 
决 上 述 在 文件 处 理 系统 中 存在 的 问题 而 提出 的 概念 和 算法 。 在 本 书 的 大 部 分 篇 幅 中 ， 我 们 在 讨论 典型 
的 数据 处 理应 用 时 总 以 大 学 作为 实例 。 


1.3 数据 视图 


数据 库 系 统 是 一 些 互 相关 联 的 数据 以 及 一 组 使 得 用 户 可 以 访问 和 修改 这 些 数 据 的 程序 的 集合 。 数 
据 库 系统 的 一 个 主要 目的 是 给 用 户 提供 数据 的 抽象 视图 ， 也 就 是 说 ， 系 统 隐 藏 关于 数据 存储 和 维护 的 
某 些 细节 。 
1.3.1 数据 抽象 
一 个 可 用 的 系统 必须 能 高 效 地 检索 数据 。 这 种 高 效 性 的 需求 促使 设计 者 在 数据 库 中 使 用 复杂 的 数 
据 结构 来 表示 数据 。 由 于 许多 数据 库 系统 的 用 户 并 未 受过 计算 机 专业 训练 ， 系 统 开 发 人 员 通过 如 下 几 
个 层次 上 的 抽象 来 对 用 户 屏 项 复杂 性 ， 以 简化 用 户 与 系统 的 交互 : 
© 物理 层 (physical level) 。 最 低层 次 的 抽象 ， 描 述 数据 实际 上 是 怎样 存储 的 。 物 理 层 详细 描述 复 
杂 的 底层 数据 结构 。 
© 逻辑 层 (logical level) 。 比 物理 层 层次 稍 高 的 抽象 ， 描 述 数 据 库 中 存储 什么 数据 及 这 些 数据 间 存 
在 什么 关系 。 这 样 逻 辑 层 就 通过 少量 相对 简单 的 结构 描述 了 整个 数据 库 。 虽 然 逻辑 层 的 简单 结 
构 的 实现 可 能 涉及 复杂 的 物理 层 结构 ， 但 逻辑 层 的 用 户 不 必 知 道 这 样 的 复杂 性 。 这 称 作物 理 数 
据 独立 性 (physical data independence) 。 数 据 库 管理 员 使 用 抽象 的 逻辑 层 ， 他 必须 确定 数据 库 中 
应 该 保存 哪些 信息 。 
。 视图 层 (view level) 。 最 高 层次 的 抽象 ， 只 描述 整个 数据 库 的 某 个 部 分 。 尽 管 在 逻辑 层 使 用 了 比 
较 简 单 的 结构 ， 但 由 于 一 个 大 型 数据 库 中 所 存 信息 的 多 样 性 ， 仍 存在 一 定 程度 的 复杂 性 。 数 据 
库 系 统 的 很 多 用 户 并 不 需要 关心 所 有 的 信 
息 ， 而 只 需要 访问 数据 库 的 一 部 分 。 视 图 
层 抽象 的 定义 正 是 为 了 使 这 样 的 用 户 与 系 
统 的 交互 更 简单 。 系 统 可 以 为 同一 数据 库 
提供 多 个 视图 。 
这 三 层 抽 象 的 相互 关系 如 图 1-1 所 示 。 
通过 与 程序 设计 语言 中 数据 类 型 的 概念 进行 类 
比 ， 我们 可 以 弄 清 各 层 抽象 间 的 区 别 。 大 多 数 高 级 
程序 设计 语言 支持 结构 化 类 型 的 概念 。 例 如 ， 我 们 
可 以 定义 如 下 记录 : 图 1-1 数据 抽象 的 三 个 层次 
type instructor = record 
ID; char(5); 
name; char(20) ; 
dept_ name; char(20) ; 


salary; numeric(8, 2) ; 
end; 


以 上 代码 定义 了 一 个 具有 四 个 字段 的 新 记录 instructor。 每 个 字段 有 一 个 字段 名 和 所 属 类 型 。 对 一 
个 大 学 来 说 ， 可 能 包括 几 个 这 样 的 记录 类 型 : 

e department, E&F Et dept_name, building 和 budget, 

© course, A FE course_id, title, dept_name 和 credits, 








O 实际 的 类 型 说 明 依 赖 于 所 使 用 的 语言 。C 和 C ++ 使 用 struct HA. Java 没有 这 样 的 说 明 ， 而 可 以 定义 一 个 简单 的 
类 来 起 到 同样 的 作用 。 
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e student, W&F Et ID, name, dept_name 和 tot_cred . 


在 物理 层 ， 一 个 instructor, department 或 student 记录 可 能 被 描述 为 连续 存储 位 置 组 成 的 存储 块 。 编 | 6 


译 器 为 程序 设计 人 员 屏 蔽 了 这 一 层 的 细节 。 与 此 类 似 ， 数据 库 系统 为 数据 库 程 序 设 计 人 员 屏 项 了 许多 
最 底层 的 存储 细节 。 而 数据 库 管理 员 可 能 需要 了 解数 据 物理 组 织 的 某 些 细节 。 

在 逻辑 层 ， 每 个 这 样 的 记录 通过 类 型 定义 进行 描述 ， 正 如 前 面 的 代码 段 所 示 。 在 逻辑 层 上 同时 还 
要 定义 这 些 记录 类 型 的 相互 关系 。 程 序 设计 人 员 正 是 在 这 个 抽象 层次 上 使 用 某 种 程序 设计 语言 进行 工 
作 。 与 此 类 似 ， 数据库 管理 员 常 常 在 这 个 抽象 层次 上 工作 。 

最 后 ， 在 视图 层 ， 计 算 机 用 户 看 见 的 是 为 其 屏蔽 了 数据 类 型 细节 的 一 组 应 用 程序 。 与 此 类 似 ， 视 
图 层 上 定义 了 数据 库 的 多 个 视图 ， 数 据 库 用 户 看 到 的 是 这 些 视图 。 除 了 屏蔽 数据 库 的 逻辑 层 细 节 以 外 ， 
视图 还 提供 了 防止 用 户 访问 数据 库 的 某 些 部 分 的 安全 性 机 制 。 例 如 ， 大 学 注册 办 公 室 的 职员 只 能 看 见 
数据 库 中 关于 学 生 的 那 部 分 信息 ， 而 不 能 访问 涉及 教师 工资 的 信息 。 

1.3.2 实例 和 模式 

随 着 时 间 的 推移 ， 信 息 会 被 插入 或 删除 ， 数 据 库 也 就 发 生 了 改变 。 特 定时 刻 存储 在 数据 库 中 的 信 
息 的 集合 称 作 数据 库 的 一 个 实例 (instance) 。 而 数据 库 的 总 体 设计 称 作 数据 库 模 式 (schema) 。 数 据 库 模 
式 即使 发 生变 化 ， 也 不 频繁 。 

数据 库 模 式 和 实例 的 概念 可 以 通过 与 用 程序 设计 语言 写 出 的 程序 进行 类 比 来 理解 。 数 据 库 模 式 对 
应 于 程序 设计 语言 中 的 变量 声明 (以 及 与 之 关联 的 类 型 的 定义 ) 。 每 个 变量 在 特定 的 时 刻 会 有 特定 的 
值 ， 程 序 中 变量 在 某 一 时 刻 的 值 对 应 于 数据 库 模式 的 一 个 实例 。 

根据 前 面 我 们 所 讨论 的 不 同 的 抽象 层次 ， 数 据 库 系统 可 以 分 为 几 种 不 同 的 模式 。 物 理 模式 
(physical schema) 在 物理 层 描 述 数据 库 的 设计 ， 而 逻辑 模式 (logical schema) 则 在 逻辑 层 描 述 数据 库 的 设 
计 。 数 据 库 在 视图 层 也 可 以 有 几 种 模式 ， 有 时 称 为 子 模式 (subschema) ， 它 描述 了 数据 库 的 不 同 视图 。 

在 这 些 模式 中 ， 因 为 程序 员 使 用 逻辑 模式 来 构造 数据 库 应 用 程序 ， 从 其 对 应 用 程序 的 效果 来 看 ， 
逻辑 模式 是 目前 最 重要 的 一 种 模式 。 物 理 模式 隐藏 在 逻辑 模式 下 ， 并 且 通 常 可 以 在 应 用 程序 丝毫 不 受 
影响 的 情况 下 被 轻易 地 更 改 。 应 用 程序 如 果 不 依赖 于 物理 模式 ， 它 们 就 被 称 为 是 具有 物理 数据 独立 性 
(physical data independence) ， 因 此 即使 物理 模式 改变 了 它们 也 无 需 重 写 。 

在 介绍 完 下 一 节 数 据 模型 的 概念 后 ， 我 们 将 学 习 描 述 模式 的 语言 。 

1.3.3 数据 模型 

数据 库 结 构 的 基础 是 数据 模型 ( data model) 。 数 据 模 型 是 一 个 描述 数据 、 数 据 联系 、 数 据 语义 以 及 
一 致 性 约束 的 概念 工具 的 集合 。 数 据 模 型 提供 了 一 种 描述 物理 层 、 逻 辑 层 以 及 视图 层 数据 库 设 计 的 
Fieve 

下 文中 ， 我们 将 提 到 几 种 不 同 的 数据 模型 。 数 据 模型 可 被 划分 为 四 类 : 

© 关系 模型 (relational model) 。 关 系 模型 用 表 的 集合 来 表示 数据 和 数据 间 的 联系 。 每 个 表 有 多 个 

列 ， 每 列 有 唯一 的 列 名 。 关 系 模型 是 基于 记录 的 模型 的 一 种 。 基 于 记录 的 模型 的 名 称 的 由 来 是 
因为 数据 库 是 由 若干 种 固定 格式 的 记录 来 构成 的 。 每 个 表 包 含 某 种 特定 类 型 的 记录 。 每 个 记录 
类 型 定义 了 固定 数目 的 字段 (或 属性 ) 。 表 的 列 对 应 于 记录 类 型 的 属性 。 关 系数 据 模 型 是 使 用 最 
广泛 的 数据 模型 ， 当 今 大 量 的 数据 库 系 统 都 基于 这 种 关系 模型 。 第 2 ~ 8 章 将 详细 介绍 关系 
模型 。 

© 实体 -联系 模型 (entity-relationship model) 。 实 体 - 联系 (E-R) 数据 模型 基于 对 现实 世界 的 这 样 

一 种 认识 : 现实 世界 由 一 组 称 作 实 体 的 基本 对 象 以 及 这 些 对 象 间 的 联系 构成 。 实 体 是 现实 世界 
中 可 区 别 于 其 他 对 象 的 一 件 “ 事 情 ” 或 一 个 “物体 ”。 实 体 - 联系 模型 被 广泛 用 于 数据 库 设 计 。 
第 7 章 将 详细 探讨 该 模型 。 

© 基于 对 象 的 数据 模型 (object-based data model) 。 面 向 对 象 的 程序 设计 (特别 是 Java、C++ 或 C#) 

已 经 成 为 占 主 导 地 位 的 软件 开发 方法 。 这 导致 面向 对 象 数据 模型 的 发 展 ， 面 向 对 象 的 数据 模型 
可 以 看 成 是 E-R 模型 增加 了 封装 、 方 法 (函数 ) 和 对 象 标识 等 概念 后 的 扩展 。 对 象 -关系 数据 模 
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型 结合 了 面向 对 象 的 数据 模型 和 关系 数据 模型 的 特征 。 第 22 章 将 讲述 对 象 - 关系 数据 模型 。 

o 半 结 构 化 数据 模型 (semistructured data model) 。 半 结构 化 数据 模型 允许 那些 相同 类 型 的 数据 项 
含有 不 同 的 属性 集 的 数据 定义 。 这 和 早先 提 到 的 数据 模型 形成 了 对 比 : 在 那些 数据 模型 中 所 有 
某 种 特定 类 型 的 数据 项 必须 有 相同 的 属性 集 。 可 扩展 标记 语言 (eXtensible Markup Language， 
XML) 被 广泛 地 用 来 表示 半 结 构 化 数据 。 这 将 在 第 23 章 中 详 述 。 

在 历史 上 ， 网 状 数据 模型 ( network data model) 和 层次 数据 模型 ( hierarchical data model) 先 于 关系 数 
据 模 型 出 现 。 这 些 模型 和 底层 的 实现 联系 很 紧密 ， 并 且 使 数据 建 模 复 杂 化 。 因 此 ， 除 了 在 某 些 地 方 仍 
在 使 用 的 旧 数据 库 中 之 外 ， 如 今 它们 已 经 很 少 被 使 用 了 。 对 此 感 兴趣 的 读者 ， 在 附录 D 和 附录 下 中 有 
相关 的 概述 。 


1.4 数据 库 语言 


数据 库 系 统 提 供 数 据 定义 语言 ( data-definition language ) 来 定义 数据 库 模式 ， 以 及 数据 操纵 语言 
( data-manipulation language) 来 表达 数据 库 的 查询 和 更 新 。 而 实际 上 ， 数 据 定 义 和 数 据 操 纵 语 言 并 不 是 
两 种 分 离 的 语言 ， 相 反 地 ， 它 们 简单 地 构成 了 单一 的 数据 库 语 言 (如 广泛 使 用 的 SQL 语言 ) 的 不 同 
部 分 。 
1.4.1 数据 操纵 语言 

数据 操纵 语言 (Data-Manipulation Language，DML) 是 这 样 一 种 语言 ， 它 使 得 用 户 可 以 访问 或 操纵 那 
些 按照 某 种 适当 的 数据 模型 组 织 起 来 的 数据 。 有 以 下 访问 类 型 

。 对 存储 在 数据 库 中 的 信息 进行 检索 。 

© 向 数据 库 中 插入 新 的 信息 。 

e 从 数据 库 中 删除 信息 。 

。 修改 数据 库 中 存储 的 信息 。 

通常 有 两 类 基本 的 数据 操纵 语言 : 

© 过 程 化 DML( procedural DML) 要 求 用 户 指 定 需要 什么 数据 以 及 如 何 获 得 这 些 数 据 。 

。 声明 式 DML( declarative DML) (也 称 为 非 过 程 化 DML) 只 要 求 用 户 指 定 需要 什么 数据 ， 而 不 指 
明 如 何 获得 这 些 数据 。 

通常 声明 式 DML 比 过 程 化 DML 易学 易 用 。 但 是 ， 由 于 用 户 不 必 指 明 如 何 获得 数据 ， 数 据 库 系统 
必须 找 出 一 种 访问 数据 的 高 效 途 径 。 

查询 (query) 是 要 求 对 信息 进行 检索 的 语句 。DML 中 涉及 信息 检索 的 部 分 称 作 查询 语言 query 
language) 。 实 践 中 常 把 查询 语言 和 数据 操纵 语言 作为 同义词 使 用 ， 尽 管 从 技术 上 来 说 这 并 不 正确 。 

目前 有 很 多 商业 性 的 或 者 实验 性 的 数据 库 查 询 语言 ， 我 们 在 第 3 章 、 第 4 章 和 第 5 章 中 将 学 习 最 
广泛 使 用 的 查询 语言 SQL。 我 们 还 会 在 第 6 章 中 学 习 一 些 其 他 的 查询 语言 。 

我 们 在 1. 3 节 讨 论 的 抽象 层次 不 仅 可 以 用 于 定义 或 构造 数据 ， 而 且 还 可 以 用 于 操纵 数据 。 在 物理 
层 ， 我 们 必须 定义 可 高 效 访问 数据 的 算法 ; 在 更 高 的 抽象 层次 ， 我 们 则 强调 易 用 性 。 目 标 是 使 人 们 能 
够 更 有 效 地 和 系统 交互 。 数 据 库 系统 的 查询 处 理 器 部 件 (我 们 将 在 第 12 章 和 第 13 章 学 习 ) 将 DML 的 查 
询 语句 翻译 成 数据 库 系 统 物理 层 的 动作 序列 。 
1.4.2 数据 定义 语言 

数据 库 模 式 是 通过 一 系列 定义 来 说 明 的 ,这些 定义 由 一 种 称 作 数据 定义 语言 ( Data-Definition 
Language, DDL) 的 特殊 语言 来 表达 。DDL 也 可 用 于 定义 数据 的 其 他 特征 。 

数据 库 系 统 所 使 用 的 存储 结构 和 访问 方式 是 通过 一 系列 特殊 的 DDL 语句 来 说 明 的 ， 这 种 特殊 的 
DDL 称 作 数据 存储 和 定义 (data storage and definition) 语言。 这 些 语句 定义 了 数据 库 模 式 的 实现 细节 ， 而 
这 些 细节 对 用 户 来 说 通常 是 不 可 见 的 。 

存储 在 数据 库 中 的 数据 值 必须 满足 某 些 一 致 性 约束 ( consistency constraint) 。 例 如 ， 假 设 大 学 要 求 
一 个 系 的 账户 余额 必须 不 能 为 负 值 。DDL 语言 提供 了 指定 这 种 约束 的 工具 。 每 当 数据 库 被 更 新 时 ， 数 
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据 库 系统 都 会 检查 这 些 约 束 。 通 常 ， 约 束 可 以 是 关于 数据 库 的 任意 谓词 。 然 而 ， 如 果 要 测试 任意 谓词 ， 
可 能 代价 比较 高 。 因 此 ， 数 据 库 系统 实现 可 以 以 最 小 代价 测试 的 完整 性 约束 。 
© 域 约束 ( domain constraint) 。 每 个 属性 都 必须 对 应 于 一 个 所 有 可 能 的 取 值 构成 的 域 ( 例如， 整数 


型 、 字 符 型 、 日 期 /时 间 型 ) 。 声 明 一 种 属性 属于 某 种 具体 的 域 就 相当 于 约束 它 可 以 取 的 值 。 域 
约束 是 完整 性 约束 的 最 基本 形式 。 每 当 有 新 数据 项 插入 到 数据 库 中 ， 系 统 就 能 方便 地 进行 域 约 
束 检 测 。 

参照 完整 性 (referential integrity) 。 我 们 常常 希望 ， 一 个 关系 中 给 定 属性 集 上 的 取 值 也 在 另 一 关 
系 的 某 一 属性 集 的 取 值 中 出 现 (参照 完整 性 ) 。 例 如 ， 每 门 课程 所 列 出 的 系 必须 是 实际 存在 的 
系 。 更 准确 地 说 ， 一 个 course 记录 中 的 dept_name 值 必须 出 现在 department 关系 中 的 某 个 记录 的 
dept_name 属性 中 。 数 据 库 的 修改 会 导致 参照 完整 性 的 破坏 。 当 参照 完整 性 约束 被 违反 时 ， 通 
常 的 处 理 是 拒绝 执行 导致 完整 性 被 破坏 的 操作 。 

断言 (assertion ) 。 一 个 断言 就 是 数据 库 需 要 时 刻 满足 的 某 一 条 件 。 域 约束 和 参照 完整 性 约束 是 
断言 的 特殊 形式 。 然 而 ， 还 有 许多 约束 不 能 仅 用 这 几 种 特殊 形式 表达 。 例 如 ,“ 每 一 学 期 每 一 
个 系 必须 至 少 开 设 5 门 课程 ”， 必 须 表达 成 一 个 断言 。 断 言 创 建 以 后 ， 系 统 会 检测 其 有 效 性 。 
如 果断 言 有 效 ， 则 以 后 只 有 不 破坏 断言 的 数据 库 更 新 才 被 允许 。 

授权 ( authorization ) 。 我 们 也 许 想 对 用 户 加 以 区 别 ， 对 于 不 同 的 用 户 在 数据 库 中 的 不 同 数 据 值 上 
人 允许 不 同 的 访问 类 型 。 这 些 区 别 以 授权 来 表达 ， 最 常见 的 是 : 读 权 限 (read authorization) ， 人 允许 
读 取 数 据 ， 但 不 能 修改 数据 ; 插入 权限 (insert authorization ) ， 人 允许 插入 新 数据 ， 但 不 允许 修改 
已 有 数据 ; 更 新 权限 (update authorization ) ， 人 允许 修改 ， 但 不 能 删除 数据 ; 删除 权限 ( delete 
authorization) ， 人 允许 删除 数据 。 我 们 可 以 赋予 用 户 所 有 的 权限 ， 或 者 没有 或 部 分 拥有 这 些 权 限 。 


正如 其 他 任何 程序 设计 语言 一 样 ，DDL 以 一 些 指令 (语句 ) 作 为 输入 ， 生 成 一 些 输出 。DDL 的 输出 
放 在 数据 字典 ( data dictionary) 中 ， 数 据 字典 包含 了 元 数据 (metadata) ， 元 数据 是 关于 数据 的 数据 。 可 把 
数据 字典 看 作 一 种 特殊 的 表 ， 这 种 表 只 能 由 数据 库 系统 本 身 ( 不 是 常规 的 用 户 ) 来 访问 和 修改 。 在 读 取 


和 修改 实际 的 数据 前 ， 数 据 库 系统 先 要 参考 数据 字典 。 
1.5 关系 数据 库 


ID | name | deptname | salary | 
关系 数据 库 基于 关系 模型 ， 使 用 一 系列 表 来 表达 数据 | 22222 | Einstein | Physics 95000 
` +r 此 i 12121 | Wu Finance 90000 
以 及 这 些 数据 之 间 的 联 系 。 关系 数据库 也 包括 DML 和 32343 | ElSaid History 60000 
DDL, 在 第 2 章 中 ,我 们 简单 介绍 关系 模型 的 基本 概念 。 | 45565 | Katz Comp. Sci. | 75000 
;五 二 :五 二 | 98345 | Kim Elec. Eng. 80000 
多 数 的 商用 关系 数据 库 系统 使 用 SQL 语言 ， 该 语言 将 在 76766 | Crick Bidlogy 72000 
第 .3 章 、 第 4 章 和 第 5 章 中 详细 介绍 。 第 6 章 我 们 将 讨论 10101 | Srinivasan | Comp. Sci. | 65000 
Eg H 二 58583 | Califieri History 62000 
其 他 有 影响 的 语言 。 | 83821 | Brandt Comp. Sci. | 92000 
1.5.1 表 15151 | Mozart Music 40000 
Da | 33456 | Gold Physics 87000 
每 个 表 有 多 个 列 ， 每 个 列 有 唯一 的 名 字 。 图 1-2 展示 了 | 76543 | Singh | Finance 80000 | 


一 个 关系 数据 库 示 例 ， 它 由 两 个 表 组 成 : 其 一 给 出 大 学 教师 
的 细节 ， 其 二 给 出 大 学 中 各 个 系 的 细节 。 


第 一 个 表 是 instructor 表 ， 表 示 ， 例 如 ，ID 为 22222 的 名 dept name | building | budget 
叫 Einstein 的 教师 是 物理 系 的 成 员 ， 他 的 年 薪 为 95 000 美元 。 Comp. Sci. | Taylor | 100000 | 
第 二 个 表 是 depariment 表 ， 表 示 ， 例 如 ， 生 物 系 在 Watson 大 ec Exc. {Taylor | 85000 
楼 ， 经 费 预算 为 90 000 美元 。 当 然 ， 一 个 现实 世界 的 大 学 会 en ed Pa 
有 更 多 的 系 和 教师 。 在 本 书 中 ， 我 们 使 用 小 型 的 表 来 描述 概 History | Painter | 50000 
念 。 相 同 模式 的 更 大 型 的 例子 可 以 在 联机 的 版 本 中 得 到 。 Physics | Watson | 70000 


关系 模型 是 基于 记录 的 模型 的 一 个 实例 。 基 于 记录 的 模 
型 ， 之 所 以 有 此 称谓 ， 是 因为 数据 库 的 结构 是 几 种 固定 格式 
的 记录 。 每 个 表 包 含 一 种 特定 类 型 的 记录 。 每 种 记录 类 型 定 























a) instructor# 

















b) department% 
图 1-2 关系 数据 库 的 一 个 实例 
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义 固定 数目 的 字段 或 属性 。 表 的 列 对 应 记录 类 型 的 属性 。 

不 难看 出 ， 表 可 以 如 何 存储 在 文件 中 。 例 如 ， 一 个 特殊 的 字符 ( 比如 逗号 ) 可 以 用 来 分 隔 记录 的 不 
同属 性 ， 另 一 特殊 的 字符 ( 比如 换行 符 ) 可 以 用 来 分 隔 记录 。 对 于 数据 库 的 开发 者 和 用 户 ， 关 系 模型 屏 
责 了 这 些 低层 实现 细节 。 

我 们 也 注意 到 ， 在 关系 模型 中 ， 有 可 能 创建 一 些 有 问题 的 模式 ， 比 如 出 现 不 必要 的 元 余 信息 。 例 
如 ， 假 设 我 们 把 系 的 budget 存储 为 instructor 记录 的 一 个 属性 。 那 么 ， 每 当 一 个 经 费 预 算 的 值 (例如 ， 物 

理 系 的 经 费 预 算 ) 发 生变 化 时 ， 这 个 变化 必须 被 反映 在 与 物理 系 相 关联 的 所 有 教员 记录 中 。 在 第 8 章 ， 
我 们 将 研究 如 何 区 分 好 的 和 不 好 的 模式 设计 。 
1.5.2 数据 操纵 语言 

SQL 查询 语言 是 非 过 程 化 的 。 它 以 几 个 表 作 为 输入 (也 可 能 只 有 一 个 ) ， 总 是 仅 返回 一 个 表 。 下 面 

是 一 个 SQL 查询 的 例子 ， 它 找 出 历史 系 的 所 有 教员 的 名 字 : 


select instructor. name 
from instructor 
where instructor. dept_name = * History’ ; 


这 个 查询 指定 了 从 instructor 表 中 要 取 回 的 是 dept_name 为 History 的 那些 行 ， 并 且 这 些 行 的 name 属 
性 要 显示 出 来 。 更 具体 点 ， 执 行 本 查询 的 结果 是 一 个 表 ， 它 有 一 列 name 和 若干 行 ， 每 一 行 都 是 dept_ 
name 为 History 的 一 个 教员 的 名 字 。 如 果 这 个 查询 运行 在 图 1-2 中 的 表 上 ， 那么 结果 将 有 两 行 ， 一 个 是 
名 字 El Said， 另 一 个 是 名 字 Califieri, 
查询 可 以 涉及 来 自 不 止 一 个 表 的 信息 。 例 如 ， 下 面 的 查询 将 找 出 与 经 费 预 算 超 过 95 000 美元 的 系 
相关 联 的 所 有 教员 的 ID 和 系 名 。 


select instructor. ID, department. dept_name 

from instructor, department 

where instructor. dept_name = department. dept_name and 
department. budget > 95000; 


如 果 上 述 查 询 运 行 在 图 1-2 中 的 表 上 ， 那么 系统 将 会 发 现 ， 有 两 个 系 的 经 费 预算 超过 95 000 美 
元 一 一 计算 机 科学 系 和 金融 系 ; 这 些 系 里 有 5 位 教员 。 于 是 ,结果 将 由 一 个 表 组 成 ， 这 个 表 有 两 列 
(ID, dept_name ) 和 五 行 (12121, Finance), (45565, Computer Science) (10101, Computer Science ) 、 
(83821, Computer Science) 、(76543, Finance) 


1.5.3 数据 定义 语言 
SQL 提供 了 一 个 丰富 的 DDL 语言 ， 通 过 它 ， 我 们 可 以 定义 表 、 完 整 性 约束 、 断 言 ， 等 等 。 
例如 ， 以 下 的 SQL DDL 语句 定义 了 department K: 
create table department 
(dept_name char(20) , 
building char(15), 
budget numeric(12, 2) ) ; 
上 面 的 DDL 语句 执行 的 结果 就 是 创建 了 department R, ZRA 3 个 列 : dept_name, building Fil budget , 
每 个 列 有 一 个 与 之 相关 联 的 数据 类 型 。 在 第 3 章 我 们 将 更 详细 地 讨论 数据 类 型 。 另 外 ，DDL 语句 还 更 
新 了 数据 字典 ， 它 包含 元 数据 ( 见 1.4.2 节 ) 。 表 的 模式 就 是 元 数据 的 一 个 例子 。 
1.5.4 来 自 应 用 程序 的 数据 库 访问 
SQL 不 像 一 个 通用 的 图 灵机 那么 强大 ; 即 ， 有 一 些 计算 可 以 用 通用 的 程序 设计 语言 来 表达 ,但 无 
法 通过 SQL 来 表达 。SQL 还 不 支持 诸如 从 用 户 那 儿 输 入 、 输 出 到 显示 器 ， 或 者 通过 网 络 通信 这 样 的 动 
作 。 这 样 的 计算 和 动作 必须 用 一 种 宿主 语言 来 写 ， 比 如 C、C ++ 或 Java， 在 其 中 使 用 嵌入 式 的 SQL 查 
询 来 访问 数据 库 中 的 数据 。 应 用 程序 (application program ) 在 这 里 是 指 以 这 种 方式 与 数据 库 进 行 交互 的 
程序 。 在 大 学 系统 的 例子 中 ， 就 是 那些 使 学 生 能 够 注册 课程 、 产 生 课 程 花 名 册 、 计 算 学 生 的 GPA、 产 
生 工 资 支票 等 的 程序 。 
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为 了 访问 数据 库 ，DML 语句 需要 由 宿主 语言 来 执行 。 有 两 种 途径 可 以 做 到 这 一 点 : 

。 一 种 是 通过 提供 应 用 程序 接口 (过 程 集 ) ， 它 可 以 用 来 将 DML 和 DDL 的 语句 发 送 给 数据 库 ， 再 
取 回 结果 。 

与 C 语 言 一 起 使 用 的 开放 数据 库 连 接 (ODBC ) 标准， 是 一 种 常用 的 应 用 程序 接口 标准 。 

Java 数据 库 连 接 (JDBC ) 标 准 为 Java 语言 提供 了 相应 的 特性 。 

。 另 一 种 是 通过 扩展 宿主 语言 的 语法 ， 在 宿主 语言 的 程序 中 岩 入 DML 调用 。 通 常用 一 个 特殊 字 
符 作为 DML 调用 的 开始 ， 并 且 通 过 预 处 理 器 ， 称 为 DML 预 编 译 器 (DML precompiler) ， 来 将 
DML 语句 转变 成 宿主 语言 中 的 过 程 调用 。 


1.6 数据 库 设计 


数据 库 系 统 被 设计 用 来 管理 大 量 的 信息 。 这 些 大 量 的 信息 并 不 是 孤立 存在 的 ， 而 是 企业 行为 的 一 
部 分 ; 企业 的 终端 产品 可 以 是 从 数据 库 中 得 到 的 信息 ， 或 者 是 某 种 设备 或 服务 ， 数 据 库 对 它们 起 到 支 
持 的 作用 。 

数据 库 设计 的 主要 内 容 是 数据 库 模 式 的 设计 。 为 设计 一 个 满足 企业 需求 模型 的 完整 的 数据 库 应 用 
环境 还 要 考虑 更 多 的 问题 。 在 本 书 中 ， 我 们 先 着 重 讨论 数据 库 查 询 语句 的 书写 以 及 数据 库 模 式 的 设计 ， 
第 9 章 将 讨论 应 用 设计 的 整个 过 程 。 

1.6.1 设计 过 程 

高 层 的 数据 模型 为 数据 库 设 计 者 提供 了 一 个 概念 框架 ， 去 说 明 数 据 库 用 户 的 数据 需求 ， 以 及 将 怎 
样 构造 数据 库 结构 以 满足 这 些 需求 。 因 此 ， 数 据 库 设计 的 初始 阶段 是 全 面 刻 画 预期 的 数据 库 用 户 的 数 
据 需 求 。 为 了 完成 这 个 任务 ， 数 据 库 设计 者 有 必要 和 领域 专家 、 数 据 库 用 户 广 泛 地 交流 。 这 个 阶段 的 
成 果 是 制定 出 用 户 需 求 的 规格 文档 。 

下 一 步 ， 设 计 者 选择 一 个 数据 模型 ， 并 运用 该 选 定 的 数据 模型 的 概念 ， 将 那些 需求 转换 成 一 个 数据 
库 的 概念 模式 。 在 这 个 概念 设计 ( conceptual-design ) 阶段 开发 出 来 的 模式 提供 了 企业 的 详细 概述 。 设 计 者 
再 复审 这 个 模式 ， 确 保 所 有 的 数据 需求 都 满足 并 且 相 互 之 间 没 有 冲突 ， 在 检查 过 程 中 设计 者 也 可 以 去 掉 
一 些 宛 余 的 特性 。 这 一 阶段 的 重点 是 描述 数据 以 及 它们 之 间 的 联系 ， 而 不 是 指定 物理 的 存储 细节 。 

从 关系 模型 的 角度 来 看 ， 概 念 设计 阶段 涉及 决定 数据 库 中 应 该 包括 哪些 属性 ， 以 及 如 何 将 这 些 属 
性 组 织 到 多 个 表 中 。 前 者 基本 上 是 商业 的 决策 ， 在 本 书 中 我 们 不 进一步 讨论 。 而 后 者 主要 是 计算 机 科 
学 的 问题 ， 解 决 这 个 问题 主要 有 两 种 方法 : 一 种 是 使 用 实体 - 联系 模型 ( 见 1.6.3 节 ) ， 另 一 种 是 引入 
一 套 算 法 (通称 为 规范 化 ) ， 这 套 算法 将 所 有 属性 集 作 为 输入 ， 生 成 一 组 关系 表 ( 见 1.6.4 节 )。 

一 个 开发 完全 的 概念 模式 还 将 指出 企业 的 功能 需求 。 在 功能 需求 说 明 ( specification of functional 
requirement) 中 ， 用 户 描述 数据 之 上 的 各 种 操作 (或 事务 ) ， 例 如 更 新 数据 、 检 索 特 定 的 数据 、 删 除数 据 
等 。 在 概念 设计 的 这 个 阶段 ， 设 计 者 可 以 对 模式 进行 复审 ， 确 保 它 满足 功能 需求 。 

现在 ， 将 抽象 数据 模型 转换 到 数据 库 实 现 进 入 最 后 两 个 设计 阶段 。 在 逻辑 设计 阶段 (logical-design 
phrase) ， 设 计 者 将 高 层 的 概念 模式 映射 到 要 使 用 的 数据 库 系 统 的 实现 数据 模型 上 ; 然后 设计 者 将 得 到 
的 特定 于 系统 的 数据 库 模 式 用 到 物理 设计 阶段 (physical-design phrase) 中 ， 在 这 个 阶段 中 指定 数据 库 的 
物理 特性 ， 这 些 特性 包括 文件 组 织 的 形式 以 及 内 部 的 存储 结构 ， 这 些 内 容 将 在 第 10 章 中 讨论 。 
1.6.2 大 学 机 构 的 数据 库 设计 

为 了 阐明 设计 过 程 ， 我 们 来 看 如 何 为 大 学 做 数据 库 设计 。 初 始 的 用 户 需 求 说 明 可 以 基于 与 数据 库 
用 户 的 交流 以 及 设计 者 自己 对 大 学 机 构 的 分 析 。 这 个 设计 阶段 中 的 需求 描述 是 制定 数据 库 的 概念 结构 
的 基础 。 以 下 是 大 学 的 主要 特性 : 

。 大 学 分 成 多 个 系 。 每 个 系 由 自己 唯一 的 名 字 ( dept_name ) 来 标识 ， 坐 落 在 特定 的 建筑 物 

(building) 中， 有 它 的 经 费 预算 ( budget) 。 

© 每 一 个 系 有 一 个 开设 课程 列表 。 每 门 课程 有 课程 号 (course_id)、 课 程 名 (title)、 系 名 ( dept_ 

name) 和 学 分 (credits) ， 还 可 能 有 先 修 要 求 (prereguisites ) 。 
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© 教师 由 个 人 唯一 的 标识 号 ( 1D) 来 标识 。 每 位 教师 有 姓名 (name) 、 所 在 的 系 ( dept_name) 和 工资 
(salary) 。 
e 学 生 由 个 人 唯一 的 标识 号 ( 1D) 来 标识 。 每 位 学 生 有 姓名 (name) 、 主 修 的 系 ( dept_name) 和 已 修 


学 分 数 (tot_cred) 。 


大 学 维护 一 个 教室 列表 ， 详 细 说 明 楼 名 ( building) 、 房 间 号 (room_number) 和 容量 (capacity) 

© 大 学 维护 开设 的 所 有 课程 (开课 ) 的 列表 。 每 次 开课 由 课程 号 (course_id)、 开 课 号 (sec_id)、 年 

(year) PIEH (semester) RRR, SIRKKA H (semester), (year), RZ (building) 
房间 号 (room_number) 和 时 段 号 (time_slot_id， 即 上 课 的 时 间 ) 

© 系 有 一 个 教学 任务 列表 ,说明 每 位 教师 的 授课 情况 。 

© 大 学 有 一 个 所 有 学 生 课 程 注册 的 列表 ， 说 明 每 位 学 生 在 哪些 课程 的 哪 次 开课 中 注册 了 

一 个 真正 的 大 学 数据 库 会 比 上 述 的 设计 复杂 得 多 。 然 而 ， 我 们 就 用 这 个 简化 了 的 模型 来 帮助 你 理 
解 概念 思想 ， 避 免 你 迷失 在 复杂 设计 的 细节 中 。 
1.6.3 实体 -联系 模型 

实体 -联系 (E-R) 数 据 模 型 使 用 一 组 称 作 实 体 的 基本 对 象 ， 以 及 这 些 对 象 间 的 联系 。 实 体 是 现实 
世界 中 可 区 别 于 其 他 对 象 的 一 件 “ 事 情 ” 或 一 个 “物体 ”。 例 如 ,每 个 人 是 一 个 实体 ， 每 个 银行 账户 也 是 
一 个 实体 。 

数据 库 中 实体 通过 属性 (attribute ) 集 合 来 描述 。 例 如 , 属性 dept_name, building 与 budget 可 以 描述 
大 学 中 的 一 个 系 ， 并 且 它 们 也 组 成 了 department 实体 集 的 属性 。 类 似 地 ， 属 性 ID, name 和 salary 可 以 
描述 instructor 实体 。° 

我 们 用 额外 的 属性 ID 来 唯一 标识 教师 ( 因为 可 能 存在 两 位 教师 有 相同 的 名 字 和 相同 的 工资 )。 必 
须 给 每 位 教师 分 配 唯 一 的 教师 标识 。 在 美国 , 许多 机 构 用 一 个 人 的 社会 保障 号 ( 它 是 美国 政府 分 配给 每 
个 美国 人 的 一 个 唯一 的 号 码 ) 作 为 他 的 唯一 标识 。 

联系 (relationship) 是 几 个 实体 之 间 的 关联 。 例 如 ，member 联系 将 一 位 教师 和 她 所 在 的 系 关联 在 一 
起 。 同 一 类 型 的 所 有 实体 的 集合 称 作 实 体 集 (entity set) ， 同 一 类 型 的 所 有 联系 的 集合 称 作 联系 集 
(relationship set) 。 

数据 库 的 总 体 逻 辑 结 构 ( 模 式 ) 可 以 用 实体 - 联系 图 (entity- relationship diagram, E-R 图 ) 进行 图 形 
化 表示 。 有 几 种 方法 来 画 这 样 的 图 。 最 常用 的 方法 之 一 是 采用 统一 建 模 语言 Unified Modeling 
Language，UML) 。 在 我 们 使 用 的 基于 UML 的 符号 中 ，E-R 图 如 下 表示 : 

。 实体 集 用 和 矩形 框 表 示 ， 实 体 名 在 头 部 ， 属 性 名 列 在 下 面 。 

。 联系 集 用 连接 一 对 相关 的 实体 集 的 尧 形 表示 ， 联 系 名 放 在 菱形 内 部 。 

作为 例子 ， 我 们 来 看 一 下 大 学 数据 库 中 包括 教师 和 系 以 及 它们 之 间 的 关联 的 部 分 。 对 应 的 E-R 图 
如 图 1-3 所 示 。E-R 图 表示 出 有 instructor 和 department 这 两 个 实体 集 ， 它 们 具有 先前 已 经 列 出 的 一 些 属 
性 。 这 个 图 还 指明 了 在 教师 和 系 之 间 的 member 联系 。 


ID dept_name 


name building 
salary budget 


图 1-3 E-R 图 示例 





除了 实体 和 联系 外 ，E-R 模型 还 描绘 了 数据 库 必须 遵守 的 对 其 内 容 的 某 些 约束 。 一 个 重要 的 约束 
是 映射 基数 (mapping cardinality) ， 它 表示 通过 某 个 联系 集 能 与 一 实体 进行 关联 的 实体 数目 。 例 如 ， 如 
果 一 位 教师 只 能 属于 一 个 系 ，E-R 模型 就 能 表达 出 这 种 约束 。 





日 “ 机敏 的 读者 会 注意 到 我 们 从 描述 instructor 实体 集 的 属性 集中 丢掉 了 dept_name 属性 。 在 第 7 章 中 我 们 将 详细 解释 
为 什么 这 样 做 。 
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实体 - 联系 模型 在 数据 库 设计 中 使 用 广泛 ， 在 第 7 章 中 将 详细 研究 。 
1.6.4 规范 化 

设计 关系 数据 库 所 用 到 的 另外 一 种 方法 是 通常 被 称 为 规范 化 的 过 程 。 它 的 目标 是 生成 一 个 关系 模 
式 集 合 ， 使 我 们 存储 信息 时 没有 不 必要 的 元 余 ， 同 时 又 能 很 轻易 地 检索 数据 。 这 种 方法 是 设计 一 种 符 
合适 当 的 范式 (normal form) 的 模式 ， 为 确定 一 个 关系 模式 是 否 符合 想 要 的 范式 ， 我 们 需要 额外 的 关于 
用 数据 库 建 模 的 现实 世界 中 机 构 的 信息 。 最 常用 的 方法 是 使 用 函数 依赖 ( functional dependency), Ri 
将 在 8.4 节 讨 论 。 

为 了 理解 规范 化 的 必要 性 ， 我 们 看 一 看 在 不 好 的 数据 库 设计 中 会 发 生 什么 问题 。 一 个 不 好 的 设计 
可 能 会 包括 如 下 不 良 特 性 : 

。 信息 重复 。 

。 缺乏 表达 某 些 信息 的 能 力 。 

我 们 在 对 大 学 例子 修改 后 的 数据 库 设计 中 讨论 这 些 问题 。 

假设 不 将 表 instructor 和 department 分 开 ， 我 们 使 用 单个 表 faculiy， 它 将 两 个 表 的 数据 合并 在 一 起 
( 见 图 1-4)。 注 意 到 在 表 faculty 中 有 两 行 包 含 重复 的 关于 历史 系 的 信息 ， 具 体 地 说 ， 是 系 所 在 的 大 楼 
和 经 费 预 算 。 这 种 修改 后 的 设计 中 出 现 了 我 们 不 想 要 的 信息 重复 。 信 息 重复 浪费 存储 空间 ， 而 且 使 得 
更 新 数据 库 变 得 复杂 。 假 设 我 们 想 将 历史 系 的 经 费 预算 从 50 000 美元 改 成 46 800 美元 ， 这 个 修改 必须 
在 两 行 中 都 体现 出 来 ; 这 与 原来 的 设计 不 同 ， 原 来 只 需要 修改 一 行 就 可 以 了 。 因 此 ， 改 变 后 的 设计 中 
更 新 操作 的 代价 比 原来 的 设计 中 大 了 。 当 我 们 在 改变 设计 的 数据 库 中 进行 更 新 时 ， 我 们 必须 保证 与 历 
史 系 有 关 的 每 个 元 组 都 被 更 新 ， 否 则 我 们 的 数据 库 将 会 显示 出 历史 系 有 两 个 不 同 的 经 费 预算 数 。 


ID | name 1 salary dept name | building budget 
| 95000 



































| 22222 | Einstein Physics Watson | 70000 
| 12121 | Wu 90000 | Finance | Painter | 120000 
| 32343 | El Said 60000 | History | Painter | 50000 
| 45565 | Katz 75000 | Comp.Sci. | Taylor 100000 
| 98345 | Kim 80000 | Elec. Eng. Taylor 85000 
| 76766 | Crick 72000 | Biology Watson 90000 
| 10101 | Srinivasan | 65000 | Comp. Sci. | Taylor 100000 
| 58583 | Califieri 62000 | History | Painter 50000 
83821 | Brandt 92000 | Comp. Sci. | Taylor 100000 
15151 | Mozart 40000 | Music | Packard 80000 
33456 | Gold 87000 | Physics | Watson 70000 
76543 | Singh 80000 | Finance | Painter 120000 
图 1-4 faculty 表 


现在 我 们 再 看 一 看 缺乏 表达 某 些 信息 的 能 力 的 问题 。 假 设 我 们 在 大 学 里 建立 一 个 新 的 系 。 在 上 述 
改变 了 的 数据 库 设计 中 ， 我 们 不 能 直接 表示 关于 一 个 系 的 信息 (dept_name, building, budget) ， 除 非 那个 
系 在 大 学 里 至 少 有 一 位 教员 。 这 是 因为 faculty 表 中 的 行 需要 ID, name 和 salary 的 值 。 这 意味 着 我 们 不 
能 记录 新 建立 的 系 的 信息 ， 直 到 这 个 新 的 系 聘用 了 第 一 位 教员 。 

这 个 问题 的 一 个 解决 办 法 是 引入 空 值 ( null) 。 空 值 表 示 这 个 值 不 存在 (或 者 未 知 ) ， 未 知 值 可 能 是 
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缺失 (该 值 确实 存在 ， 但 我 们 没有 得 到 它 ) 或 不 知道 (我 们 不 知道 该 值 是 否 存 在 ) 。 正 如 我 们 后 面 要 看 到 [19 


的 那样 ， 空 值 很 难处 理 ， 所 以 最 好 不 要 用 它 。 如 果 我 们 不 愿意 处 理 空 值 ， 我 们 可 以 仅 当 一 个 系 有 至 少 
一 位 教员 时 才 为 它 建 立 系 的 信息 项 。 而 且 ， 当 系 的 最 后 一 位 教员 离开 时 ， 我 们 必须 删除 系 的 信息 。 很 
明显 ,这 种 情况 不 是 我 们 想 要 的 ， 因 为 在 我 们 原来 的 数据 库 设 计 里 ， 不 管 一 个 系 有 没有 教员 ， 这 个 系 
的 信息 都 是 可 以 保存 的 ， 也 不 必 使 用 空 值 。 

规范 化 的 详尽 理论 已 经 研究 形成 ， 它 有 助 于 形式 化 地 定义 什么 样 的 数据 库 设计 是 不 好 的 ， 以 及 如 
何 得 到 我 们 想 要 的 设计 。 第 8 章 将 讨论 关系 数据 库 设 计 ， 包 括 规范 化 ，。 


1.7 数据 存储 和 查询 
数据 库 系统 划分 为 不 同 的 模块 ， 每 个 模块 完成 整个 系统 的 一 个 功能 。 数 据 库 系统 的 功能 部 件 大 致 
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可 分 为 存储 管理 器 和 查询 处 理 部 件 。 

存储 管理 非常 重要 ， 因 为 数据 库 常 常 需要 大 量 存储 空间 。 企 业 的 大 型 数据 库 的 大 小 达到 数 百 个 
gigabyte， 其 至 达到 terabyte。 一 个 gigabyte 大 约 等 于 1000 个 (实际 上 是 1024 个 ) megabyte( 十 亿 字 节 ) ， 
一 个 terabyte 等 于 一 百 万 个 megabyte( 一 万 亿 个 字 节 ) 。 由 于 计算 机 主 存 不 可 能 存储 这 么 多 信息 ， 所 以 信 
息 被 存储 在 磁盘 上 。 需 要 时 数据 在 主 存 和 磁盘 间 移 动 。 由 于 相对 于 中 央 处 理 器 的 速度 来 说 数据 出 人 磁 
盘 的 速度 很 慢 ， 因 此 数据 库 系 统 对 数据 的 组 织 必须 满足 使 磁盘 和 主 存 之 间 数 据 的 移动 最 小 化 。 

查询 处 理 也 非常 重要 ， 因 为 它 帮 助 数 据 库 系统 简化 和 方便 了 数据 的 访问 。 查 询 处 理 器 使 得 数据 库 
用 户 能 够 获得 很 高 的 性 能 ， 同 时 可 以 在 视图 的 层次 上 工作 ， 不 必 承 受 了 解 系统 实现 的 物理 层次 细节 的 
负担 。 将 在 逻辑 层 编写 的 更 新 和 查询 转变 成 物理 层 的 高 效 操作 序列 ， 这 是 数据 库 系统 的 任务 。 
1.7.1 存储 管理 器 

存储 管理 器 是 数据 库 系统 中 负责 在 数据 库 中 存储 的 低层 数据 与 应 用 程序 以 及 向 系统 提交 的 查询 之 
间 提 供 接 口 的 部 件 。 存 储 管理 器 负责 与 文件 管理 器 进行 交互 。 原 始 数 据 通 过 操作 系统 提供 的 文件 系统 


存储 在 磁盘 上 。 存 储 管理 器 将 各 种 DML 语句 翻译 为 底层 文件 系统 命令 。 因 此 ， 存 储 管理 器 负责 数据 库 
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中 数据 的 存储 、 检 索 和 更 新 。 
存储 管理 部 件 包 括 : 
© 权限 及 完整 性 管理 器 ( authorization and integrity manager) ， 它 检测 是 否 满 足 完整 性 约束 ， 并 检查 
试图 访问 数据 的 用 户 的 权限 。 
。 事务 管理 器 (transaction manager) ， 它 保证 即使 发 生 了 故障 ， 数据库 也 保持 在 一 致 的 (正确 的 ) 状 
态 ， 并 保证 并 发 事务 的 执行 不 发 生 冲突 。 
© 文件 管理 器 (file manager) ， 它 管理 磁盘 存储 空间 的 分 配 ， 管 理 用 于 表示 磁盘 上 所 存储 信息 的 数 
据 结构 。 
© 缓冲 区 管理 器 (buffer manager) ， 它 负责 将 数据 从 磁盘 上 取 到 内 存 中 来 ， 并 决定 哪些 数据 应 被 组 
冲 存储 在 内 存 中 。 缓 冲 区 管理 器 是 数据 库 系 统 中 的 一 个 关键 部 分 ， 因 为 它 使 数据 库 可 以 处 理 比 
内 存 更 大 的 数据 。 
存储 管理 器 实现 了 几 种 数据 结构 ， 作 为 系统 物理 实现 的 一 部 分 : 
© 数据 文件 (data files) ， 存 储 数据 库 自身 。 
。 数据 字典 ( data dictionary) ， 存 储 关 于 数据 库 结 构 的 元 数据 ， 尤 其 是 数据 库 模 式 。 
。 索引 (index) ， 提 供 对 数据 项 的 快速 访问 。 和 书 中 的 索引 一 样 ， 数 据 库 索引 提供 了 指向 包含 特定 
值 的 数据 的 指针 。 例 如 ， 我 们 可 以 运用 索引 找到 具有 特定 的 的 instructor tk, RERA F 
定 的 name 的 所 有 instructor 记录 。 散 列 是 另外 一 种 索引 方式 ， 在 某 些 情况 下 速度 更 快 ， 但 不 是 
在 所 有 情况 下 都 这 样 。 
我 们 在 第 10 章 讨论 存储 介质 、 文 件 结构 和 缓冲 区 管理 ， 第 11 章 讨论 通过 索引 和 散 列 高 效 访问 数 
据 的 方法 。 
1.7.2 查询 处 理 器 
查询 处 理 器 组 件 包 括 : 
e DDL 解释 器 ( DDL interpreter) ， 它 解释 DDL 语句 并 将 这 些 定义 记录 在 数据 字典 中 。 
© DML 编译 器 (DML compiler) ， 将 查询 语言 中 的 DML 语句 翻译 为 一 个 执行 方案 ,包括 一 系列 查 
询 执行 引擎 能 理解 的 低级 指令 。 
一 个 查询 通常 可 被 翻译 成 多 种 等 价 的 具有 相同 结果 的 执行 方案 的 一 种 。DML 编译 器 还 进行 查询 优 
化 (query optimization) ， 也 就 是 从 几 种 选择 中 选 出 代价 最 小 的 一 种 。 
。 查询 执行 引擎 (query evaluation engine) ， 执 行 由 DML 编译 器 产生 的 低级 指令 。 
第 12 章 将 介绍 查询 执行 ， 查 询 优 化 器 选择 合适 的 执行 策略 的 方法 将 在 第 13 章 中 讨论 。 


1.8 事务 管理 
通常 ， 对 数据 库 的 几 个 操作 合 起 来 形成 一 个 逻辑 单元 。 如 1.2 节 所 示 的 例子 是 一 个 资金 转账 ， 其 
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中 一 个 系 (A 系 ) 的 账户 进行 取出 操作 ， 而 另 一 个 系 (B 系 ) 的 账户 进行 存 信 操作。 显然 ， 这 两 个 操作 必 
须 保证 要 么 都 发 生 要 么 都 不 发 生 。 也 就 是 说 ， 资 金 转账 必须 完成 或 根本 不 发 生 。 这 种 要 么 完成 要 么 不 
发 生 的 要 求 称 为 原子 性 (atomicity ) 。 除 此 以 外 ， 资 金 转账 还 必须 保持 数据 库 的 一 致 性 。 也 就 是 说 ，A 
FIB 的 余额 之 和 应 该 是 保持 不 变 的 。 这 种 正确 性 的 要 求 称 作 一 致 性 ( consistency)。 最 后 ， 当 资金 转账 
成 功 结束 后 ， 即 使 发 生 系统 故障 ， 账 户 A 和 账户 B 的 余额 也 应 该 保持 转账 成 功 结束 后 的 新 值 。 这 种 保 
持 的 要 求 称 作 持久 性 (durability ) 。 

EZ (transaction) 是 数据 库 应 用 中 完成 单一 逻辑 功能 的 操作 和 集合。 每 一 个 事务 是 一 个 既 具 原子 性 
又 具 一 致 性 的 单元 。 因 此 ， 我 们 要 求 事务 不 违反 任何 的 数据 库 一 致 性 约束 ， 也 就 是 说 ， 如 果 事 务 启 
动 时 数据 库 是 一 致 的 ， 那 么 当 这 个 事务 成 功 结束 时 数据 库 也 应 该 是 一 致 的 。 然 而 ， 在 事务 执行 过 程 
中 ， 必 要 时 允许 暂时 的 不 一 致 ， 因 为 无 论 是 A 取出 的 操作 在 前 还 是 B 存 入 的 操作 在 前 ， 这 两 个 操作 
都 必然 有 一 个 先后 次 序 。 这 种 暂时 的 不 一 致 虽然 是 必需 的 ,但 在 故障 发 生 时 ,很 可 能 导致 问题 的 
产生 。 

适当 地 定义 各 个 事务 是 程序 员 的 职责 ， 事务 的 定义 应 使 之 能 保持 数据 库 的 一 臻 性。 例如， 资金 从 
A 系 的 账户 转 到 B 系 的 账户 这 个 事务 可 以 被 定义 为 由 两 个 单独 的 程序 组 成 : 一 个 对 账户 A 执行 取出 操 
作 ， 另 一 个 对 账户 B 执行 存 人 操作 。 这 两 个 程序 的 依次 执行 可 以 保持 一 致 性 。 但 是 ， 这 两 个 程序 自身 
都 不 是 把 数据 库 从 一 个 一 致 的 状态 转 和 人 一 个 新 的 一 致 的 状态 ， 因 此 它们 都 不 是 事务 。 

原子 性 和 持久 性 的 保证 是 数据 库 系统 自身 的 职责 ， 确 切 地 说 ， 是 恢复 管理 器 (recovery manager) 的 
职责 。 在 没有 故障 发 生 的 情况 下 ， 所 有 事务 均 成 功 完成 ， 这 时 要 保证 原子 性 很 容易 。 但 是 ， 由 于 各 种 
各 样 的 故障 ， 事 务 并 不 总 能 成 功 执行 完毕 。 为 了 保证 原子 性 ， 失 败 的 事务 必须 对 数据 库 状 态 不 产生 任 
何 影响 。 因 此 ， 数 据 库 必须 被 恢复 到 该 失败 事务 开始 执行 以 前 的 状态 。 这 种 情况 下 数据 库 系统 必须 进 
行 故障 恢复 (failure recovery) ， 即 检测 系统 故障 并 将 数据 库 恢 复 到 故障 发 生 以 前 的 状态 。 

最 后 ， 当 多 个 事务 同时 对 数据 库 进行 更 新 时 ， 即 使 每 个 单独 的 事务 都 是 正确 的 ， 数 据 的 一 致 性 也 
可 能 被 破坏 。 并 发 控制 管理 器 ( concurrency-control manager) 控制 并 发 事务 间 的 相互 影响 ,保证 数据 库 一 
致 性 。 事 务 管理 器 (transaction manager) 包括 并 发 控制 管理 器 和 恢复 管理 器 。 

事务 处 理 的 基本 概念 在 第 14 章 介 绍 ， 并 发 事务 的 管理 在 第 15 章 讨论 ， 第 16 章 详 细 介 绍 故 障 
恢复 。 i 

事务 的 概念 已 经 广泛 应 用 在 数据 库 系 统 和 应 用 当中 。 虽 然 最 初 是 在 金融 应 用 中 使 用 事务 ， 现 在 事 
务 已 经 使 用 在 电信 业 的 实时 应 用 中 ， 以 及 长 时 间 的 活动 如 产品 设计 和 工作 流 管理 中 。 事 务 概念 更 多 的 
应 用 还 会 在 第 26 章 讨 论 。 


1.9 数据 库 体 系 结构 


现在 我 们 可 以 给 出 一 个 数据 库 系统 各 个 部 分 以 及 它们 之 间 联 系 的 图 了 ( 见 图 1-5) 。 

数据 库 系 统 的 体系 结构 很 大 程度 上 取决 于 数据 库 系 统 所 运行 的 计算 机 系统 。 数 据 库 系 统 可 以 是 集 
中 式 的 、 客 户 / 服 务 器 式 的 (一 台 服 务 器 为 多 个 客户 机 执行 任务 ) ; 也 可 以 针对 并 行 计算 机 体系 结构 设 
计数 据 库 系 统 ; 分 布 式 数据 库 包 含 地 理 上 分 离 的 多 台 计 算 机 。 

在 第 17 章 我 们 将 讨论 现代 计算 机 系统 的 一 般 结 构 。 第 18 章 将 描述 如 何 实现 数据 库 的 各 种 动 
作 一 一 尤其 是 查询 处 理 中 的 动作 一 一 以 适应 并 行 处 理 。 第 19 章 将 描述 分 布 式 数据 库 中 的 各 种 问题 ， 以 
及 如 何 处 理 那些 问题 。 问 题 包括 如 何 存储 数据 ， 如 何 确保 在 多 个 节点 上 执行 的 事务 的 原子 性 ， 如 何 执 
行 并 发 控制 ， 以 及 遇 到 故障 时 如 何 提供 高 可 用 性 。 除 此 之 外 还 将 讨论 分 布 式 查询 处 理 以 及 目录 系统 。 

今天 数据 库 系 统 的 大 多 数 用 户 并 不 直接 面 对 数据 库 系统 ， 而 是 通过 网 络 与 其 相连 。 因 此 我 们 可 区 
分 远程 数据 库 用 户 工作 用 的 客户 机 (client) 和 运行 数据 库 系统 的 服务 器 ( server) 。 

数据 库 应 用 通常 可 分 为 两 或 三 个 部 分 ， 如 图 1-6 所 示 。 在 一 个 两 层 体系 结构 (two-tier architecture ) 
中 ， 应 用 程序 驻 留 在 客户 机 上 ， 通 过 查询 语言 表达 式 来 调用 服务 器 上 的 数据 库 系统 功能 。 像 ODBC 和 
JDBC 这 样 的 应 用 程序 接口 标准 被 用 于 进行 客户 端 和 服务 器 的 交互 。 
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图 1-6 两 层 和 
层 体 系 结构 (three-tier architecture) 中 ， 客 户 机 只 作为 一 个 前 端 并 且 不 包含 任何 直接 的 
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数据 库 调 用 。 客 户 端 通常 通过 一 个 表单 界面 与 应 用 服务 器 (application server) 进行 通信 。 而 应 用 服务 器 
与 数据 库 系统 通信 以 访问 数据 。 应 用 程序 的 业务 逻辑 ( business logic) ， 也 就 是 说 在 何 种 条 件 下 做 出 何 种 
反应 ， 被 嵌入 到 应 用 服务 器 中 ， 而 不 是 分 布 在 多 个 客户 机 上 。 三 层 结构 的 应 用 更 适合 大 型 应 用 和 互联 
网 上 的 应 用 。 


1. 10 ”数据 挖掘 与 信息 检索 


数据 挖掘 (data mining) 这 个 术语 指 半自动 地 分 析 大 型 数据 库 并 从 中 找 出 有 用 的 模式 的 过 程 。 和 人 
工 智能 中 的 知识 发 现 (也 称 为 机 器 学 习 ( machine learning) ) 或 者 统计 分 析 一 样 ， 数 据 挖掘 试图 从 数据 中 
寻找 规则 或 模式 。 但 是 ， 数 据 控 掘 和 机 器 学 习 、 统 计 分 析 不 一 样 的 地 方 在 于 它 处 理 大 量 的 主要 存储 在 
磁盘 上 的 数据 。 也 就 是 说 ， 数 据 挖掘 就 是 在 数据 库 中 发 现 知识 。 

从 数据 库 中 发 现 的 某 些 类 型 的 知识 可 以 用 一 套 规则 ( rule) 表示 。 下 面 是 一 条 规则 的 例子 ， 非 形式 
化 地 描述 为 :“ 年 收入 高 于 50 000 美元 的 年 轻 女 性 是 最 可 能 购买 小 型 运动 车 的 人 群 ”"。 当 然 这 条 规则 并 
不 是 永远 正确 的 , 但 它 有 一 定 的 “支持 度 ” 和 “置信 度 ”。 其 他 类 型 的 知识 表达 方式 有 联系 不 同 变量 的 方 
程式 ， 或 者 通过 其 他 机 制 根据 某 些 已 知 的 变量 来 预测 输出 。 

还 有 很 多 其 他 类 型 的 有 用 模式 以 及 发 现 不 同 模式 的 技术 。 在 第 20 章 我 们 将 研究 一 些 模式 的 例子 以 
及 如 何 自动 地 从 数据 库 中 得 出 这 些 模式 。 

通常 在 数据 挖掘 中 还 需要 人 参与 ， 包 括 数据 预 处 理 使 数据 变 为 适合 算法 的 格式 ， 在 已 发 现 模式 的 
后 处 理 中 找到 新 奇 的 有 用 模式 。 给 定 一 个 数据 库 ， 可 能 有 不 止 一 种 类 型 的 模式 ,需要 人 工交 互 挑选 有 
用 类 型 的 模式 。 由 于 这 个 原因 ， 现 实 中 的 数据 挖掘 是 一 个 半自动 的 过 程 。 但是， 在 我 们 的 描述 中 ， 主 
要 介绍 挖掘 的 自动 处 理 过 程 的 部 分 。 

商业 上 已 经 开始 利用 莲 撮 发 展 的 联机 数据 来 支持 对 于 业务 活动 的 更 好 的 决策 ， 例 如 储备 哪些 物品 ， 
如 何 更 好 地 锁定 目标 客户 以 提高 销售 额 。 但 是 ， 它 们 的 许多 查询 都 相当 复杂 ， 有 些 类 型 的 信息 甚至 使 
用 SQL 都 不 能 抽取 出 来 。 

目前 有 几 种 技术 和 工具 可 用 于 帮助 做 决策 支持 。 一 些 数 据 分 析 的 工具 让 分 析 人 员 能 够 从 不 同 的 角 
度 观 察 数据 。 其 他 的 分 析 工 具 提 前 计算 出 大 量 数据 的 汇总 信息 ， 以 更 快 响应 查询 。 现 在 的 SQL 标准 也 
增加 了 支持 数据 分 析 的 成 分 。 

大 型 企业 有 各 种 不 同 的 可 用 于 业务 决策 的 数据 来 源 。 要 在 这 些 各 种 各 样 的 数据 上 高 效 地 执行 查询 ， 
企业 建立 了 数据 仓库 (data warehouse) 。 数 据 仓 库 从 多 个 来 源 收集 数据 ， 建 立 统一 的 模式 ， 驻 留 在 单个 
节点 上 。 于 是 ， 就 为 用 户 提 供 了 单个 统一 的 数据 界面 。 

文本 数据 也 爆炸 式 增长 。 文 本 数据 是 非 结 构 化 的 ， 与 关系 数据 库 中 严格 的 结构 化 数据 不 同 。 查 
询 非 结构 化 的 文本 数据 被 称 为 信息 检索 (information retrieval) 。 信 息 检 索 系 统 和 数据 库 系统 很 大 程度 
上 是 相同 的 一 一 特别 是 基于 辅助 存储 器 的 数据 存储 和 检索 。 但 是 信息 系统 领域 与 数据 库 系统 所 强调 
的 重点 是 不 同 的 ， 信 息 系 统 重点 强调 基于 关键 词 的 查询 ,文档 与 查询 的 相似 度 ， 以 及 文档 的 分 析 、 
分 类 和 索引 。 第 20 章 和 第 21 章 我 们 将 讨论 决策 支持 ， 包 括 联机 分 析 处 理 、 数 据 控 掘 、 数 据 仓库 和 
信息 检索 。 


1. 11 特种 数据 库 


数据 库 系统 的 一 些 应 用 领域 受到 关系 数据 模型 的 限制 。 其 结果 是 ， 研 究 人 员 开 发 了 几 种 数据 模型 
来 处 理 这 些 领域 的 应 用 ,包括 基 于 对 象 的 数据 模型 和 半 结 构 化 数据 模型 . 
1.11.1 基于 对 象 的 数据 模型 

面向 对 象 程序 设计 已 经 成 为 占 统治 地 位 的 软件 开发 方法 学 。 这 导致 面向 对 象 数据 模型 ( object-based 
data model) 的 发 展 ， 面 向 对 象 模型 可 以 看 作 E-R 模型 的 扩展 ， 增 加 了 封装 、 方 法 ( 函数 ) 和 对 象 标 识 。 
继承 、 对 象 标 识 和 信息 封装 (信息 隐蔽 )， 以 及 对 外 提供 方法 作为 访问 对 象 的 接口 ， 这 些 是 面向 对 象 
程序 设计 的 关键 概念 ， 现 在 在 数据 建 模 中 也 找到 了 应 用 。 面 向 对 象 数据 模型 还 支持 丰富 的 类 型 系统 ， 
包括 结构 和 集合 类 型 。 在 20 世纪 80 年 代 ， 开 发 了 好 几 个 基于 面向 对 象 数据 模型 的 数据 库 系 统 。 
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现在 主要 的 数据 库 厂 商都 支持 对 象 - 关系 数据 模型 ( object- relational data model) ， 这 是 一 个 将 面向 
对 象 数据 模型 和 关系 数据 模型 的 特点 结合 在 一 起 的 数据 模型 。 它 扩展 了 传统 的 关系 模型 ， 增 加 了 新 的 
特征 如 结构 和 集合 类 型 ， 以 及 面向 对 象 特性 。 第 22 章 介 绍 对 象 -关系 数据 模型 。 

1.11.2 半 结 构 化 数据 模型 

半 结 构 化 数据 模型 允许 那些 相同 类 型 的 数据 项 有 不 同 的 属性 集 的 数据 说 明 。 这 和 早先 提 到 的 数据 
模型 形成 了 对 比 : 在 那些 数据 模型 中 所 有 某 种 特定 类 型 的 数据 项 必须 有 相同 的 属性 集 。 

XML 语言 设计 的 初衷 是 为 文本 文档 增加 标签 信息 ， 但 由 于 它 在 数据 交换 中 的 应 用 而 变 得 日 益 重 
要 。XML 提供 了 表达 含有 嵌 套 结构 的 数据 的 方法 ， 能 够 灵活 组 织 数据 结构 ， 这 对 于 一 些 非 传统 数据 来 
说 非常 重要 。 第 23 章 介 绍 XML 语言 、XML 格式 的 数据 的 各 种 查询 表示 方法 ， 以 及 不 同 XML 数据 格式 
之 间 的 转换 。 


1.12 数据库 用 户 和 管理 员 


数据 库 系 统 的 一 个 主要 目标 是 从 数据 库 中 检索 信息 和 往 数 据 库 中 存储 新 信息 。 使 用 数据 库 的 人 员 
可 分 为 数据 库 用 户 和 数据 库 管理 员 。 
1.12.1 数据 库 用 户 和 用 户 界面 
根据 所 期 望 的 与 系统 交互 方式 的 不 同 ， 数 据 库 系统 的 用 户 可 以 分 为 四 种 不 同类 型 。 系 统 为 不 同类 
型 的 用 户 设计 了 不 同类 型 的 用 户 界 面 。 
。 无 经 验 的 用 户 (naive user) 是 默认 经 验 的 用 户 ， 他 们 通过 激活 事先 已 经 写 好 的 应 用 程序 同系 统 
进行 交互 。 例 如 ， 大 学 的 一 位 职员 需要 往 A 系 中 添加 一 位 新 的 教师 时 ， 激 活 一 个 叫做 new_ 
hire 的 程序 。 该 程序 要 求 这 位 职员 输入 新 教师 的 名 字 、 她 的 新 DD、 系 的 名 字 ( 即 A) 以 及 她 的 
工资 额 。 
此 类 用 户 的 典型 用 户 界面 是 表格 界面 ， 用 户 只 需 填 写 表 格 的 相应 项 就 可 以 了 。 无 经 验 的 用 
户 也 可 以 很 简单 地 阅读 数据 库 产 生 的 报表 。 
作为 另外 一 个 例子 ， 我 们 考虑 一 个 学 生 ， 他 在 课程 注册 的 过 程 中 想 通过 Web 界面 来 注册 一 
门 课 程 。 应 用 程序 首先 验证 该 用 户 的 身份 ， 然 后 允许 她 去 访问 一 个 表格 ， 她 可 以 在 表格 中 填 人 
想 填 的 信息 。 表 格 信息 被 送 回 给 服务 器 上 的 Web 应 用 程序 ， 然 后 应 用 程序 确定 该 课程 是 否 还 有 
空 额 ( 通 过 从 数据 库 中 检索 信息 )， 如 果 有 ， 就 把 这 位 学 生 的 信息 添加 到 数据 库 中 的 该 课程 花 名 
册 中 。 
© 应 用 程序 员 ( application programmer) 是 编写 应 用 程序 的 计算 机 专业 人 员 。 有 很 多 工具 可 以 供应 
用 程序 员 选 择 来 开发 用 户 界 面 。 快 速 应 用 开发 ( Rapid Application Development, RAD) 工具 是 使 
应 用 程序 员 能 够 尽量 少 编写 程序 就 可 以 构造 出 表格 和 报表 的 工具 。 
。 老练 的 用 户 ( sophisticated user) 不 通过 编写 程序 来 同系 统 交 互 ， 而 是 用 数据 库 查 询 语言 或 数据 分 
析 软 件 这 样 的 工具 来 表达 他 们 的 要 求 。 分 析 员 通过 提交 查询 来 研究 数据 库 中 的 数据 ， 所 以 属于 
这 一 类 用 户 。 
© 专门 的 用 户 ( specialized user) 是 编写 专门 的 、 不 适合 于 传统 数据 处 理 框 架 的 数据 库 应 用 的 富有 
经 验 的 用 户 。 这 样 的 应 用 包括 : 计算 机 辅助 设计 系统 、 知 识 库 和 专家 系统 、 存 储 复杂 结构 数据 
(如 图 形 数据 和 声音 数据 ) 的 系统 ， 以 及 环境 建 模 系 统 。 在 第 22 章 中 我 们 将 要 讨论 几 个 这 样 的 
应 用 。 
1.12.2 ”数据库 管理 员 
使 用 DBMS 的 一 个 主要 原因 是 可 以 对 数据 和 访问 这 些 数 据 的 程序 进行 集中 控制 。 对 系统 进行 集中 
控制 的 人 称 作 数据 库 管 理 员 ( DataBase Administrator, DBA). DBA 的 作用 包括 : 
。 模式 定义 (schema definition) 。DBA 通过 用 DDL 书写 的 一 系列 定义 来 创建 最 初 的 数据 库 模 式 。 
e 存储 结构 及 存 取 方法 定义 (storage structure and access- method definition) 。 
e 模式 及 物理 组 织 的 修改 (schema and physical-organization modification) 。 由 数据 库 管理 员 ( DBA) 对 
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模式 和 物理 组 织 进行 修改 ， 以 反映 机 构 的 需求 变化 ， 或 为 提高 性 能 选择 不 同 的 物理 组 织 。 [28 ] 
o 数据 访问 授权 ( granting of authorization for data access) 。 通 过 授予 不 同类 型 的 权限 ， 数 据 库 管 理 
员 可 以 规定 不 同 的 用 户 各 自 可 以 访问 的 数据 库 的 部 分 。 授 权 信息 保存 在 一 个 特殊 的 系统 结构 
中 ,一 且 系 统 中 有 访问 数据 的 要 求 ， 数 据 库 系统 就 去 查阅 这 些 信 息 。 
。 日 常 维护 (routine maintenance) 。 数 据 库 管理 员 的 日 常 维护 活动 有 : 
O 定期 备份 数据 库 ， 或 者 在 磁带 上 或 者 在 远程 服务 器 上 ， 以 防止 像 洪水 之 类 的 灾难 发 生 时 数据 丢失 
O 确保 正常 运转 时 所 需 的 空余 磁盘 空间 ， 并 且 在 需要 时 升级 磁盘 空间 。 
O 监视 数据 库 的 运行 ， 并 确保 数据 库 的 性 能 不 因 一 些 用 户 提交 了 花费 时 间 较 多 的 任务 就 下 降 很 多 。 


1.13 数据库 系统 的 历史 


从 商业 计算 机 的 出 现 开始 ， 数 据 处 理 就 一 直 推动 着 计算 机 的 发 展 。 事 实 上 ， 数 据 处 理 自动 化 早 于 
计算 机 的 出 现 。Herman Hollerith 发 明 的 穿孔 卡片 ， 早 在 20 世纪 初 就 用 来 记录 美国 的 人 口 普查 数据 ， 并 
且 用 机 械 系 统 来 处 理 这 些 卡片 和 列 出 结果 。 穿 孔 卡 片 后 来 被 广泛 用 作 将 数据 输入 计算 机 的 一 种 手段 。 

数据 存储 和 处 理 技术 发 展 的 年 表 如 下 : 
© 20 世纪 50 年 代 和 20 世纪 60 年代 初 : 磁带 被 用 于 数据 存储 。 诸 如 工资 单 这 样 的 数据 处 理 已 经 
自动 化 了 ， 数 据 存 储 在 磁带 上 。 数 据 处 理 包括 从 一 个 或 多 个 磁带 上 读 取 数据 ， 并 将 数据 写 回 到 
新 的 磁带 上 。 数 据 也 可 以 由 一 又 穿 孔 卡 片 输入 ， 而 输出 到 打印 机 上 。 例 如 ， 工 资 增长 的 处 理 是 
通过 将 增长 表示 到 穿孔 卡片 上 ， 在 读 入 一 到 穿孔 卡片 时 同步 地 读 和 保存 主要 工资 细节 的 磁带 。 
记录 必须 有 相同 的 排列 顺序 。 工 资 的 增加 额 将 被 加 入 到 从 主 磁带 读 出 的 工资 中 ， 并 被 写 到 新 的 
磁带 上 ， 新 磁带 将 成 为 新 的 主 磁带 。 
磁带 (和 卡片 组 ) 都 只 能 顺序 读 取 ， 数 据 规模 可 以 比 内 存 大 得 多 ， 因 此 ， 数 据 处 理 程序 被 迫 

以 一 种 特定 的 顺序 来 对 数据 进行 处 理 ， 读 取 和 合并 来 自 磁带 和 卡片 组 的 数据 。 

© 20 世纪 60 年 代 末 和 20 世纪 70 年 代 : 20 世纪 60 年 代 末 硬盘 的 广泛 使 用 极 大 地 改变 了 数据 处 
理 的 情况 ， 因 为 硬盘 允许 直接 对 数据 进行 访问 。 数 据 在 磁盘 上 的 位 置 是 无 关 紧 要 的 ， 因 为 磁盘 
上 的 任何 位 置 都 可 在 几 十 毫秒 内 访问 到 。 数 据 由 此 摆脱 了 顺序 访问 的 限制 。 有 了 磁盘 ， 我 们 就 
可 以 创建 网 状 和 层次 的 数据 库 ， 它 可 以 将 表 和 树 这 样 的 数据 结构 保存 在 磁盘 上 。 程 序 员 可 以 构 [29 | 
建 和 操作 这 些 数据 结构 。 

由 Codd[ 1970 | 撰写 的 一 篇 具有 里 程 碑 意义 的 论文 定义 了 关系 模型 和 在 关系 模型 中 查询 数 

据 的 非 过 程 化 方法 ， 由 此 关系 型 数据 库 诞生 了 。 关 系 模型 的 简单 性 和 能 够 对 程序 员 屏 项 所 有 实 
现 细节 的 能 力 具 有 真正 的 诱惑 力 。 随 后 ，Codd 因 其 所 做 的 工作 获得 了 声望 很 高 的 ACM 图 灵 奖 ， 

。 20 世纪 80 年 代 : 尽管 关系 模型 在 学 术 上 很 受 重视 ,但 是 最 初 并 没有 实际 的 应 用 ,这 是 因为 它 
被 认为 性 能 不 好 ; 关系 型 数据 库 在 性 能 上 还 不 能 和 当时 已 有 的 网 状 和 层次 数据 库 相提并论 。 这 
种 情况 直到 System R 的 出 现 才 得 以 改变 ,这 是 IBM 研究 院 的 一 个 突破 性 项 目 ， 它 开发 了 能 构造 
高 效 的 关系 型 数据 库 系 统 的 技术 。Astrahan 等 [ 1976 ] 和 Chamberlin 等 [1981 ] 给 出 了 关于 System 
R 的 很 好 的 综述 。 完 整 功能 的 System R 原型 导致 了 IBM 的 第 一 个 关系 型 数据 库 产 品 SQL/DS 的 
出 现 。 与 此 同时 ， 加 州 大 学 伯克利 分 校 开 发 了 Ingres 系统 。 它 后 来 发 展 成 具有 相同 名 字 的 商品 
化 关系 数据 库 系 统 。 最 初 的 商品 化 关系 型 数据 库 系统 ， 如 IBM DB2, Oracle, Ingres 和 DEC 
Rdb， 在 推动 高 效 处 理 声 明 性 查询 的 技术 上 起 到 了 主要 的 作用 。 到 了 20 世纪 80 年 代 初 期 ， 关 
系 型 数据 库 已 经 可 以 在 性 能 上 与 网 状 和 层次 型 数据 库 进 行 竞 争 了 。 关 系 型 数据 库 是 如 此 简单 易 
用 ， 以 至 于 最 后 它 完 全 取代 了 网 状 / 层 次 型 数据 库 ， 因 为 程序 员 在 使 用 后 者 时 ， 必 须 处 理 许多 
底层 的 实现 细节 ， 并 且 不 得 不 将 他 们 要 做 的 查询 任务 编码 成 过 程 化 的 形式 。 更 重要 的 ， 他 们 在 
设计 应 用 程序 时 还 要 时 时 考虑 效率 问题 ， 而 这 需要 付出 很 大 的 努力 。 相 反 ， 在 关系 型 数据 库 
中 ， 几 乎 所 有 的 底层 工作 都 由 数据 库 自 动 来 完成 ， 使 得 程序 员 可 以 只 考虑 逻辑 层 的 工作 。 自 从 
在 20 世纪 80 年 代 取 得 了 统治 地 位 以 来 ， 关 系 模型 在 数据 模型 中 一 直 独 占 鳌 头 . 
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1.14 
© 数据库 管理 系统 (DataBase-Management System, DBMS) 由 相互 关联 的 数据 集合 以 及 一 组 用 于 访问 


在 20 世纪 80 年 代 人 们 还 对 并 行 和 分 布 式 数据 库 进行 了 很 多 研究 ， 同 样 在 面向 对 象 数 据 库 
方面 也 有 初步 的 工作 。 
20 世纪 90 年代 初 : SQL 语言 主要 是 为 决策 支持 应 用 设计 的 ， 这 类 应 用 是 查询 密集 的 ; 而 20 tH 
纪 80 年 代数 据 库 的 支柱 是 事务 处 理应 用 ， 它 们 是 更 新 密集 的 。 决 策 支 持 和 查询 再 度 成 为 数据 
库 的 一 个 主要 应 用 领域 。 分 析 大 量 数据 的 工具 有 了 很 大 的 发 展 。 

在 这 个 时 期 许多 数据 库 厂商 推出 了 并 行 数据 库 产品 。 数 据 库 厂商 还 开始 在 他 们 的 数据 库 中 
加 入 对 象 -关系 的 支持 。 
20 世纪 90 ER: 最 重大 的 事件 就 是 互联 网 的 爆炸 式 发 展 。 数 据 库 比 以 前 有 了 更 加 广泛 的 应 用 . 
现在 数据 库 系统 必须 支持 很 高 的 事务 处 理 速度 ， 而 且 还 要 有 很 高 的 可 靠 性 和 24 x7 的 可 用 性 
(一 天 24 小时, 一 周 7 天 都 可 用 ， 也 就 是 没有 进行 维护 的 停机 时 间 )。 数 据 库 系统 还 必须 支持 
对 数据 的 Web 接口 。 
21 世纪 第 一 个 十 年 : 21 世纪 的 最 初 五 年 中 ， 我 们 看 到 了 XML 的 兴起 以 及 与 之 相关 联 的 XQuery 
查询 语言 成 为 了 新 的 数据 库 技术 。 虽 然 XML 广泛 应 用 于 数据 交换 和 一 些 复杂 数据 类 型 的 存储 ， 
但 关系 数据 库 仍然 构成 大 多 数 大 型 数据 库 应 用 系统 的 核心 。 在 这 个 时 期 ,我 们 还 见证 了 “自主 
计算 /自动 管理 "技术 的 成 长 ， 其 目的 是 减少 系统 管理 开销 ; 我 们 还 看 到 了 开源 数据 库 系 统 应 用 
的 显著 增长 ， 特 别 是 PostgreSQL 和 MySQL。 

在 21 世纪 第 一 个 十 年 的 后 几 年 中 ， 用 于 数据 分 析 的 专门 的 数据 库 有 很 大 增长 ， 特 别 是 将 
一 个 表 的 每 一 个 列 高 效 地 存储 为 一 个 单独 的 数组 的 列 存储 ， 以 及 为 非常 大 的 数据 集 的 分 析 而 设 
计 的 高 度 并 行 的 数据 库 系 统 。 有 有 几 个 新 颖 的 分 布 式 数 据 存储 系统 被 构建 出 来 ， 以 应 对 非常 大 的 
Web 节点 如 Amazon, Facebook, Google, Microsoft 和 Yahoo! 的 数据 管理 需求 ， 并 日 这 些 系统 中 
的 某 些 现在 可 以 作为 Web 服务 提供 给 应 用 开发 人 员 使 用 。 在 管理 和 分 析 流 数据 如 股票 市 场 报 价 
数据 或 计算 机 网 络 监 测 数据 方面 也 有 重要 的 工作 。 数 据 控 掘 技术 现在 被 广泛 部 署 应 用 ， 应 用 实 
例 包括 基于 Web 的 产品 推荐 系统 和 Web 页 面 上 的 相关 广告 自动 布 放 。 


总 结 


这 些 数 据 的 程序 组 成 。 数 据 描述 某 特定 的 企业 。 

DBMS 的 主要 目标 是 为 人 们 提供 方便 、 高 效 的 环境 来 存储 和 检索 数据 。 

如 今 数 据 库 系 统 无 所 不 在 ， 很 多 人 每 天 直接 或 间接 地 与 数据 库 系统 打交道 。 

数据 库 系 统 设 计 用 来 存储 大 量 的 信息 。 数 据 的 管理 既 包括 信息 存储 结构 的 定义 ， 也 包括 提供 处 
理 信息 的 机 制 。 另 外 数据 库 系统 还 必须 提供 所 存储 信息 的 安全 性 ， 以 处 理 系统 崩溃 或 者 非 授 权 
访问 企图 ， 如 果 数 据 在 多 个 用 户 之 间 共 享 ， 系统 必须 避免 可 能 的 异常 结果 。 

数据 库 系 统 的 一 个 主要 目的 是 为 用 户 提供 数据 的 抽象 视图 ， 也 就 是 说 ， 系 统 隐藏 数据 存储 和 维 
护 的 细节 。 

数据 库 结 构 的 基础 是 数据 模型 ( data model); 一 个 用 于 描述 数据 、 数 据 之 间 的 联系 、 数 据 语 义 
和 数据 约束 的 概念 工具 的 集合 。 

关系 数据 模型 是 最 广泛 使 用 的 将 数据 存储 到 数据 库 中 的 模型 。 其 他 的 数据 模型 有 面向 对 象 模 
型 、 对 象 - 关系 模型 和 半 结 构 化 数据 模型 。 

数据 操纵 语言 (Data-Manipulation Language，DML) 是 使 得 用 户 可 以 访问 和 操纵 数据 的 语言 。 当 今 
广泛 使 用 的 是 非 过 程 化 的 DML， 它 只 需要 用 户 指明 需要 什么 数据 ， 而 不 需 指 明 如 何 获得 这 些 
数据 。 

数据 定义 语言 ( Data- Definition Language，DDL) 是 说 明 数 据 库 模 式 和 数据 的 其 他 特性 的 语言 ， 

数据 库 设 计 主 要 包括 数据 库 模 式 的 设计 。 实 体 - 联系 (E-R) 数据 模型 是 广泛 用 于 数据 库 设 计 的 
数据 模型 ， 它 提供 了 一 种 方便 的 图 形 化 的 方式 来 观察 数据 、 联 系 和 约束 。 

数据 库 系 统 由 几 个 子 系统 构成 : 
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O 存储 管理 器 ( storage manager) 子 系统 在 数据 库 中 存储 的 低层 数据 与 应 用 程序 和 向 系统 提交 的 查 
询 之 间 提 供 接 口 。 
O 查询 处 理 器 ( query processor) 子 系统 编译 和 执行 DDL 和 DML 语句。 

。 事务 管理 (transaction management) 负责 保证 不 管 是 否 有 故障 发 生 ， 数 据 库 都 要 处 于 一 致 的 (正确 
的 ) 状态 。 事 务 管理 器 还 保证 并 发 事务 的 执行 互 不 冲突 。 

。 数据 库 系 统 的 体系 结构 受 支 持 其 运行 的 计算 机 系统 的 影响 很 大 。 数 据 库 系 统 可 以 是 集中 式 的 ， 
或 者 客户 - 服务 器 方式 的 ， 即 一 个 服务 器 机 器 为 多 个 客户 机 执行 工作 。 数 据 库 系统 还 可 以 设计 
成 具有 能 充分 利用 并 行 计 算 机 系统 结构 的 能 力 。 分 布 式 数据 库 跨 越 多 个 地 理 上 分 布 的 互相 分 离 
的 计算 机 。 

。 典型 地 ， 数 据 库 应 用 可 被 分 为 运行 在 客户 机 上 的 前 端 和 运行 在 后 端的 部 分 。 在 两 层 的 体系 结构 
中 ， 前 端 直 接 和 后 端 运行 的 数据 库 进 行 通信 。 在 三 层 结构 中 ， 后 端 又 被 分 为 应 用 服务 器 和 数据 
库 服务 器 。 

。 知识 发 现 技术 试图 自动 地 从 数据 中 发 现 统计 规律 和 模式 。 数 据 挖掘 (data mining) 领域 将 人 工 智 
能 和 统计 分 析 研 究 人 员 创 造 的 知识 发 现 技术 ， 与 使 得 知识 发 现 技 术 能 够 在 极 大 的 数据 库 上 高 效 



































实现 的 技术 结合 起 来 。 
。 有 4 种 不 同类 型 的 数据 库 用 户 ， 按 用 户 期 望 与 数据 库 进行 交互 的 不 同方 式 来 区 分 他 们 。 为 不 同 
类 的 用 户 设 计 了 不 同 的 用 户 界面 。 
术语 回顾 
© 数据 库 管理 系统 (DBMS ) O 实体 -联系 模型 。 数据 字典 
。 数据 库 系统 应 用 关系 数据 模型 。 存储 管理 器 
。 文件 处 理 系 统 口 基于 对 象 的 数据 模型 © 查询 处 理 器 
© 数据 不 一 致 性 口 半 结 构 化 数据 模型 。 事务 
。 一 致 性 约束 。 数据 库 语 言 口 原子 性 
。 数据 抽象 口 数据 定义 语言 口 故障 恢复 
。 实例 口 数据 操纵 语言 口 并 发 控制 
。 模式 口 查询 语言 。 两 层 和 三 层 数据 库 体系 
O 物理 模式 ”元 数据 结构 
逻辑 模式 。 应 用 程序 。 数据 挖掘 
。 物理 数据 独立 性 。 规范 化 。 数据 库 管理 员 ( DBA) 
。 数据 模型 
实践 习题 


1.1 这 一 章 讲述 了 数据 库 系统 的 几 个 主要 的 优点 。 它 有 哪 两 个 不 足 之 处 ? 

1.2 列 出 Java 或 C++ 之 类 的 语言 中 的 类 型 说 明 系 统 与 数据 库 系统 中 使 用 的 数据 定义 语言 的 5 个 不 同 之 处 。 

1.3 列 出 为 一 个 企业 建立 数据 库 的 六 个 主要 步骤 。 

1.4 除 1.6.2 节 中 已 经 列 出 的 之 外 ， 请 列 出 大 学 要 维护 的 至 少 3 种 不 同类 型 的 信息 。 

1.5 假设 你 想 要 建立 一 个 类 似 于 YouTube 的 视频 节点 。 考 虑 1. 2 节 中 列 出 的 将 数据 保存 在 文件 系统 中 的 各 
个 缺点 ， 讨 论 每 一 个 缺点 与 存储 实际 的 视频 数据 和 关于 视频 的 元 数据 (诸如 标题 、 上 传 它 的 用 户 、 标 
签 、 观 看 它 的 用 户 ) 的 关联 。 

1.6 在 Web 查找 中 使 用 的 关键 字 查询 与 数据 库 查 询 很 不 一 样 。 请 列 出 这 两 者 之 间 在 查询 表达 方式 和 查询 结 
果 是 什么 方面 的 主要 差异 。 


习题 


1.7 列 出 四 个 你 使 用 过 的 很 可 能 使 用 了 数据 库 来 存储 持久 数据 的 应 用 。 
1.8 列 出 文件 处 理 系 统 和 DBMS 的 四 个 主要 区 别 。 
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.9 解释 物理 数据 独立 性 的 概念 ， 以 及 它 在 数据 库 系 统 中 的 重要 性 。 

列 出 数据 库 管 理 系 统 的 五 个 职责 。 对 每 个 职责 ， 说 明 当 它 不 能 被 履行 时 会 产生 什么 样 的 问题 。 

请 给 出 至 少 两 种 理由 说 明 为 什么 数据 库 系 统 使 用 声明 性 查询 语言 ， 如 SQL， 而 不 是 只 提供 C 或 者 C ++ 
的 函数 库 来 执行 数据 操作 。 

12 解释 用 图 1-4 中 的 表 来 设计 会 导致 哪些 问题 。 

13 数据库 管理 员 的 五 种 主要 作用 是 什么 ? 

解释 两 层 和 三 层 体系 结构 之 间 的 区 别 。 对 Web 应 用 来 说 哪 一 种 更 合适 ? 为 什么 ? 

.15 ”描述 可 能 被 用 于 存储 一 个 社会 网 络 系统 如 Facebook 中 的 信息 的 至 少 3 个 表 。 


工具 
如 今 已 有 大 量 的 商业 数据 库 系统 投入 使 用 ， 主 要 的 有 : IBM DB2 ( www. ibm. com/software/data/db2 ) 、 


Oracle( www. oracle. com), Microsoft SQL Server ( www. microsoft. com/sql) 、Sybase ( www. sybase. com) 和 IBM 
Informix ( www. ibm. com/software/data/informix) 。 其 中 一 些 对 个 人 或 者 非 商业 使 用 或 开发 是 免费 的 ， 但 是 对 实 
际 的 部 署 是 不 免费 的 。 

也 有 不 少 免 费 / 公 开 的 数据 库 系 统 ， 使 用 很 广泛 的 有 MySQL ( www. mysql. com) 和 PostgreSQL ( www. 
postgresql. org) 。 

在 本 书 的 主页 www. db-book. com 上 可 以 获得 更 多 的 厂商 网 址 的 链接 和 其 他 信息 。 


文献 注解 


我 们 在 下 面 列 出 了 关于 数据 库 的 通用 书籍 、 研 究 论文 集 和 Web 节点 。 后 续 各 章 提供 了 本 章 略 述 的 每 个 
主题 的 资料 参考 。 

Codd[ 1970 ] 的 具有 里 程 碑 意 义 的 论文 引入 了 关系 模型 。 

关于 数据 库 系 统 的 教科 书 有 Abiteboul 等 [1995 ] 、O'Neil 和 O'Neil [ 2000 | Ramakrishnan 和 Gehrke 
[2002] 、Date [ 2003 ] 、Kifer 等 [2005 ] Elmasri 和 Navathe [2006] , 以 及 Garcia-Molina 等 [2008 ] 。 涵 盖 事 务 
处 理 的 教科 书 有 Bernstein 和 Newcomer[ 1997 | 以 及 Gray 和 Reuter[ 1993 ] 。 有 一 本 书 中 包含 了 关于 数据 库 管理 
的 研究 论文 的 汇集 ， 这 本 书 是 Hellerstein 和 Stonebraker [ 2005 | 。 

Silberschatz 等 [ 1990 ] 、Silberschatz 等 [1996 ] , Bernstein [1998], ， 以 及 Abiteboul 等 [ 2003 ] 给 出 了 关于 
数据 库 管 理 已 有 成 果 和 未 来 研究 挑战 的 综合 评述 。ACM 的 数据 管理 兴趣 组 的 主页 ( www. acm. org/sigmod ) 提 
供 了 关于 数据 库 研究 的 大 量 信息 。 数 据 库 厂商 的 网 址 (参看 上 面 的 工具 部 分 ) 提供 了 他 们 各 自 产 品 的 细节 。 
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| 第 一 部 分 


Part 1 


关系 数据 库 





数据 模型 是 描述 数据 、 数 据 联 系 、 数 据 语 义 以 及 一 致 性 约束 的 概念 工具 的 集合 。 在 这 一 
部 分 中 ， 我 们 集中 学 习 关 系 模型 。 

关系 模型 利用 表 的 集合 来 表示 数据 和 数据 间 的 联系 ， 第 2 章 将 专门 介绍 关系 模型 。 其 概 
念 上 的 简单 性 使 得 它 被 广泛 采纳 ; 今天 大 量 的 数据 库 产 品 都 是 基于 关系 模型 的 。 关 系 模 型 在 
逻辑 层 和 视图 层 描述 数据 ， 使 用 户 不 必 关 注 数据 存储 的 底层 细节 。 在 后 面 第 二 部 分 的 第 7 章 
中 讨论 的 实体 -联系 模型 是 一 种 更 高 层 的 数据 模型 ， 被 广泛 用 于 数据 库 设 计 。 

为 了 让 用 户 可 以 使 用 关系 数据 库 中 的 数据 我们 需要 解决 几 个 问题 。 最 重要 的 问题 是 用 
户 如 何 说 明 对 数据 的 检索 和 更 新 请 求 ， 为 此 已 经 开发 了 好 几 种 查询 语言 。 第 二 个 问题 也 很 重 
要 ， 就 是 数据 完整 性 和 数据 保护 。 无 论 用 户 有 意 或 无 意 地 破坏 数据 ， 数 据 库 都 要 保护 数据 ， 
使 其 免 遭 破坏 。 

第 3 章 、 第 4 章 和 第 5 章 讲述 当今 应 用 最 普遍 的 一 种 查询 语言 一 一 SQL 语言 。 第 3 章 和 第 
4 章 介 绍 SQL 及 其 中 等 程度 的 应 用 知识 。 第 4 章 还 将 介绍 通过 数据 库 施 加 完整 性 约束 以 及 授权 
”机 制 ， 用 来 控制 用 户 发 出 的 哪些 访问 和 更 新 操作 是 可 以 执行 的 。 第 5 章 介 绍 更 为 深入 的 主题 ， 
包括 如 何在 编程 语言 中 使 用 SQL， 如 何 利用 SQL 进行 数据 分 析 。 

第 6 章 介 绍 三 种 形式 的 查询 语言 : 关系 代数 、 元 组 关系 演算 和 域 关 系 演 算 ， 它 们 是 基于 
数学 逻辑 的 声明 式 查 询 语言 。 这 些 形式 语言 构成 了 SQL， 以 及 另外 两 种 用 户 友 好 的 语言 QBE 
和 Datalog 的 基础 。( QBE 和 Datalog 的 介绍 参见 附录 B, db-book. com 上 提供 在 线 资料 。) 
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关系 模型 介绍 


在 商用 数据 处 理应 用 中 ， 关 系 模型 已 经 成 为 当今 主要 的 数据 模型 。 之 所 以 占据 主要 位 置 ， 是 因 
为 和 早期 的 数据 模型 如 网 络 模型 或 层次 模型 相 比 ， 关 系 模型 以 其 简易 性 简化 了 编程 者 的 工作 。 

本 章 我 们 先 学 习 关 系 模型 的 基础 知识 。 关 系数 据 库 具有 坚实 的 理论 基础 ， 我 们 在 第 6 章 学 习 关 
系数 据 库 理论 中 与 查询 相关 的 部 分 ， 从 第 7 章 到 第 8 章 我 们 将 考察 其 中 用 于 关系 数据 库 模 式 设计 的 
部 分 ， 在 第 12 章 和 第 13 章 我 们 将 讨论 高 效 处 理 查询 的 理论 。 


2.1 关系 数据 库 的 结构 
关系 数据 库 由 表 (table) 的 集合 构成 ， 每 个 表 有 唯一 的 名 字 。 人 例如， 图 2-1 中 的 instructor 表 记 录 
了 有 关 教 师 的 信息 ， 它 有 四 个 列 首 : ID, name, dept_name 和 salary。 该 表 中 每 一 行 记 录 了 一 位 教师 


的 信息 ， 包 括 该 教师 的 ID, name, dept_name 以 及 salary。 类 似 地 ， 图 2-2 中 的 course 表 存 放 了 关于 课 
程 的 信息 ， 包 括 每 门 课程 的 course_id, title, dept_name 和 credits。 注 意 ， 每 位 教师 通过 1D 列 的 取 值 进 











行 标识 ， 而 每 门 课程 则 通过 course _id 列 的 取 值 来 标识 。 [D |name | deptname | salary 
图 2-3 给 出 的 第 三 个 表 是 prereq, 它 存放 了 每 门 课程 的 | 10101 | Srinivasan | Comp. Sci. | 65000 
` a - . a 12121 | Wu Fin. 90000 
TPE Bs KERA ae H paa 两 列 | 15151 | Mozart Mae 40000 
行 由 一 个 课程 对 组 成 ， 这 个 课程 对 表示 了 第 二 门 课程 是 第 22222 | Einstein Physics 95000 
一 门 课 程 的 先 修 课 。 32343 | El Said History | 60000 


| 33456 | Gold Physics 87000 

由 此 ，prereq 表 中 的 每 行 表示 了 两 门 课程 之 间 的 联系 : 其 | 45565 | Katz | Comp. Sci. | 75000 

中 一 门 课程 是 另 一 门 课程 的 先 修 课 。 作 为 另 一 个 例子 , 我 们 | 26543 | Singh” | Finance | 0000 

考察 instructor 表 ， 表 中 的 行 可 被 认为 是 代表 了 从 一 个 特定 的 。 | 76766 | Crick Biology | 72000 

ID 到 相应 的 name、dept_name 和 salary 值 之 间 的 联系 。 96045 | Kim | mec Ran | 80000 

一 般 说 来 ， 表 中 一 行 代表 了 一 组 值 之 间 的 一 种 联系 。 由 a 

于 一 个 表 就 是 这 种 联系 的 一 个 集合 ， 表 这 个 概念 和 数学 上 的 

关系 这 个 概念 是 密切 相关 的 ， 这 也 正 是 关系 数据 模型 名 称 的 由 来 。 在 数学 术语 中 ,元 组 (tuple) 只 是 一 

组 值 的 序列 (或 列表 ) En 个 值 之 间 的 一 种 联系 可 以 在 数学 上 用 关于 这 些 值 的 一 个 元 组 (mtuple) 来 
表示 ， 换 言 之 , n 元 组 就 是 一 个 有 nn 个 值 的 元 组 ， 它 对 应 于 表 中 的 一 行 。 






































courseid | title dept_name | credits 
BIO-101 | Intro. to Biology Biology Tä 
BIO-301 | Genetics Biology 4 
| BIO-399 | Computational Biology | Biology 3 
| CS-101 Intro. to Computer Science | Comp. Sci. 4 
| CS-190 | Game Design | Comp. Sci. 4 
| CS-315 Robotics | Comp. Sci. 3 
CS-319 Image Processing | Comp. Sci. 3 
CS-347 Database System Concepts | Comp. Sci. 3 
EE-181 Intro. to Digital Systems Elec. Eng. 3 
FIN-201 | Investment Banking Finance 3 
HIS-351 | World History History 3 
MU-199 | Music Video Production | Music 3 
| PHY-101 | Physical Principles Physics 4 








FA 2-2 course KK 
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这 样 ， 在 关系 模型 的 术语 中 ,关系 (relation ) 用 来 指 代 表 ， 而 元 组 ! tuple ) 用 玉 指 代行 ”类 似 地 ， 属 
HE ( attribute ) 指 代 的 是 表 中 的 列 。 

考察 图 2- 1， 我 们 可 以 看 出 instructor 关系 有 四 个 属性 : ID. name, dept_ [courseid | premi id 
name 和 salary, BIO-301 — BIO-101 

我 们 用 关系 实例 (relation instance) 这 个 术语 来 表示 一 个 关系 的 特定 实例 ， POG Bs 
也 就 是 所 包含 的 一 组 特定 的 行 。 图 2-1 所 示 的 instructor 的 实例 有 12 个 元 组 ， 对 ， CS-315 csin 
应 于 12 个 教师 。 ERAEN i Cait 

本 章 我 们 将 使 用 多 个 不 同 的 关系 来 说 明 作 为 关系 数据 模型 基础 的 各 种 概 | EESSI | PHY- 001 
念 。 这 些 关系 代表 一 个 大 学 的 一 部 分 。 它 们 并 没有 包含 真实 的 大 学 数据 库 中 的 图 2-3 prereq 关系 
所 有 数据 ， 这 主要 是 为 了 简化 表示 。 在 第 7 章 和 第 8 章 里 我 们 将 详细 讨论 如 何 
判断 适当 的 关系 结构 的 相关 准则 。 

由 于 关系 是 元 组 集合 ， 所 以 元 组 在 关系 中 出 现 的 顺序 是 无 关 紧 要 的 。 因 此 ， 无 论 关 系 中 的 元 组 是 像 
图 2-1 那样 被 排序 后 列 出 ， 还 是 像 图 2-4 那样 无 序 的 ， 都 没有 关系 ; 在 上 述 两 图 中 的 关系 是 一 样 的 ， 因 
为 它们 具有 同样 的 元 组 集合 。 为 便于 说 明 ， 当 我 们 在 显示 关系 时 ， denice rae 








对 于 关系 的 每 个 属性 ， 都 存在 一 个 允许 取 值 的 集合 ， 称 Ce Tae | dept-name 
为 该 属性 的 域 ( domain ) 。 这 样 instructor 关系 的 salary 属性 的 | 22222 | Einstein | Physics A | 
z 12121) W Fina 
域 就 是 所 有 可 能 的 工资 值 的 集合 ， 而 name 属性 的 域 是 所 有 5 aaa History ati 
可 能 的 教师 名 字 的 集合 。 45565 | Katz Comp. Sci. | 75000 
我 们 要 求 对 所 有 关系 而 言 ,r 的 所 有 属性 的 域 都 是 原子 F676 | Cak | Biaos | 72000. 
的 。 如 果 域 中 元 素 被 看 作 是 不 可 再 分 的 单元 ， 则 域 是 原子 的 。 | 10101 | Srinivasan | Comp. Sci. | 65000 | 
(sonic) » 例如， 假设 bretor 表 上 有 一 个 属性 phone | S| Sa | Hiney | azo 
number， 它 存放 教师 的 一 组 联系 电话 号 码 。 那 么 phone _ | 15151 | Mozart Music 40000 | 
number 的 域 就 不 是 原子 的 ， 因 为 其 中 的 元 素 是 一 组 电话 号 | 76543 | Se | Fo | 80000 




















码 ， 是 可 以 被 再 分 为 单个 电话 号 码 这 样 的 子 成 分 的 。 

重要 的 问题 不 在 于 域 本 身 是 什么 ， 而 在 于 我 们 怎样 在 数 
据 库 中 使 用 域 中 元 素 。 现 在 假设 phone_number 属性 存放 单个 电话 号 码 。 即 便 如 此 ， 如 果 我 们 把 电话 号 
码 的 属性 值 拆 分 成 国家 编号 、 地 区 编号 以 及 本 地 号 码 ， 那 么 我 们 还 是 把 它 作为 非 原 子 值 来 对 待 。 如 果 
我 们 把 每 个 电话 号 码 作为 不 可 再 分 的 单元 ， 那 么 phone_number 属性 才 会 有 原子 的 域 。 

在 本 章 ， 以 及 第 3 章 ~ 第 6 章 ， 我 们 假设 所 有 属性 的 域 都 是 原子 的 。 在 第 22 章 中 ,我 们 将 讨论 对 
关系 数据 模型 进行 扩展 以 便 允 许 非 原子 域 。 

空 (null) 值 是 一 个 特殊 的 值 ， 表 示 值 未 知 或 不 存在 。 如 前 所 述 ， 如 果 我 们 在 关系 instructor 中 包括 
属性 phone_number， 则 可 能 某 教 师 根 本 没有 电话 号 码 ， 或 者 电话 号 码 未 提供 。 这 时 我 们 就 只 能 使 用 空 
值 来 强调 该 值 未 知 或 不 存在 。 以 后 我 们 会 看 到 ， 空 值 给 数据 库 访 问 和 更 新 带 来 很 多 困难 ， 因 此 应 尽量 
避免 使 用 空 值 。 我 们 先 假设 不 存在 空 值 ， 然 后 在 3. 6 节 中 我 们 将 描述 空 值 对 不 同 操作 的 影响 。 


2.2 数据 库 模式 


当 我 们 谈论 数据 库 时 ,我 们 必须 区 分 数据 库 模式 ( database schema ) 和 数据 库 实例 (database 
instance) ， 前 者 是 数据 库 的 逻辑 设计 ， 后 者 是 给 定时 刻 数据 库 中 数据 的 一 个 快照 。 

关系 的 概念 对 应 于 程序 设计 语言 中 变量 的 概念 ， 而 关系 模式 ( relation schema) 的 概念 对 应 于 程序 设 
计 语 言 中 类 型 定义 的 概念 。 

一 般 说 来 ， 关 系 模式 由 属性 序列 及 各 属性 对 应 域 组 成 。 等 第 3 章 讨论 SQL 语言 时 ， 我们 才 去 关心 
每 个 属性 的 域 的 精确 定义 。 

关系 实例 的 概念 对 应 于 程序 设计 语言 中 变量 的 值 的 概念 。 给 定 变 量 的 值 可 能 随时 间 发 生变 化 ; 类 
似 地 ， 当 关系 被 更 新 时 ， 关 系 实例 的 内 容 也 随时 间 发 生 了 变化 。 相 反 ， 关 系 的 模式 是 不 常 变化 的 。 

尽管 知道 关系 模式 和 关系 实例 的 区 别 非常 重要 ,我 们 常常 使 用 同一 个 名 字 ， 比 如 instructor, BRIE 


图 2-4 instructor 关系 的 无 序 显示 
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代 模 式 ， 也 指 代 实 例 。 在 需要 的 时 候 ， 我 们 会 显示 地 指明 模式 或 实例 。 例 如 “instructor 模式 "或 


“instructor 关系 的 一 个 实例 ” 
下 ， 我 们 就 简单 地 使 用 关系 的 名 字 . 


然而 ， 在 模式 或 实例 的 含义 清楚 的 情况 


考察 图 2-5 中 的 department 关系 ， 该 关系 的 模式 是 : 


department (dept_name, building, budget) 


请 注意 属性 dept _name 既 出 现在 instructor 模式 中 ， 又 出 现在 
department 模式 中 。 这 样 的 重复 并 不 是 一 种 巧合 。 实 际 上 ， 在 关系 模 
式 中 使 用 相同 属性 正 是 将 不 同 关系 的 元 组 联系 起 来 的 一 种 方法 。 


例 





deptname | building | budget | 





一 一 一 一 


Biology | Watson 90000 | 
| Comp. Sci. | Taylor -| 100000 | 
| Elec. Eng. | Taylor | 85000 
| Finance | Painter 120000 | 

History | Painter 50000 | 

Music Packard 80000 
| Physics | Watson | 70000 | 





如 ， 假 设 我 们 希望 找 出 在 Watson 大 楼 工作 的 所 有 教师 的 相关 信息 。 
我 们 首先 在 department 关系 中 找 出 所 有 位 于 Watson 的 系 的 dept_name。 接 着 ,对 每 一 个 这 样 的 系 ， 我们 
在 instructor 关系 中 找 出 与 dept_name 对 应 的 教师 信息 。 


我 们 继续 看 大 学 数据 库 的 例子 。 


图 2-5 department 关系 


大 学 里 的 每 门 课程 可 能 要 讲授 多 次 ， 可 以 在 不 同学 期 授课 ,其 至 可 能 在 同一 个 学 期 授课 。 我 们 需 
要 一 个 关系 来 描述 每 次 课 的 授课 情况 或 分 段 情况 。 该 关系 模式 为 : 


图 2-6 给 出 了 section 关系 的 一 个 示例 。 
我 们 需要 一 个 关系 来 描述 教师 和 他 们 所 讲授 的 课程 段 之 间 的 联系 。 描 述 此 联系 的 关系 模式 是 : 


teaches (ID, course_id, sec_id, semester, year) 


section (course_id, sec_id, semester, year, building, room_number , time_slot_id) 





courseid | sec id | semester | year | building | room_number | time slot id | 
































本 书 中 我 们 还 要 使 用 下 列 关系 : 


23 码 


advisor (s_id, i_id) 





























BIO-101 1 Summer | 2009 | Painter 514 | B 

BIO-301 1 Summer | 2010 | Painter 514 A 

CS-101 1 Fall 2009 | Packard 101 H 

CS-101 1 | Spring | 2010 | Packard 101 F 

CS-190 1 Spring 2009 | Taylor 3128 E 

CS-190 2 | Spring | 2009 Taylor 3128 | A 

CS-315 1 Spring 2010 | Watson 120 D 

CS-319 1 | Spring | 2010 | Watson 100 B 

CS-319 2 | Spring | 2010 | Taylor 3128 Cc 

CS-347 1 Fall 2009 | Taylor 3128 A 

EE-181 1 Spring 2009 | Taylor 3128 E 

FIN-201 1 Spring 2010 | Packard 101 | B 

HIS-351 1 Spring 2010 | Painter 514 | C 

MU-199 1 Spring 2010 | Packard | 101 D 

PHY-101 1 Fall 2009 | Watson | 100 A 

图 2-6 section 关系 
图 2-7 给 出 了 teaches 关系 的 一 个 示例 。 | ID courseid | sec.id | semester year 
正如 你 可 以 料想 的 ， 在 一 个 真正 的 大 学 数据 库 中 还 维 10101 | CS-101 1 | Fall 2009 
` A Hy : 10101 | CS-315 1 Sprin 2010 
护 了 更 多 的 关系 。 除 了 我 们 已 经 列 出 的 这 些 关 系 : | 10101 | cs347 | | eae 
instructor, department, course, section, prereq 和 teaches, {E 12121 | FIN-201 | 1 Spring | 2010 
15151 | MU-199 1 Spring | 2010 
22222 | PHY-101 1 Fall 2009 
è student (ID, name, dept_name, tot_cred) 32343 | HIS-351 1 Spring | 2010 
45565 | CS-101 1 | Spring | 2010 
45565 | CS-319 1 | Spring | 2010 
takes (ID, course_id, sec_id, semester, year, grade) 76766 | BIO-101 1 | Summer | 2009 
=) » 76766 | BIO-301 1 Summer | 2010 
classroom ( building, room_number , capacity ) 83821 | CS-190 1 Spring | 2009 
time_slot (time_slot_id, day, start_time, end_time) 83821 | CS-190 2 Spring 2009 
83821 | CS-319 2 Spring 2010 | 
98345 | EE-181 1 | Spring | 2009 | 
图 2-7 teaches 关系 


我 们 必须 有 一 种 能 区 分 给 定 关 系 中 的 不 同 元 组 的 方 
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法 。 这 用 它们 的 属性 来 表明 。 也 就 是 说 ， 一 个 元 组 的 属性 值 必须 是 能 够 唯一 区 分 元 组 的 。 换 名 话说 ， 
一 个 关系 中 没有 两 个 元 组 在 所 有 属性 上 的 取 值 都 相同 。 

超 码 (superkey) 是 一 个 或 多 个 属性 的 集合 ， 这 些 属性 的 组 合 可 以 使 我 们 在 一 个 关系 中 唯一 地 标识 
一 个 元 组 。 例 如 ，instructor 关系 的 ID 属性 足以 将 不 同 的 教师 元 组 区 分 开 来 ， 因 此 ， 且 是 一 个 超 码 。 另 
一 方面 ，instructor 的 name 属性 却 不 是 一 个 超 码 ， 因 为 几 个 教师 可 能 同名 。 

形式 化 地 描述 ， 设 RR 表示 关系 + 模式 中 的 属性 集合 。 如 果 我 们 说 R 的 一 个 子 集 天 是 了 的 一 个 超 码 ， 
则 限制 了 关系 7 中 任意 两 个 不 同 元 组 不 会 在 K 的 所 有 属性 上 取 值 完全 相等 ， 即 如 果 t, Alt, 在 上 中 且 
t, #t,, Wt, K4t. Ko 

超 码 中 可 能 包含 无 关 紧 要 的 属性 。 例 如 ，1D 和 name 的 组 合 是 关系 instructor 的 一 个 超 码 。 如 果 天 
是 一 个 超 码 ， 那 么 天 的 任意 超 集 也 是 超 码 。 我 们 通常 只 对 这 样 的 一 些 超 码 感 兴趣 ， 它 们 的 任意 真子 集 
都 不 能 成 为 超 码 。 这 样 的 最 小 超 码 称 为 候选 码 ( candidate key) 。 

几 个 不 同 的 属性 集 都 可 以 做 候选 码 的 情况 是 存在 的 。 假 设 name 和 dept_name 的 组 合 足 以 区 分 
instructor 关系 的 各 个 成 员 ， 那 么 | ID} A |name, dept_name} 都 是 候选 码 。 虽 然 属性 ID 和 name 一 起 能 区 分 
instructor 元 组 ， 但 它们 的 组 合 | 万, name | 并 不 能 成 为 候选 码 ， 因 为 单独 的 属性 ID 已 是 候选 码 。 

我 们 用 主 码 (primary key) 这 个 术语 来 代表 被 数据 库 设计 者 选中 的 、 主 要 用 来 在 一 个 关系 中 区 分 不 
同 元 组 的 候选 码 。 码 (不 论 是 主 码 、 候 选 码 或 超 码 ) 是 整个 关系 的 一 种 性 质 ， 而 不 是 单个 元 组 的 性 质 。 
关系 中 的 任意 两 个 不 同 的 元 组 都 不 允许 同时 在 码 属 性 上 具有 相同 的 值 。 码 的 指定 代表 了 被 建 模 的 事物 
在 现实 世界 中 的 约束 。 

主 码 的 选择 必须 慎重 。 正 如 我 们 所 注意 到 的 那样 ， 人 名 显然 是 不 足以 作 主 码 的 ， 因 为 可 能 有 多 个 
人 重 名 。 在 美国 ， 人 的 社会 保障 号 可 以 作 候选 码 。 而 非 美 国 居民 通常 不 具有 社会 保障 号 ， 所 以 跨国 企 
业 必 须 设置 他 们 自己 的 唯一 标识 符 。 另 外 也 可 以 使 用 另 一 些 属性 的 唯一 组 合作 为 码 。 


主 码 应 该 选择 那些 值 从 不 或 极 少 变化 的 属性 。 例如， 一 个 人 的 地 址 就 不 应 该 作为 主 码 的 一 部 分 ， lý 


因为 它 很 可 能 变化 。 另 一 方面 ， 社 会 保障 号 却 可 以 保证 决 不 变化 。 企 业 产 生 的 唯一 标识 符 通常 不 变 ， 
除非 两 个 企业 合并 了 ， 这 种 情况 下 可 能 在 两 个 公司 中 会 使 用 相同 的 标识 符 ， 因 此 需要 重新 分 配 标识 符 
以 确保 其 唯一 性 。 

习惯 上 把 一 个 关系 模式 的 主 码 属 性 列 在 其 他 属性 前 面 ; 例如 ，department 中 的 dept_name 属性 最 先 
列 出 ， 因 为 它 是 主 码 。 主 码 属性 还 加 上 了 下 划 线 。 

一 个 关系 模式 (如 7 ) 可 能 在 它 的 属性 中 包括 另 一 个 关系 模式 (如 7,) 的 主 码 。 这 个 属性 在 r， 上 称 作 
参照 7, 的 外 码 (foreign key), KA r, 也 称 为 外 码 依赖 的 参照 关系 (referencing relation), r, 叫做 外 码 的 被 
参照 关系 (referenced relation), {ij Yi, instructor 中 的 dept_name 属性 在 instructor 上 是 外 码 ， 它 参照 
department, W} dept_name 是 department 的 主 码 。 在 任意 的 数据 库 实例 中 ， 从 instructor 关系 中 任 取 一 个 
元 组 ， 比 如 t., Æ department 关系 中 必定 存在 某 个 元 组 ， 比 如 t;,， 使 得 i, 在 dept_name 属性 上 的 取 值 与 
在 主 码 dept_name 上 的 取 值 相同 。 

现在 考察 section 和 teaches 关系 。 如 下 需求 是 合理 的 : 如 果 一 门 课程 是 分 段 授 课 的 ， 那 么 它 必须 至 
少 由 一 位 教师 来 讲授 ; 当然 它 可 能 由 不 止 一 位 教师 来 讲授 。 为 了 施加 这 种 约束 ， 我 们 需要 保证 如 果 一 
个 特定 的 (course_id，sec_id，semester, year) 组 合 出 现在 section 中 ， 那 么 该 组 合 也 必须 出 现在 teaches 中 。 
可 是 ,这 组 值 并 不 构成 teaches 的 主 码 ， 因 为 不 止 一 位 教师 可 能 讲授 同一 个 这 样 的 课程 段 。 其 结果 是 ， 
我 们 不 能 声明 从 section 到 teaches 的 外 码 约束 ( 尽管 我 们 可 以 在 相反 的 方向 上 声明 从 teaches 到 section 的 
外 码 约束 ) 。 

从 section 到 teaches 的 约束 是 参照 完整 性 约束 (referential integrity constraint) 的 一 个 例子 。 人 参照 完整 
性 约束 要 求 在 参照 关系 中 任意 元 组 在 特定 属性 上 的 取 值 必然 等 于 被 参照 关系 中 某 个 元 组 在 特定 属性 上 
的 取 值 。 


2.4 模式 图 
一 个 含有 主 码 和 外 码 依赖 的 数据 库 模 式 可 以 用 模式 图 ( schema diagram) 来 表示 。 图 2-8 展示 了 我 们 


44 | 


a 
45 | 
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大 学 组 织 的 模式 图 。 每 一 个 关系 用 一 个 矩形 来 表示 ， 关 系 的 名 字 显 示 在 矩形 上 方 ， 和 矩形 内 列 出 各 属性 。 
主 码 属 性 用 下 划 线 标注 。 外 码 依赖 用 从 参照 关系 的 外 码 属性 到 被 参照 关系 的 主 码 属性 之 间 的 箭头 来 
[46 ] 表示 。 




















图 2-8 大 学 数据 库 的 模式 图 


除外 码 约 束 之 外 ， 模 式 图 中 没有 显示 表示 出 参照 完整 性 约束 。 在 后 面 第 7 E, 我 们 将 学 习 一 种 不 
同 的 、 称 作 实 体 - 联系 图 的 图 形 化 表示 。 实 体 - 联系 图 有 助 于 我 们 表示 几 种 约束 ， 包 括 通用 的 参照 完 
整 性 约束 。 

很 多 数据 库 系统 提供 图 形 化 用 户 界面 设计 工具 来 建立 模式 图 。 我 们 将 在 第 7 章 详细 讨论 模式 的 图 
形 化 表示 。 

在 后 面 的 章节 中 我 们 使 用 大 学 作为 例子 。 图 2-9 给 出 了 我 们 在 例子 中 使 用 的 关系 模式 ， 其 中 主 码 
属性 被 标 上 了 下 划 线 。 正 如 我 们 将 在 第 3 章 中 看 到 的 一 样 ， 这 对 应 于 在 SQL 的 数据 定义 语言 中 定义 关 
系 的 方法 。 





classroom(building, room_number, capacity) 
departinent(dept_name, building, budget) 
course(course_id, title, dept_name, credits) 
instructor(ID, name, dept_name, salary) 
section(courseid, sec.id, semester, year, building, room_number, time_slot_id) 
teaches(ID, course_id, sec.id, semester, 1 year) 
student(ID, name, dept name, tot.cred) 
takes(ID, course_id, sec_id, semester, year, grade) 
advisor(s_ID, iD) S 
time.slot(time_slot_id, day, start time, end-time) 
prereq(course_id, prereq id) 


























图 2-9 大 学 数据 库 模式 


2.5 关系 查询 语言 


查询 语言 (query language) 是 用 户 用 来 从 数据 库 中 请 求 获取 信息 的 语言 。 这 些 语 言 通 常 比 标准 的 程 
序 设计 语言 层次 更 高 。 查 询 语言 可 以 分 为 过 程 化 的 和 非 过 程 化 的 。 在 过 程 化 语言 ( procedural language) 
中 ， 用 户 指导 系统 对 数据 库 执行 一 系列 操作 以 计算 出 所 需 结 果 。 在 非 过 程 化 语言 (nonprocedural 
language) 中 ， 用 户 只 需 描述 所 需 信息 ， 而 不 用 给 出 获取 该 信息 的 具体 过 程 。 

实际 使 用 的 查询 语言 既 包 含 过 程 化 方式 的 成 分 ， 又 包含 非 过 程 化 方式 的 成 分 。 我 们 从 第 3 章 到 第 5 
章 学 习 被 广泛 应 用 的 查询 语言 SQL。 

有 一 些 “ 纯 ”查询 语言 : 关系 代数 是 过 程 化 的 ， 而 元 组 关系 演算 和 域 关系 演算 是 非 过 程 化 的 。 这 些 
语言 简洁 且 形 式 化， 默认 商用 语言 的 “句法 修饰 ”， 但 它们 说 明了 从 数据 库 中 提取 数据 的 基本 技术 。 在 
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第 6 章 ， 我 们 详细 研究 关系 代数 和 关系 演算 的 两 种 形式 ， 即 元 组 关系 演算 和 域 关 系 演算 。 关 系 代 数 包 
括 一 个 运算 的 集合 ， 这 些 运 算 以 一 个 或 两 个 关系 为 输入 ， 产 生 一 个 新 的 关系 作为 结果 。 关 系 演算 使 用 
谓词 逻辑 来 定义 所 需 的 结果 ， 但 不 需 给 出 获取 结果 的 特定 代数 过 程 。 


2.6 关系 运算 


所 有 的 过 程 化 关系 查询 语言 都 提供 了 一 组 运算 ， 这 些 运算 要 么 施加 于 单个 关系 上 ， 要 么 施加 于 一 
对 关系 上 。 这 些 运算 具有 一 个 很 好 的 ， 并 且 也 是 所 需 的 性 质 : 运算 结果 总 是 单个 的 关系 。 这 个 性 质 使 
得 人 们 可 以 模块 化 的 方式 来 组 合 几 种 这 样 的 运算 。 特 别 是 ， 由 于 关系 查询 的 结果 本 身 也 是 关系 ， 所 以 
关系 运算 可 施加 到 查询 结果 上 ， 正 如 施加 到 给 定 关系 集 上 一 样 。 

在 不 同 语言 中 ， 特 定 的 关系 运算 的 表示 是 不 同 的 ， 但 都 符合 我 们 在 本 章 所 描述 的 通用 结构 。 在 第 
3, 我们 将 给 出 在 SQL 中 表达 关系 运算 的 特殊 方式 。 

最 常用 的 关系 运算 是 从 单个 关系 (如 instructor) 中 选 出 满足 一 些 特定 谓词 (如 salary > 85 000 美元 ) 的 
特殊 元 组 。 其 结果 是 一 个 新 关系 ， 它 是 原始 关系 (instructor ) 的 一 个 子 集 。 例 如 ， 如 果 我 们 从 图 2-1 的 
instructor 关系 中 选择 满足 谓词 “工资 大 于 85 000 美元 ”的 元 组 ， | 1D | name | dept name | salary | 
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| 


| 
| 
































我 们 得 到 的 结果 如 图 2-10 所 示 。 | 12121 | Wu Finance | 90000 | 
另 一 个 常用 的 运算 是 从 一 个 关系 中 选 出 特定 的 属性 ( 列 ) 。 |2222 | Einstein | Physics | 95000 | 
其 结果 是 一 个 只 包含 那些 被 选择 属性 的 新 关系 。 例 如 ， 假 设 我 | 83821 Brandt | Comp. Sci. | 92000 
们 从 图 2-1 的 instruetor 关系 中 只 希望 列 出 教师 的 ID 和 工资 , 但 网 2.10 选择 工资 大 于 85 000 美元 的 
不 列 出 name 和 dept_name 的 值 ， 那 么 其 结果 有 ID Fil salary 两 个 instructor 元 组 的 查询 结果 
属性 ， 如 图 2-11 所 示 。 结 果 中 的 每 个 元 组 都 是 从 instructor 关系 
中 的 某 个 元 组 导出 的 ， 不 过 只 具有 被 选中 的 属性 。 
连接 运算 可 以 通过 下 述 方式 来 结合 两 个 关系 : 把 分 别 来 自 两 个 关系 的 | wD | salary | 
元 组 对 合并 成 单个 元 组 。 有 几 种 不 同 的 方式 来 对 关系 进行 连接 (正如 我 们 10101 | 65000 | 
将 在 第 3 章 中 看 到 的 )。 图 2- 12 显示 了 一 个 连接 来 自 instructor 和 | 12121 | 90000 | 
department 表 中 元 组 的 例子 ， 新 元 组 给 出 了 有 关 每 个 教师 及 其 工作 所 在 系 | 22222 | 95000 | 
的 信息 。 此 结果 是 通过 把 instructor 关系 中 的 每 个 元 组 和 department 关系 中 | | 
对 应 于 教师 所 在 系 的 元 组 合并 形成 的 。 45565 | 75000 
图 2-12 所 示 的 连接 被 称 作 自 然 连接 ， 在 这 种 连接 形式 中 ， 对 于 来 自 pes | 
instructor 关系 的 一 个 元 组 与 department 关系 中 的 一 个 元 组 来 说 ， 如 果 它 们 Aan a 
在 dept_name 属性 上 的 取 值 相同 ， 那 它们 就 是 匹配 的 。 所 有 这 样 匹配 的 元 98345 80000 | 
组 对 都 会 在 连接 结果 中 出 现 。 通 常 说 来 ， 两 个 关系 上 的 自然 连接 运算 所 匹 。 图 2-11 JA instructor 
配 的 元 组 在 两 个 关系 共有 的 所 有 属性 上 取 值 相同 。 关系 中 选取 属性 ID 


备 卡 儿 积 运 算 从 两 个 关系 中 合并 元 组 ， 但 不 同 于 连接 运算 的 是 ， 其 结 g salary 的 查询 结果 
果 包 含 来 自 两 个 关系 元 组 的 所 有 对 ， 无 论 它们 的 属性 值 是 否 匹配 。 


[ID name salary | deptname | building | budget 








| 10101 | Srinivasan | 65000 | Comp. Sci. | Taylor 100000 
12121 | Wu 90000 | Finance Painter 120000 
15151 | Mozart 40000 | Music Packard 80000 
22222 | Einstein 95000 | Physics Watson 70000 

| 32343 | El Said 60000 | History Painter 50000 
33456 | Gold 87000 | Physics Watson 70000 
45565 | Katz 75000 | Comp. Sci. | Taylor 100000 
58583 | Califieri | 62000 | History Painter 50000 

| 76543 | Singh 80000 | Finance Painter 120000 
76766 | Crick 72000 | Biology Watson 90000 

| 83821 | Brandt 92000 | Comp. Sci. | Taylor 100000 

| 98345 | Kim 80000 | Elec. Eng. Taylor 85000 | 























图 2-12 instructor 关系 和 department 关系 的 自然 连接 结果 
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因为 关系 是 集合 ， 所 以 我 们 可 以 在 关系 上 施加 标准 的 集合 运算 。 并 运算 在 两 个 “相似 结构 ”的 表 
(比如 一 个 所 有 毕业 生 的 表 和 一 个 所 有 大 学 生 的 表 ) 上 执行 集合 并 。 例 如 ， 我 们 可 以 得 到 一 个 系 中 所 有 
学 生 的 集合 。 另 外 的 集合 运算 如 交 和 集合 差 也 都 可 以 被 执行 。 

正如 我 们 此 前 讲 到 的 ， 我 们 可 以 在 查询 结果 上 施加 运算 。 例 如 ， 如 果 我 们 想 找 出 工资 超过 85 000 
美元 的 那些 教师 的 ID 和 salary， 我们 可 以 执行 上 述 例子 中 的 前 两 种 运算 。 首 先 我 们 从 instructor 关系 中 
选 出 salary 值 大 于 85 000 美元 的 元 组 ， 然 后 从 结果 中 选 出 ID 和 salary 两 个 属性 ， 结 果 关系 如 图 2-13 所 
示 ， 由 ID Fil salary 构成 。 在 此 例 中 ,我 们 可 以 任 一 次 序 来 执行 运算 ， 但 正如 我 们 将 看 到 的 ， 并 非 在 所 
有 情况 下 均 可 如 此 。 





有 时 候 ， 查 询 结果 中 包含 重复 的 元 组 。 例 如 ， 如 果 我 们 从 insiructor 关系 p ala 
中 选 出 dept_name 属性 ， 就 会 有 好 几 种 重复 的 情况 ， 其 中 包括 “Comp. Sei”, [12121 | 9000 | 
它 出 现 了 三 次 。 一 些 关 系 语言 严格 遵守 集合 的 数学 定义 ， 去 除了 重复 。 另 一 3222% od 
些 考虑 到 从 大 的 结果 关系 中 去 除 重复 需要 大 量 相关 的 处 理 ， 就 保留 了 重复 。 83821 | 92000 | 
在 后 面 这 类 情况 中 ， 关 系 并 非 是 纯粹 数学 意义 上 的 真正 关系 。 图 2-13 ”选择 工资 大 于 


当然 ,数据库 中 的 数据 是 随时 间 而 改变 的 。 关 系 可 以 随 新 元 组 的 插 ”85 000 美元 的 教师 的 ID 
入 、 已 有 元 组 的 删除 或 更 改元 组 在 特定 属性 上 的 值 而 更 新 。 整 个 关系 可 被 。 和 salary 属性 的 结果 
删除 ， 新 的 关系 可 被 创建 。 

从 第 3 章 到 第 5 章 ， 我 们 将 讨论 如 何 使 用 SQL 语言 来 表示 关系 的 查询 和 更 新 。 


关系 代数 
关系 代数 定义 了 在 关系 上 的 一 组 运算 ， 对 应 于 作用 在 数字 上 的 普通 代数 运算 ， 如 加 法 、 减 法 或 
乘法 。 正 如 作用 在 数字 上 的 代数 运算 以 一 个 或 多 个 数字 作为 输入 ， 返 回 一 个 数字 作为 输出 ， RAK 
数 运算 通常 以 一 个 或 两 个 关系 作为 输入 ， 返 回 一 个 关系 作为 输出 。 
第 6 章 将 详细 介绍 关系 代数 ， 下 面 我 们 给 出 几 个 运算 的 概述 : 


符号 (名 字 ) 使 用 示例 
salary >=85 000 ( instructor ) 
返回 输入 关系 中 满足 谓词 的 行 


Tlv ur ( instructor ) 


o( 选 择 ) 


二 ， 
seal 对 输入 关系 的 所 有 行 输出 指定 的 属性 。 从 输出 中 去 除 重复 元 组 
instructor [X department 
DAC 自然 连接 ) 从 两 个 输入 关系 中 输出 这 样 的 元 组 对 : 它们 在 具有 相同 名 字 的 所 有 属性 
上 取 值 相同 
instructor x department 
x( 笛 卡 儿 积 ) 从 两 个 输入 关系 中 输出 所 有 的 元 组 对 ( 无 论 它们 在 共同 属性 上 的 取 值 是 
否 相同 ) : 
EPP T same (instructor) U TT „ane ( student ) 
输出 两 个 输入 关系 中 元 组 的 并 
2.7 Be 


© 关系 数据 模型 (relational data model) 建立 在 表 的 集合 的 基础 上 。 数 据 库 系统 的 用 户 可 以 对 这 些 表 进 行 
查询 ， 可 以 插入 新 元 组 、 删 除 元 组 以 及 更 新 (修改 ) 元 组 。 表 达 这 些 操 作 的 语言 有 几 种 

。 关系 的 模式 (schema) 是 指 它 的 逻辑 设计 ， 而 关系 的 实例 (instance) 是 指 它 在 特定 时 刻 的 内 容 。 数 据 库 
的 模式 和 实例 的 定义 是 类 似 的 。 关 系 的 模式 包括 它 的 属性 ， 还 可 能 包括 属性 类 型 和 关系 上 的 约束 ， 
比如 主 码 和 外 码 约 束 。 
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© 关系 的 超 码 ( superkey ) 是 一 个 或 多 个 属性 的 集合 ， 这 些 属性 上 的 取 值 保证 可 以 唯一 识别 出 关系 中 的 元 
组 。 候 选 码 是 一 个 最 小 的 超 码 ， 也 就 是 说 ， 它 是 一 组 构成 超 码 的 属性 集 ， 但 这 组 属性 的 任意 子 集 都 
不 是 超 码 。 关 系 的 一 个 候选 码 被 选 作 主 码 (primary key) 。 

。 在 参照 关系 中 的 外 码 (foreign key) 是 这 样 的 一 个 属性 集合 : 对 于 参照 关系 中 的 每 个 元 组 来 说 ， 它 在 外 
码 属性 上 的 取 值 肯定 等 于 被 参照 关系 中 某 个 元 组 在 主 码 上 的 取 值 。 

© 模式 图 ( schema diagram) 是 数据 库 中 模式 的 图 形 化 表示 ， 它 显示 了 数据 库 中 的 关系 ， 关 系 的 属性 、 主 
码 和 外 码 。 

© 关系 查询 语言 (relational query language) 定 义 了 一 组 运算 集 ， 这 些 运 算 可 作用 于 表 上 ， 并 输出 表 作 为 
结果 。 这 些 运 算 可 以 组 合成 表达 式 ， 表 达 所 需 的 查询 。 

© 关系 代数 (relational algebra) 提供 了 一 组 运算 ， 它 们 以 一 个 或 多 个 关系 为 输入 ， 返 回 一 个 关系 作为 输 
出 。 诸 如 SQL 这 样 的 实际 查询 语言 是 基于 关系 代数 的 ， 但 增加 了 一 些 有 用 的 句法 特征 。 














术语 回顾 
。 表 口 候选 码 。 查询 语言 
© 关系 o 主 码 口 过 程 化 语言 
。 元 组 e 外 码 口 非 过 程 化 语言 
-e 空 值 口 参照 关系 。 关系 运算 
。 数据 库 模 式 口 被 参照 关系 口 选择 元 组 
。 数据 库 实例 。 属性 口 选择 属性 
。 关系 模式 。 域 口 自然 连接 
。 关系 实例 。 原子 域 O FJL 
e i 。 人 参照 完整 性 约束 口 集合 运算 
口 超 码 。 模式 图 。 关系 代数 
实践 习题 
2.1 考虑 图 2-14 所 示 关 系数 据 库 。 这 些 关 系 上 适当 的 主 码 是 什么 ? 
2.2 考虑 从 instructor 的 dept_name 属性 到 department 关系 的 外 码 约 束 ， 给 出 对 这 些 关系 的 插入 和 删除 示例 ， 
使 得 它们 破坏 外 码 约 束 。 
2.3 考虑 time_slot 关系 。 假 设 一 个 特定 的 时 间 段 可 以 在 一 周 之 内 出 现 多 次 ， 解 释 为 什么 day 和 start_time 是 
该 关系 主 码 的 一 部 分 ， 而 end_time 却 不 是 。 
2.4 在 图 2-1 所 示 instructor 的 实例 中 ， 没 有 两 位 教师 同名 。 我 们 是 否 可 以 据 此 断定 name 可 用 来 作为 
instructor 的 超 码 (或 主 码 )? 
2.5 FERT studeni 和 advisor 的 笛 卡 儿 积 ， 然 后 在 结果 上 执行 基于 谓词 ;_id = 1D 的 选择 运算 ， 最 后 的 结果 是 
什么 ? (采用 关系 代数 的 符号 表示 ， 此 查询 可 写作 o, us-m(student x advisor) < ) 
employee( person- name, street, city) 
works( person- name, company-name, salary ) 
company( company- name, city) 
图 2-14 习题 2. 1、 习 题 2. 7 和 习题 2. 12 的 关系 数据 库 
2.6 考虑 下 面 的 表达 式 ， 哪 些 使 用 了 关系 代数 运算 的 结果 来 作为 另 一 个 运算 的 输入 ”对 于 每 个 表达 
式 ， 说 明 表 达 式 的 含义 。 
a. (Cyears2009 (takes) M student ) 
b. (0.52009 ( takes M student ) 
c. Ty name course ia ( Student DX takes ) 
2.7 考虑 图 2-14 所 示 关 系数 据 库 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 : 


a. 找 出 居住 在 Miami” 城市 的 所 有 员工 姓名 。 
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b. 找 出 工资 在 100 000 美元 以 上 的 所 有 员工 姓名 。 
c. 找 出 居住 在 Miami" 并 且 工 资 在 100 000 美元 以 上 的 所 有 员工 姓名 。 
2.8 考虑 图 2-15 所 示 银 行 数据 库 。 对 于 下 列 每 个 查询 ， 给 出 一 个 关系 代数 表达 式 : 
a. 找 出 位 于 ”Chicago "的 所 有 支行 名 字 。 
b. 找 出 在 支行 ”Downtown” 有 贷款 的 所 有 贷款 人 姓名 。 





branch( branch_name ，branch_city ，assets ) 


customer ( customer_name , customer_street , customer_city ) 
loan (loan_number, branch_name, amount) 

borrower ( customer_name, loan_number ) 

account (account_number, branch_name, balance) 
depositor (customer_name, account_number ) 


图 2-15 “习题 2. 8 、 习 题 2. 9 和 习题 2. 13 的 银行 数据 库 





习题 
2.9 考虑 图 2-15 所 示 银 行 数 据 库 。 
a. 适当 的 主 码 是 什么 ? 
b. 给 出 你 选择 的 主 码 ， 确 定 适当 的 外 码 。 
2. 10 考虑 图 2-8 所 示 advisor KAR, advisor 的 主 码 是 ;_id。 假 设 一 个 学 生 可 以 有 多 位 指导 老师 。 那 么 ，s_id 
WHE advisor 关系 的 主 码 吗 ”如 果 不 是 ，advisor 的 主 码 会 是 什么 呢 ? 
2.11 解释 术语 关系 和 关系 模式 在 意义 上 的 区 别 。 
2.12 考虑 图 2-14 所 示 关 系数 据 库 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 : 
a. 找 出 为 “First Bank Corporation” 工作 的 所 有 员工 姓名 。 
b. 找 出 为 First Bank Corporation” 工作 的 所 有 员工 的 姓名 和 居住 城市 。 
c. 找 出 为 “First Bank Corporation” 工作 且 挣 钱 超过 10 000 美元 的 所 有 员工 的 姓名 、 街 道 地 址 和 居住 
城市 。 
2.13 考虑 图 2-15 所 示 银 行 数据 库 。 对 于 下 列 每 个 查询 ， 给 出 一 个 关系 代数 表达 式 : 
a. 找 出 贷款 额度 超过 10 000 美元 的 所 有 贷款 号 。 
b. 找 出 所 有 这 样 的 存款 人 姓名 ， 他 拥有 一 个 存款 额 大 于 6000 美元 的 账户 。 
c 找 出 所 有 这 样 的 存款 人 姓名 ， 他 在 “Uptown "支行 拥有 一 个 存款 额 大 于 6000 美元 的 账户 。 
2.14 列 出 在 数据 库 中 引入 空 值 的 两 个 原因 。 
2.15 讨论 过 程 化 和 非 过 程 化 语言 的 相对 优点 。 


文献 注解 


IBM San Jose 研究 实验 室 的 E. F. Codd F 20 世纪 60 年 代 末 提出 了 关系 模型 (Codd [1970] ) 。 这 一 工作 使 
Codd 在 1981 年 获得 了 声望 很 高 的 ACM 图 灵 奖 (Codd[1982] ) 。 

在 Codd 最 初 的 论文 发 表 之 后 ， 几 个 研究 项 目 开 始 进行 ， 它 们 的 目标 是 构造 实际 的 关系 数据 库 系 统 ， 其 
中 包括 IBM San Jose 研究 实验 室 的 System R、 加 州 大 学 Berkeley 分 校 的 Ingres， 以 及 IBM T. J. Watson 研究 实 
验 中 心 的 Query-by-Example。 

大 量 关系 数据 库 产品 现在 可 以 从 市 场 上 购 得 。 其 中 包括 IBM 的 DB2 以 及 Informix, Oracle, Sybase 和 微 
软 的 SQL Server。 开 源 关系 数据 库 系 统 包 括 MySQL 和 PostgreSQL。 微 软 的 Access 是 一 个 单 用 户 的 数据 库 产 
品 ， 它 作为 微软 0ffice 套件 的 一 部 分 。 

Atzeni 和 Antonellis[ 1993 ] 、Maier[ 1983 | 以 及 Abiteboul 等 [1995 ] 是 专门 讨论 关系 数据 模型 的 文献 。 
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商业 性 使 用 或 实验 性 使 用 的 数据 库 查询 语言 有 好 几 种 。 在 本 章 以 及 第 4 章 和 第 5 章 ， 我 们 学 习 使 
用 最 为 广泛 的 查询 语言 : SQL。 

尽管 我 们 说 SQL 语言 是 一 种 "查询 语言 ” ， 但 是 除了 数据 库 查 询 ， 它 还 具有 很 多 别 的 功能 ， 它 可 以 
定义 数据 结构 : 修改 数据 库 中 的 数据 以 及 说 明 安全 性 约束 条 件 等 。 

我 们 的 目的 并 不 是 提供 一 个 完整 的 SQL 用 户 手册 ， 而 是 介绍 SQL 的 基本 结构 和 概念 。SQL 的 各 种 
实现 可 能 在 一 些 细节 上 有 所 不 同 ， 或 者 只 支持 整个 语言 的 一 个 子 集 。 


3.1 SQL 查询 语言 概览 


SQL 最 早 的 版 本 是 由 IBM 开发 的 ， 它 最 初 被 叫做 Sequel， 在 20 世纪 70 年 代 早期 作为 System R 项 
目的 一 部 分 。Sequel 语言 一 直 发 展 至 今 ， 其 名 称 已 变 为 SQL( 结构 化 查询 语言 )。 现 在 有 许多 产品 支持 
SQL 语言 ，SQL 已 经 很 明显 地 确立 了 自己 作为 标准 的 关系 数据 库 语言 的 地 位 。 

1986 年 美国 国家 标准 化 组 织 ( ANSI) 和 国际 标准 化 组 织 (1ISO) 发 布 了 SQL 标准 : SQL-86。1989 年 
ANSI 发 布 了 一 个 SQL 的 扩充 标准 : SQL-89。 该 标准 的 下 一 个 版 本 是 SQL-92 标准 ， 接 着 是 SQL:1999， 
SQL:2003, ，SQL:2006 ， 最 新 的 版 本 是 SQL:2008。 文 献 注解 中 提供 了 关于 这 些 标准 的 参考 文献 。 

SQL 语言 有 以 下 几 个 部 分 : 

© 数据 定义 语言 ( Data- Definition Language, DDL): SQL DDL 提供 定义 关系 模式 、 删 除 关系 以 及 修 

改 关系 模式 的 命令 。 
© 数据 操纵 语言 (Data- Manipulation Language, DML): SQL DML 提供 从 数据 库 中 查询 信息 ， 以 及 
在 数据 库 中 插入 元 组 、 删 除 元 组 、 修 改元 组 的 能 力 。 

e 完整 性 (integrity) : SQL DDL 包括 定义 完整 性 约束 的 命令 ， 保 存在 数据 库 中 的 数据 必须 满足 所 

定义 的 完整 性 约束 。 破 坏 完整 性 约束 的 更 新 是 不 允许 的 。 

e 视图 定义 (view definition): SQL DDL 包括 定义 视图 的 命令 。 

。 事务 控制 (transaction control) : SQL 包括 定义 事务 的 开始 和 结束 的 命令 。 

© AÈ SQL 和 动态 SQL( embedded SQL and dynamic SQL): ARAZIA SQL 定义 SQL 语句 如 

何 散 入 到 通用 编程 语言 ， 如 C、C++ 和 Java H, 

e 授权 (authorization) : SQL DDL 包括 定义 对 关系 和 视图 的 访问 权限 的 命令 。 

本 章 我 们 给 出 对 SQL 的 基本 DML 和 DDL 特征 的 概述 。 在 此 描述 的 特征 自 SQL-92 以 来 就 一 直 是 
SQL 标准 的 部 分 。 

在 第 4 章 我 们 提供 对 SQL 查询 语言 更 详细 的 介绍 ,包括 : (a) 各 种 连接 的 表达 ; (b) MA; Ce) 
BH; (d) 完整 性 约束 ; (e) 类 型 系统 ; (f) 授权 。 

在 第 5 章 我 们 介绍 SQL 语言 更 高 级 的 特征 ， 包 括 : (a) 允许 从 编程 语言 中 访问 SQL 的 机 制 ; (b) 
SQL 函数 和 过 程 ;(c) 触发 器 ;(d) 递归 查询 ; (e) 高 级 聚集 特征 ; (f) 为 数据 分 析 设 计 的 一 些 特征 ， 
它们 在 SQL:1999 中 引入 ， 并 在 SQL 的 后 续 版 本 中 使 用 。 在 后 面 第 22 章 ， 我 们 将 概述 SQL:1999 引入 
的 对 SQL 的 面向 对 象 扩充 。 

尽管 大 多 数 SQL 实现 支持 我 们 在 此 描述 的 标准 特征 ， 读 者 还 是 应 该 意识 到 不 同 SQL 实现 之 间 的 差 
异 。 大 多 数 SQL 实现 还 支持 一 些 非 标 准 的 特征 ,但 不 支持 一 些 更 高 级 的 特征 。 万 一 你 发 现在 此 描述 的 
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一 些 语言 特征 在 你 使 用 的 系统 中 不 起 作用 ， 请 参考 你 的 数据 库 系 统 用 户 手 册 ， 看 看 它 所 支持 的 特征 究 
竞 是 什么 。 


3.2 SQL 数据 定义 


数据 库 中 的 关系 集合 必须 由 数据 定义 语言 (DDL) 指定 给 系统 。SQL 的 DDL 不 仅 能 够 定义 一 组 关 
系 ， 还 能 够 定义 每 个 关系 的 信息 ， 包 括 : 
。 每 个 关系 的 模式 。 
每 个 属性 的 取 值 类 型 。 
完整 性 约束 。 
每 个 关系 维护 的 索引 集合 。 
每 个 关系 的 安全 性 和 权限 信息 。 
每 个 关系 在 磁盘 上 的 物理 存储 结构 。 
我 们 在 此 只 讨论 基本 模式 定义 和 基本 类 型 ， 对 SQL DLL 其 他 特征 的 讨论 将 放 到 第 4 章 和 第 5 章 
3. 2.1 基本 类 型 
SQL 标准 支持 多 种 固有 类 型 ， 包 括 : 
e char(n): 固定 长 度 的 字符 串 ， 用 户 指定 长 度 n。 也 可 以 使 用 全 称 character, 
e varchar(n): 可 变 长 度 的 字符 串 ， 用 户 指 定 最 大 长 度 n， 等 价 于 全 称 character varying. 
o int, 整数 类 型 (和 机 器 相关 的 整数 的 有 限 子 集 ) ， 等 价 于 全 称 integer, 
e smallint: 小 整数 类 型 (和 机 器 相关 的 整数 类 型 的 子 集 ) 。 
e numeric(p, d): 定点 数 ， 精 度 由 用 户 指 定 。 这 个 数 有 p 位 数字 (加 上 一 个 符号 位 )， 其 中 dd 位 
数字 在 小 数 点 右边 。 所 以 在 一 个 这 种 类 型 的 字段 上 ，numeric(3，1) 可 以 精确 储存 44.5， 但 不 
能 精确 存储 444. 5 或 0. 32 这 样 的 数 。 
e real, double precision; 浮 点 数 与 双 精 度 浮 点 数 ， 精 度 与 机 器 相关 。 
e float(n): 精度 至 少 为 n 位 的 浮 点 数 。 
更 多 类 型 将 在 4.5 节 介 绍 。 
每 种 类 型 都 可 能 包含 一 个 被 称 作 空 值 的 特殊 值 。 空 值 表示 一 个 缺失 的 值 ， 该 值 可 能 存在 但 并 不 为 
人 所 知 ， 或 者 可 能 根本 不 存在 。 在 可 能 的 情况 下 ,我 们 希望 禁止 加 入 空 值 ， 正 如 我 们 马上 将 看 到 的 
那样 。 
char 数据 类 型 存放 固定 长 度 的 字符 串 。 例 如 ， 属 性 4 的 类 型 是 char(10) 。 如 果 我 们 为 此 属性 存 人 
字符 串 “Avi”， 那 么 该 字符 串 后 会 追加 7 个 空格 来 使 其 达到 10 个 字符 的 串 长 度 。 反 之 ， 如 果 属 性 B 的 
类 型 是 varchar(10) ， 我 们 在 属性 中 中 存 人 字符 串 “Avi”， 则 不 会 增加 空格 。 当 比较 两 个 char 类 型 的 值 
时 ， 如 果 它 们 的 长 度 不 同 ， 在 比较 之 前 会 自动 在 短 值 后 面 加 上 和 额外 的 空格 以 使 它们 的 长 度 一 致 。 
当 比 较 一 个 char 类 型 和 一 个 varchar 类 型 的 时 候 ， 也 许 读者 会 期 望 在 比较 之 前 会 自动 在 varchar 
类 型 后 面 加 上 额外 的 空格 以 使 长 度 一 致 ; 然而 ， 这 种 情况 可 能 发 生 也 可 能 不 发 生 ， 这 取决 于 数据 库 系 
统 。 其 结果 是 ， 即 便 上 述 属性 4 和 B 中 存放 的 是 相同 的 值 *Avi” ,4 =B 的 比较 也 可 能 返回 假 。 我 们 建 
议 始终 使 用 varchar 类 型 而 不 是 char 类 型 来 避免 这 样 的 问题 。 
SQL 也 提供 nvarchar 类 型 来 存放 使 用 Unicode 表示 的 多 语言 数据 。 然 而 ， 很 多 数据 库 甚至 允许 在 
varchar 类 型 中 存放 Unicode( 采 用 UTF-8 表示 ) 。 
3.2.2 基本 模式 定义 
我 们 用 create table 命令 定义 SQL 关系 。 下 面 的 命令 在 数据 库 中 创建 了 一 个 department 关系 。 


create table department 
( dept_name varchar (20) , 
building varchar (15) , 
budget numeric (12, 2), 
primary key (dept_name) ) ; 
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上 面 创建 的 关系 具有 三 个 属性 ，dept_name 是 最 大 长 度 为 20 的 字符 串 ，building 是 最 大 长 度 为 15 
的 字符 串 ，budget 是 一 个 12 位 的 数 ， 其 中 2 位 数字 在 小 数 点 后 面 。create table 命令 还 指明 了 dept_name 


属性 是 department 关系 的 主 码 。 
create table 命令 的 通用 形式 是 : 
create table r 
(A, D, 
LD, 
A.’ D 


< 完整 性 约束 ， >, 


< HHH KR, >); 





其 中 7 是 关系 名 ， 每 个 4; 是 关系 7 模式 中 的 一 个 
属性 名 , D, 是 属性 A, 的 域 ， 也 就 是 说 D; 指定 了 
属性 4; 的 类 型 以 及 可 选 的 约束 ， 用 于 限制 所 允许 
HY A; 取 值 的 集合 。 

create table 命令 后 面 用 分 号 结束 ， 本 章 后 面 
的 其 他 SQL 语句 也 是 如 此 ， 在 很 多 SQL 实现 中 ， 
分 号 是 可 选 的 。 

SQL 支持 许多 不 同 的 完整 性 约束 。 在 本 节 我 
们 只 讨论 其 中 少数 几 个 : 

e primary key(A,, Ap, …, Am): primary- 
key 声明 表示 属性 4; ，42，…，4m 构 成 
关系 的 主 码 。 主 码 属性 必须 非 空 且 唯 一 ， 
也 就 是 说 没有 一 个 元 组 在 主 码 属性 上 取 空 
值 ， 关系 中 也 没有 两 个 元 组 在 所 有 主 码 属 
性 上 取 值 相同 。 虽然 主 码 的 声明 是 可 选 
的 ， 但 为 每 个 关系 指定 一 个 主 码 通常 会 
更 好 。 
foreign key(A,,, An, *…, Am ) references ; 


foreign key 声明 表示 关系 中 任意 元 组 在 属 


性 (4 ， hip，…, 4m) 上 的 取 值 必须 对 应 于 
关系 中 某 元 组 在 主 码 属性 上 的 取 值 。 


图 3-1 给 出 了 我 们 在 书 中 使 用 的 大 学 
数据 库 的 部 分 SQL DDL 定义 。course 表 的 
定义 中 声明 T “foreign key ( dept_name) 
references depariment”。 此 外 码 声明 表明 对 
于 每 个 课程 元 组 来 说 ， 该 元 组 所 表示 的 系 
名 必然 存在 于 department 关系 的 主 码 属性 
(dept_name) 中 。 没 有 这 个 约束 的 话 ， 就 可 
能 有 某 门 课程 指定 了 一 个 不 存在 的 系 名 。 
图 3- 1 还 给 出 了 表 section, instructor 和 
teaches 上 的 外 码 约束 。 





create table department 


( dept_name varchar( 20) , 
building varchar (15) , 
budget numeric (12,2), 


primary key (dept_name) ) ; 


create table course 
( course_id varchar (7) , 
title varchar (50) , 
varchar (20) , 
credits numeric (2,0) , 
primary key (course_id) , 
foreign key (dept_name) references department ) ; 


dept_name 


create table instructor 
(ID varchar (5), 
name varchar (20) not null, 
dept_name varchar (20) , 
salary numeric (8,2), 
primary key (/D) , 
foreign key (dept_name) references department ) ; 


create table section 


( course_id varchar (8) , 
sec_id varchar (8), 
semester varchar (6) , 

year numeric (4,0) , 
building varchar (15), 
room_number varchar (7), 
time_slot_id varchar (4) , 


primary key (course_id, sec_id, semester, year) , 
foreign key (course_id) references course) ; 


create table teaches 
(ID varchar (5), 


course_id varchar (8) , 
sec_id varchar (8) , 
semester varchar (6) , 
year numeric (4,0) , 


primary key (/D, course_id, sec_id, semester, year) , 

foreign key ( course _id, sec _id, semester, year ) 
references section , 

foreign key (/D) references instructor) ; 








图 3-1 大 学 数据 库 的 部 分 SQL 数据 定义 


。 not null; 一 个 属性 上 的 not null 约束 表明 在 该 属性 上 不 允许 空 值 。 换 句 话说， 此 约束 把 空 值 排 
除 在 该 属性 域 之 外 。 例 如 在 图 3-1 中 ，instructor 关系 的 name 属性 上 的 not null 约束 保证 了 教师 


的 姓名 不 会 为 空 。 


有 关外 码 约束 的 更 多 细节 以 及 create table 命令 可 能 包含 的 其 他 完整 性 约束 将 在 后 面 4. 4 节 介绍 。 
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SQL 禁止 破坏 完整 性 约束 的 任何 数据 库 更 新 。 例 如 ， 如 果 关 系 中 一 条 新 插入 或 新 修改 的 元 组 在 任 
意 一 个 主 码 属性 上 有 空 值 ， 或 者 元 组 在 主 码 属性 上 的 取 值 与 关系 中 的 另 一 个 元 组 相同 ，SQL 将 标记 一 
个 错误 ， 并 阻止 更 新 。 类 似 地 ， 如 果 插入 的 course 元 组 在 dept_name 上 的 取 值 没有 出 现在 department X 
系 中 ， 就 会 破坏 course 上 的 外 码 约 束 ，SQL 会 阻止 这 种 插入 的 发 生 。 

一 个 新 创建 的 关系 最 初 是 空 的 。 我 们 可 以 用 insert 命令 将 数据 加 载 到 关系 中 。 例 如 ， 如 果 我 们 希 
望 插入 如 下 事实 : 在 Biology 系 有 一 个 名 叫 Smith 的 教师 ， 其 instructor_id 为 10211 ， 工 资 为 66 000 美元 ， 
可 以 这 样 写 : 

insert into instructor 
values (10211, ’ Smith’ , ’ Biology’ , 66000) ; 


值 被 给 出 的 顺序 应 该 遵循 对 应 属性 在 关系 模式 中 列 出 的 顺序 。 插 入 命令 有 很 多 有 用 的 特性 ， 后 面 将 在 
3. 9. 2 节 进 行 更 详细 的 介绍 。 
我 们 可 以 使 用 delete 命令 从 关系 中 删除 元 组 。 命 令 
delete from student ; 
将 从 student 关系 中 删除 所 有 元 组 。 其 他 格式 的 删除 命令 允许 指定 待 删除 的 元 组 ;我 们 将 在 3. 9. 1 节 对 
删除 命令 进行 更 详细 的 介绍 。 
如 果 要 从 SQL 数据 库 中 去 掉 一 个 关系 ， 我 们 使 用 drop table 命令 。drop table 命令 从 数据 库 中 删除 
关于 被 去 掉 关 系 的 所 有 信息 。 命 令 
drop table 7; 
是 比 
delete from r; 
更 强 的 语句 。 后 者 保留 关系 r*， 但 删除 > 中 的 所 有 元 组 。 前 者 不 仅 删除 > 的 所 有 元 组 ， 还 删除 > 的 模式 。 
一 旦 7 被 去 掉 ， 除 非 用 create table 命令 重建 "， 否 则 没有 元 组 可 以 插入 到 7 中。 
我 们 使 用 alter table 命令 为 已 有 关系 增加 属性 。 关 系 中 的 所 有 元 组 在 新 属性 上 的 取 值 将 被 设 为 
null, alter table 命令 的 格式 为 : 
alter table r add A D; 
其 中 + 是 现 有 关系 的 名 字 ，4 是 待 添加 属性 的 名 字 , 刀 是 待 添加 属性 的 域 。 我 们 可 以 通过 命令 
alter table r drop 4; 
从 关系 中 去 掉 属性 。 其 中 7+ 是 现 有 关系 的 名 字 ，4 是 关系 的 一 个 属性 的 名 字 。 很 多 数据 库 系统 并 不 支持 
去 掉 属 性 ， 尽 管 它 们 允许 去 掉 整 个 表 。 


3.3 SQL 查询 的 基本 结构 
SQL 查询 的 基本 结构 由 三 个 子 句 构成 : seleet from 和 where。 查 询 的 输入 是 在 from 子 句 中 列 出 








的 关系 ， 在 这 些 关 系 上 进行 where 和 select 子 句 中 指定 的 运算 ,然后 产 name 

生 一 个 关系 作为 结果 。 我 们 通过 例子 介绍 SQL 的 语法 ， 后面 再 描述 SQL Srinivasan | 

查询 的 通用 结构 。 i: 

3.9.1 单 关系 查询 et 
我 们 考虑 使 用 大 学 数据 库 例子 的 一 个 简单 查询 :“ 找 出 所 有 教师 的 Gold 

名 字 ”。 教 师 的 名 字 可 以 在 instructor 关系 中 找到 ， 因 此 我 们 把 该 关系 放 etd 

到 from 子 句 中 。 教 师 的 名 字 出 现在 name 属性 中 ， 因 此 我 们 把 它 放 到 Singh 

Crick 
select 子 句 中 。 Brandt 
select name Kim 











from instructor ; 图 3-2 “select name from 


其 结果 是 由 属性 名 为 name 的 单个 属性 构成 的 关系 。 如 果 instructor RU instructor” HAR 
图 2-1 所 示 ， 那么 上 述 查 询 的 结果 关系 如 图 3-2 所 示 。 
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现在 考虑 另 一 个 查询 :“ 找 出 所 有 教师 所 在 的 系 名 ”， 此 查询 可 写 为 : 


select dept_name 
from instructor ; 


因为 一 个 系 有 多 个 教师 ， 所 以 在 instructor 关系 中 ， 一 个 系 的 名 称 可 以 出 现 不 止 一 次 。 上 述 查询 的 结果 
是 一 个 包含 系 名 的 关系 ， 如 图 3-3 所 示 。 


在 关系 模型 的 形式 化 数学 定义 中 ， 关 系 是 一 个 集合 。 因 此 ， 重 复 的 deptname | 

元 组 不 会 出 现在 关系 中 。 在 实践 中 ， 去 除 重复 是 相当 费时 的 ， 所 以 SQL [ Comp. Sci. | 
允许 在 关系 以 及 SQL 表达 式 结果 中 出 现 重复 。 因 此 ， 在 上 述 SQL 查询 Finance 
中 ， 每 个 系 名 在 instructor 关系 的 元 组 中 每 出 现 一 次 ， 都 会 在 查询 结果 中 | Physics 
列 出 一 次 。 | Physice 

有 时 候 我 们 想 要 强行 删除 重复 ， 可 在 select 后 加 入 关键 词 distinct. | Comp. Sci. 
如 果 我 们 想 去 除 重复 ， 可 将 上 述 查询 重 写 为 : | History 

select distinct dept_name | Biology 

from instructor ; | Comp. Sci. 

| Elec. Eng. _ 


在 上 述 查询 的 结果 中 ,每 个 系 名 最 多 只 出 现 一 次 。 
SQL 允许 我 们 使 用 关键 词 al 来 显 式 指明 不 去 除 重复 : 


select all dept_name 
from instructor; 


既然 保留 重复 元 组 是 默认 的 ， 在 例子 中 我 们 将 不 再 使 用 al。 为 了 保证 在 我 们 例子 的 查询 结果 中 删除 重 
复元 组 ， 我 们 将 在 所 有 必要 的 地 方 使 用 distinct。 

select 子 句 还 可 带 含 有 + 、- 、*、/ 运 算 符 的 算术 表达 式 ， 运 算 对 象 可 以 是 常数 或 元 组 的 属性 。 
例如 ， 查询 


图 3-3 “select dept_name 
from instructor” 的 结果 


select JD, name, dept_name, salary” 1. 1 
from instructor ; 


返回 一 个 与 instructor 一 样 的 关系 ， 只 是 属性 salary 的 值 是 原来 的 1. 1 倍 。 这 显示 了 如 果 我 们 给 每 位 教 
师 增 长 10% 的 工资 的 结果 。 注 意 这 并 不 导致 对 instructor 关系 的 任何 改变 。 

SQL 还 提供 了 一 些 特殊 数据 类 型 ， 如 各 种 形式 的 日 期 类 型 ， 并 允许 一 些 作用 于 这 些 类 型 上 的 算术 
函数 。 我 们 在 4. 5. 1 节 进 一 步 讨论 这 个 问题 。 

where 子 句 允 许 我 们 只 选 出 那些 在 from 子 句 的 结果 关系 中 满足 特定 谓词 的 元 组 。 考 虑 查询 “ 找 出 
所 有 在 Computer Science 系 并 上 且 工资 超过 70 000 美元 的 教师 的 姓名 ”" ， 该 查询 用 SQL 可 以 写 为 ; 60 


select name 65 
from instructor 
where dept_name = ‘Comp. Sci.’ and salary > 70000; 


如 果 instructor 关系 如 图 2-1 所 示 ， 那 么 上 述 查询 的 结果 关系 如 图 3-4 所 示 。 





SQL 允许 在 where 子 句 中 使 用 逻辑 连词 and, or 和 not, iF His oo Tee 
词 的 运算 对 象 可 以 是 包含 比较 运算 符 <、<=、>、>=、= 和 <> iia | 
的 表达 式 。SQL 人 允许 我 们 使 用 比较 运算 符 来 比较 字符 串 、 算 术 表 达 | Brandt 
式 以 及 特殊 类 型 ， 如 日 期 类 型 。 图 3-4 “ 找 出 所 有 在 Computer 
在 本 章 的 后 面 ， 我 们 将 研究 where 子 句 谓 词 的 其 他 特征 。 Science 系 并 且 工 资 超过 70 000 
3.3.2 多 关系 查询 美元 的 教师 的 姓名 ”的 结果 
到 此 为 止 我 们 的 查询 示例 都 是 基于 单个 关系 的 。 通 常 查询 需要 从 多 个 关系 中 获取 信息 。 我 们 现在 
来 学 习 如 何 书写 这 样 的 查询 。 


作为 一 个 示例 ， 假 设 我 们 想 回 答 这 样 的 查询 :“ 找 出 所 有 教师 的 姓名 ， 以 及 他 们 所 在 系 的 名 称 和 系 
所 在 建筑 的 名 称 ”。 
考虑 instructor 关系 的 模式 ， 我 们 发 现 可 以 从 dept_name 属性 得 到 系 名 ,但 是 系 所 在 建筑 的 名 称 是 在 
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department 关系 的 building 属性 中 给 出 的 。 为 了 回答 查询 ，instructor 关系 中 的 每 个 元 组 必须 与 department 
关系 中 的 元 组 匹配 ， 后 者 在 dept_name 上 的 取 值 相配 于 instructor 元 组 在 dept_name 上 的 取 值 。 

为 了 在 SQL 中 回答 上 述 查询 ， 我 们 把 需要 访问 的 关系 都 列 在 from 子 句 中 ， 并 在 where 子 句 中 指 
定 匹 配 条 件 。 上 述 查 询 可 用 SQL 写 为 : 


select name, instructor. dept_name, building 
from instructor, department 
where instructor. dept_name = department. dept_name; 


如 果 instructor 和 department 关系 分 别 如 图 2-1 和 图 2-5 所 示 ， 那 么 此 查询 的 结果 关系 如 图 3-5 所 示 。 
注意 dept_name 属性 既 出 现在 instructor 关系 中 ， 也 出 name | dept.name | building 




















现在 department 中 ,关系 名 被 用 作 前 缀 (在 instructor. dept_ Srinivasan | Comp. Sci. | Taylor 
name 和 department. dept_name 中 ) 来 说 明 我 们 使 用 的 是 哪个 | | ~ | ste A 
属性 。 相 反 ’ 属性 name 和 building 只 出 现在 一 个 关系 中 ， Einstein | Physics | Watson 
罗 而 不 需要 把 关系 名 作为 前 级 。 a eee | Do 

这 种 命名 惯例 需要 出 现在 from 子 句 中 的 关系 具有 可 区 Katz Comp. Sci. | Taylor 
分 的 名 字 。 在 某 些 情况 下 这 样 的 要 求 会 引发 问题 ， 比 如 当 | Shen | inane | Painter 
需要 把 来 自 同 一 个 关系 的 两 个 不 同 元 组 的 信息 进行 组 合 的 Crick | Biology | Watson 
时 候 。 在 3.4.1 节 , 我 们 将 看 到 如 何 使 用 更 名 运算 来 避免 | Ke | mee | TY 





这 样 的 问题 。 na 
”现在 我 们 考虑 涉及 多 个 关系 的 SQL 查询 的 通用 形式 。 站 ee eine romnhe tate 
正如 我 们 前 面 已 经 看 到 的 ， 一 个 SQL 查询 可 以 包括 三 种 类 
型 的 子 句 : select $a], from FAJAI where 子 句 。 每 种 子 句 的 作用 如 下 : 
。 select 子 句 用 于 列 出 查询 结果 中 所 需要 的 属性 。 
© from 子 句 是 一 个 查询 求 值 中 需要 访问 的 关系 列表 。 
。 where 子 句 是 一 个 作用 在 from 子 句 中 关系 的 属性 上 的 谓词 。 
一 个 典型 的 SQL 查询 具有 如 下 形式 ， 
select A, , A,, = , A, 
from ri, Ta, , 7, 


where P; 
每 个 4, 代表 一 个 属性 ， 每 个 mr 代表 一 个 关系 。P 是 一 个 谓词 。 如 果 省 略 where Aj, Wikia) P 为 
66 | true。 
尽管 各 子 句 必须 以 select, from, where 的 次 序 写 出 ， 但 理解 查询 所 代表 运算 的 最 容易 的 方式 是 以 
运算 的 顺序 来 考察 各 子 句 : 首先 是 from， 然 后 是 where， 最 后 是 select ~ 。 
通过 from 子 句 定义 了 一 个 在 该 子 句 中 所 列 出 关系 上 的 笛 卡 儿 积 。 它 可 以 用 集合 理论 来 形式 化 地 定 
义 , 但 最 好 通过 下 面 的 迭代 过 程 来 理解 ， 此 过 程 可 为 from 子 句 的 结果 关系 产生 元 组 。 


for each 元 组 1 in 关系 7 
for each 元 组 t, in 关系 7， 


ne each 元 组 tin 关系 rs 
FE ty, ty, tty ta 连接 成 单个 元 组 上 
把 1 加 入 结果 关系 中 
此 结果 关系 具有 来 自 from 子 句 中 所 有 关系 的 所 有 属性 。 由 于 在 关系 7; Ar, 中 可 能 出 现 相同 的 属性 
名 ， 正 如 我 们 此 前 所 看 到 的 ,我 们 在 属性 名 前 加 上 关系 名 作为 前 级 ， 表 示 该 属性 来 自 于 哪个 关系 。 


日 ”实践 中 ，SQL 也 许 会 将 表达 式 转换 成 更 高 效 执行 的 等 价 形式 。 我 们 将 把 效率 问题 推迟 到 第 12 章 和 第 13 章 中 探讨 
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例如 ， 关 系 instructor 和 teaches 的 笛 卡 儿 积 的 关系 模式 为 : 


(instructor. ID, instructor. name, instructor. dept_name, instructor. salary 
teaches. ID , teaches. course_id, teaches. sec_id, teaches. semester , teaches. year ) 


有 了 这 个 模式 ， 我 们 可 以 区 分 出 instructor. ID 和 teaches. ID。 对 于 那些 只 出 现在 单个 模式 中 的 属性 ， 
我 们 通常 去 掉 关系 名 前 级 。 这 种 简化 并 不 会 造成 任何 混淆 。 这 样 我 们 可 以 把 关系 模式 写 为 : 


(instructor. ID, name, dept_name, salary 
teaches. ID, course_id, sec_id, semester, year) 


为 举例 说 明 ， 考 察 图 2-1 中 的 instructor 关系 和 图 2-7 中 的 teaches 关系 。 它 们 的 笛 卡 儿 积 如 图 3-6 所 
示 ， 图 中 只 包括 了 构成 笛 卡 儿 积 结果 的 一 部 分 元 组 。“ 














inst.ID | name [dept -name | salary | teaches.1D | courseid | sec-id semester | year | 
10101 [Srinivasan [CompS 165000] 10101 |cs-101 | 1 [Fan 2009 
10101 | Srinivasan |CompSci. {65000} 10101 | Cs-315 | 1 |Spring | 2010 
10101 | Srinivasan |CompSei. |65000| 10101 | CS-347 1 | Fall 2009 | 
10101 | Srinivasan |CompSei |65000| 12121 |FIN-201 | 1 |Spring | 2010 
10101 | Srinivasan |CompSci (65000) 15151 |MU-199 | 1 |Spring | 2010) 
10101 | Srinivasan |CompSei. |65000| 22222 |PHY-101) 1 | Fall 2009 
12121 |Wu Finance = |90000} 10101 | CS-101 1 ‘| Fall 2009 | 
12121 | Wu Finance {90000} 10101 | CS-315 1 |Spring | 2010} 
12121 | Wu Finance {90000} 10101 | CS-347 1 | Fall 2009 | 
12121 | Wu Finance |90000| 12121 |FIN-201 | 1 [Spring | 2010 
12121 | Wu Finance {90000} 15151 |MU-199 | 1 |Spring | 2010 
12121 |Wu Finance {90000} 22222 |PHY-101) 1 | Fall 2009 
15151 |Mozart |Music 40000} 10101 |cs-101 1 | Fall 2009 
15151 |Mozart =| Music 40000} 10101 |CS-315 1 |Spring | 2010 
15151 |Mozart =| Music 40000} 10101 | CS-347 1 ‘| Fall 2009 
15151 | Mozart =| Music 40000} 12121 |FIN-201 | 1 |Spring | 2010 
15151 | Mozart Music 40000| 15151 |MU-199 | 1 /Spring | 2010 
15151 | Mozart =| Music 40000 | 22222 |PHY-101) 1 | Fall 2009 
22222 | Einstein |Physics |95000! 10101 |Cs-101 1 | Fall 2009 
22222 | Einstein |Physics |95000! 10101 |CS-315 | 1 |Spring | 2010 
22222 | Einstein |Physics (95000! 10101 | CS-347 1 | Fall 2009 
22222 | Einstein |Physics |95000| 12121 |FIN-201 | 1 [Spring | 2010) 
22222 | Einstein |Physics |95000| 15151 |MU-199 | 1 | Spring 2010 | 
22222 | Einstein |Physics |95000| 22222 |PHY-101 | 1 Fall 2009 | 
¥ hs 



































fA 3-6 instructor 关系 和 teaches 关系 的 笛 卡 儿 积 


通过 笛 卡 儿 积 把 来 自 instructor 和 teaches 中 相互 没有 关联 的 元 组 组 合 起 来 。instructor 中 的 每 个 元 组 
和 teaches 中 的 所 有 元 组 都 要 进行 组 合 ， 即 使 是 那些 代表 不 同 教师 的 元 组 。 其 结果 可 能 是 一 个 非常 庞大 
的 关系 ,创建 这 样 的 笛 卡 儿 积 通常 是 没有 意义 的 。 

EZ, where 子 句 中 的 谓词 用 来 限制 笛 卡 儿 积 所 建立 的 组 合 ， 只 留 下 那些 对 所 需 答案 有 意义 的 组 
合 。 我 们 希望 有 个 涉及 instructor 和 teaches 的 查询 ， 它 把 instructor 中 的 特定 元 组 上 只 与 teaches 中 表示 跟 1 
相同 教师 的 元 组 进行 组 合 。 也 就 是 说 ， 我 们 希望 把 eaches 元 组 只 和 具有 相同 ID 值 的 instructor 元 组 进行 
匹配 。 下 面 的 SQL 查询 满足 这 个 条 件 ， 从 这 些 匹 配 元 组 中 输出 教师 名 和 课程 标识 。 


select name, course_id 
from instructor , teaches 
where instructor. ID = teaches. ID; 





CO ”注意 为 了 减 小 图 3-6 中 表 的 宽度 ， 我们 把 instructor. ID 更 名 为 inst. ID. 


Ed 
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注意 上 述 查 询 只 输出 讲授 了 课程 的 教师 ， 不 会 输出 那些 没有 讲授 任何 课程 的 教师 。 如 果 我 们 希望 
输出 那样 的 元 组 ， 可 以 使 用 一 种 被 称 作 外 连接 的 运算 ， 外 连接 将 在 4. 1. 2 节 讲 述 。 

如 果 instructor 关系 如 图 2-1 所 示 ，teaches 关系 如 图 2-7 所 示 ， 那 么 前 述 查 询 的 结果 关系 如 图 3-7 所 
示 。 注 意 教师 Gold, Califieri 和 Singh， 由 于 他 们 没有 讲授 任何 课程 ， 就 不 出 现在 上 述 结果 中 。 




















如 果 我 们 只 希望 找 出 Computer Science 系 的 教师 名 和 课程 EA ry Sparse 
标识 ， 我 们 可 以 在 where 子 句 中 增加 另外 的 谓词 ， 如 下 所 示 : | Srinivasan | CS-101 
select name, course_id Snnivasan — 
from instructor, teaches =< aban s 
where instructor. ID = teaches. ID and instructor. dept_name = ’ Comp. Sci.’ ; Mozart MU-199 | 
注意 既然 dept_name 属性 只 出 现在 instructor 关系 中 ,我们 Ere Be 
在 上 述 查 询 中 可 以 只 使 用 dept __ name 来 替代 instructor. dept _ Katz CS-101 | 
Katz CS-319 
ers Crick BIO-101 | 
通常 说 来 ， 一 个 SQL 查询 的 含义 可 以 理解 如 下 : 上 
rang S-19 
1. 为 from 子 句 中 列 出 的 关系 产生 笛 卡 儿 积 。 Brandt CS-190 
2. 在 步骤 1 的 结果 上 应 用 where 子 句 中 指定 的 谓词 。 e se 
3. 对 于 步骤 2 结果 中 的 每 个 元 组 ， 输 出 select 子 句 中 指定 ee 
P PA een es 
的 属性 (或 表达 式 的 结果 ) 。 图 3-7 “对 于 大 学 中 所 有 讲授 课程 


上 述 步 对 的 顺序 有 助 于 明白 一 个 SQL 查询 的 结果 应 该 是 什 ee a en ae ne 
么 样 的 ， 而 不 是 这 个 结果 是 怎样 被 执行 的 。 在 SQL 的 实际 实现 Ee 
中 不 会 执行 这 种 形式 的 查询 ， 它 会 通过 ( 尽 可 能 ) 只 产生 满足 where 子 句 谓词 的 笛 卡 儿 积 元 素来 进行 优 
化 执行 。 我 们 在 后 面 第 12 章 和 第 13 章 学 习 那 样 的 实现 技术 

当 书 写 查 询 时 ， 需 要 小 心 设置 合适 的 where 子 句 条 件 。 如 果 在 前 述 SQL 查询 中 省 略 where 子 句 条 件 ， 
就 会 输出 笛 卡 儿 积 ， 那 是 一 个 巨大 的 关系 。 对 于 图 2-1 中 的 instructor 样本 关系 和 图 2-7 中 的 teaches 样本 关 
系 ， 它 们 的 笛 卡 儿 积 具有 12 x13 = 156 个 元 组 ， 比 我 们 在 书 中 能 显示 的 还 要 多 ! 在 更 糟 的 情况 下 ， 假 设 我 们 
有 比 图 中 所 示 样 本 关系 更 现实 的 教师 数量 ， 比 如 200 个 教师 。 假 使 每 位 教师 讲授 3 门 课程 ， 那 么 我 们 在 
teaches 关系 中 就 有 600 个 元 组 。 这 样 上 述 和 迭代 过 程 会 产生 出 200 x 600 = 120 000 个 元 组 作为 结果 
3.3.3 自然 连接 

在 我 们 的 查询 示例 中 ,需要 从 instructor il teaches 表 中 组 合 信息 ， 匹 配 条 件 是 需要 instructor. ID 等 于 
teaches. ID。 这 是 在 两 个 关系 中 具有 相同 名 称 的 所 有 属性 。 实 际 上 这 是 一 种 通用 的 情况 ， 也 就 是 说 ， 
from 子 句 中 的 匹配 条 件 在 最 通常 的 情况 下 需要 在 所 有 匹配 名 称 的 属性 上 相等 。 

为 了 在 这 种 通用 情况 下 简化 SQL 编程 者 的 工作 ，SQL 支持 一 种 被 称 作 自然 连接 的 运算 ， 下 面 我 们 
就 来 讨论 这 种 运算 。 事 实 上 SQL 还 支持 几 种 另外 的 方式 使 得 来 自 两 个 或 多 个 关系 的 信息 可 以 被 连接 
(join) 起 来 。 我 们 已 经 见 过 怎样 利用 笛 卡 儿 积 和 where 子 句 谓词 来 连接 来 自 多 个 关系 的 信息 。 连 接 来 
自 多 个 关系 信息 的 其 他 方式 在 4. 1 节 介 绍 。 

自然 连接 ( natural join) 运算 作用 于 两 个 关系 ， 并 产生 一 个 关系 作为 结果 。 不 同 于 两 个 关系 上 的 笛 
卡 儿 积 ， 它 将 第 一 个 关系 的 每 个 元 组 与 第 二 个 关系 的 所 有 元 组 都 进行 连接 ;自然 连接 只 考虑 那些 在 两 
个 关系 模式 中 都 出 现 的 属性 上 取 值 相同 的 元 组 对 。 因 此 ， 回 到 instructor 和 teaches 关系 的 例子 上 ， 
instructor 和 teaches 的 自然 连接 计算 中 只 考虑 这 样 的 元 组 对 : 来 自 instructor 的 元 组 和 来 自 teaches 的 元 组 
在 共同 属性 ID 上 的 取 值 相同 。 

结果 关系 如 图 3-8 所 示 ， 只 有 13 个 元 组 ， 它 们 给 出 了 关于 每 个 教师 以 及 该 教师 实际 讲授 的 课程 的 
信息 。 注 意 我 们 并 没有 重复 列 出 那些 在 两 个 关系 模式 中 都 出 现 的 属性 ， 这 样 的 属性 只 出 现 一 次 。 还 要 
注意 列 出 属性 的 顺序 : 先是 两 个 关系 模式 中 的 共同 属性 ， 然 后 是 那些 只 出 现在 第 一 个 关系 模式 中 的 属 
性 ， 最 后 是 那些 只 出 现在 第 二 个 关系 模式 中 的 属性 。 

考虑 查询 “对 于 大 学 中 所 有 讲授 课程 的 教师 ， 找 出 他 们 的 姓名 以 及 所 讲述 的 所 有 课程 标识 "， 此 前 
我 们 曾 把 该 查询 写 为 : 
































图 3-8 instructor 关系 和 teaches 关系 的 自然 连接 


select name, course_id 
from instructor, teaches 


where instructor. ID = teaches. ID; 


该 查询 可 以 用 SQL 的 自然 连接 运算 更 简洁 地 写作 : 


以 上 两 个 查询 产生 相同 的 结果 。 


正如 我 们 此 前 所 见 ， 自 然 连接 运算 的 结果 是 关系 。 从 概念 上 讲 ，from 子 句 中 的 “instructor natural 
join eaches "表达 式 可 以 替换 成 执行 该 自然 连接 后 所 得 到 的 关系 。 “然后 在 这 个 关系 上 执行 where 和 


select name, course_id 
from instructor natural join teaches; 


select 子 句 ， 就 如 我 们 在 前 面 3. 3.2 节 所 看 到 的 那样 。 
在 一 个 SQL 查询 的 from 子 句 中 ， 可 以 用 自然 连接 将 多 个 关系 结合 在 一 起 ， 如 下 所 示 : 
select A,, A,, ==, A, 

from r, natural join r, natural join ---natural join r, 


where P; 


更 为 一 般 地 ，from 子 句 可 以 为 如 下 形式 : 


from E,, Eb,, -…, E, 


EREA E, 可 以 是 单个 关系 或 一 个 包含 自然 连接 的 表达 式 。 例 如 ， 假 设 我 们 要 回答 查询 “ 列 出 教师 的 


名 字 以 及 他 们 所 讲授 课程 的 名 称 " 。 此 查询 可 以 用 SQL 写 为 : 


关系 。 


select name , title 


from instructor natural join teaches, course 
where teaches. course_id = course. course_id; 


先 计算 instructor 和 teaches 的 自然 连接 ， 正 如 我 们 此 前 所 见 ， 再 计算 该 结果 和 course 的 笛 卡 儿 积 ，where 
子 句 从 这 个 结果 中 提取 出 这 样 的 元 组 : 来 自 连接 结果 的 课程 标识 与 来 自 course 关系 的 课程 标识 相 匹配 。 
注意 where 子 句 中 的 teaches. course_id 表示 自然 连接 结果 中 的 course_id 域 ， 因 为 该 域 最 终 来 自 teaches 


相反 ， 下 面 的 SQL 查询 不 会 计算 出 相同 的 结果 : 


select name, title 
from instructor natural join teaches natural join course ; 


为 了 说 明 原 因 ， 注 意 instructor 和 teaches 的 自然 连接 包括 属性 (1D, name, dept_name, salary, course_id, 
sec_id) ， 而 course 关系 包含 的 属性 是 (course_id，, title, dept_name, credits)。 作 为 这 二 者 自然 连接 的 结果 ， 





© 其 结果 是 不 可 能 用 包含 了 原始 关系 名 的 属性 名 来 指 代 自 然 连 接 结 果 中 的 属性 ， 例 如 instructor. name 或 


ID | name dept-name | salary | courseid | secid | semester | year 
10101 | Srinivasan | Comp. Sci. 65000 | Cs-101 1 Fall | 2009 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-315 1 Spring | 2010 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-347 1 Fall | 2009 
12121 | Wu Finance 90000 | FIN-201 1 | Spring | 2010 
15151 | Mozart Music 40000 | MU-199 T Spring | 2010 
22222 | Einstein Physics 95000 | PHY-101 | 1 Fall | 2009 
32343 | El Said | History 60000 | HIS-351 | 1 Spring | 2010 
45565 | Katz Comp. Sci. | 75000 | CS-101 | 1 Spring | 2010 

| 45565 | Katz Comp. Sci. | 75000 | cs-319 | 1 Spring | 2010 
76766 | Crick Biology | 72000 | BIO-101 | 1 | Summer | 2009 
76766 | Crick Biology 72000 | BIO-301 | 1 Summer | 2010 

| 83821 | Brandt Comp. Sci. | 92000 | CS-190 1 Spring | 2009 
83821 | Brandt Comp. Sci. | 92000 | CS-190 2 | Spring | 2009 
83821 | Brandt | Comp. Sci. | 92000 | CS-319 2 Spring | 2010 
98345 | Kim | Elec. Eng. | 80000 | FE-181 | 1 | Spring | 2009 


teaches. course_id， 但 是 我 们 可 以 使 用 诸如 name 和 course_id 那样 的 属性 名 ， 而 不 带 关系 名 。 
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需要 来 自 这 两 个 输入 的 元 组 既 要 在 属性 dept_name 上 取 值 相同 ， 还 要 在 course_id 上 取 值 相同 。 该 查询 将 
忽略 所 有 这 样 的 (教师 姓名 ， 课 程 名 称 ) 对: 其 中 教师 所 讲授 的 课程 不 是 他 所 在 系 的 课程 。 而 前 一 个 查 
询 会 正确 输出 这 样 的 对 。 

为 了 发 扬 自然 连接 的 优点 ， 同 时 避免 不 必要 的 相等 属性 带 来 的 危险 ，5SQL 提供 了 一 种 自然 连接 的 
构造 形式 ， 人 允许 用 户 来 指定 需要 哪些 列 相等 。 下 面 的 查询 说 明了 这 个 特征 : 


select name, title 
from ( instructor natural join teaches) join course using (course_id); 


join---using 运算 中 需要 给 定 一 个 属性 名 列表 ， 其 两 个 输入 中 都 必须 具有 指定 名 称 的 属性 。 考 虑 运算 
join r, using(A,, 4,)， 它 与 r, 和 7, 的 自然 连接 类 似 ， 只 不 过 在 4. 4, =t. A HH t. A =t. A, 成 立 的 前 
EF, Ar, 的 元 组 t MRKA r 的 元 组 t, 就 能 匹配 ， 即 使 r, Mr, 都 具有 名 为 4; 的 属性 ， 也 不 需要 
hh 

这 样 ， 在 前 述 SQL 查询 中 ， 连 接 构造 允许 teaches. dept_name 和 course. dept_name 是 不 同 的 ， 该 SQL 
查询 给 出 了 正确 的 答案 。 


3.4 附加 的 基本 运算 

SQL 中 还 支持 几 种 附加 的 基本 运算 。 
3. 4. 1 更 名 运算 

重新 考察 我 们 此 前 使 用 过 的 查询 : 


select name, course_id 
from instructor, teaches 
where instructor. ID = teaches. ID; 


此 查询 的 结果 是 一 个 具有 下 列 属性 的 关系 : 


name, course_id 


结果 中 的 属性 名 来 自 from 子 句 中 关系 的 属性 名 。 

但 我 们 不 能 总 是 用 这 个 方法 派生 名 字 ， 其 原因 有 几 点 : 首先 ，from 子 句 的 两 个 关系 中 可 能 存在 同 
名 属性 ， 在 这 种 情况 下 ， 结 果 中 就 会 出 现 重复 的 属性 名 ; 其 次 ， 如 果 我 们 在 select 子 句 中 使 用 算术 表 
达 式 ， 那 么 结果 属性 就 没有 名 字 ; 再 次 ， 尽 管 如 上 例 所 示 ， 属 性 名 可 以 从 基 关 系 导 出 ， 但 我 们 也 许 想 
要 改变 结果 中 的 属性 名 字 。 因 此 ，SQL 提供 了 一 个 重 命 名 结果 关系 中 属性 的 方法 。 即 使 用 如 下 形式 的 
as 子 句 : 


old- name as new-name 


as 子 句 既 可 出 现在 select 子 句 中 ， 也 可 出 现在 from 子 句 中 。” 
例如 ， 如 果 我 们 想 用 名 字 instructor_name 来 代替 属性 名 name， 我 们 可 以 重 写 上 述 查 询 如 下 : 


select name as instructor_name, course_id 
from instructor, teaches 
where instructor. ID = teaches. ID; 


as 子 句 在 重 命 名 关系 时 特别 有 用 。 重 命名 关系 的 一 个 原因 是 把 一 个 长 的 关系 名 替换 成 短 的 ， 这 样 
在 查询 的 其 他 地 方 使 用 起 来 就 更 为 方便 。 为 了 说 明 这 一 点 ， 我 们 重 写 查 询 “ 对 于 大 学 中 所 有 讲授 课程 的 
教师 ， 找 出 他 们 的 姓名 以 及 所 讲述 的 所 有 课程 标识 ”: 


select T. name, S. course_id 
from instructor as T, teaches as S 
where T. ID = S. 1D; 





O SQL 的 早期 版 本 不 包括 关键 字 as。 其 结果 是 在 一 些 SQL 实现 中 ， 特 别 是 Oracle 中 ， 不 允许 在 from 子 句 中 出 现 关 
键 字 as, {E Oracle 的 from 子 句 中 , “old-name as new-name” 被 写作 “old-name new-name”。 在 select 子 句 中 允许 使 
用 关键 字 as 来 重 命名 属性 ， 但 它 是 可 选项 ， 在 Oracle 中 可 以 省 略 。 
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重 命名 关系 的 另 一 个 原因 是 为 了 适用 于 需要 比较 同一 个 关系 中 的 元 组 的 情况 。 为 此 我 们 需要 把 一 
个 关系 跟 它 自 身 进 行 笛 卡 儿 积 运算 ， 如 果 不 重 命名 的 话 ， 就 不 可 能 把 一 个 元 组 与 其 他 元 组 区 分 开 来 。 
假设 我 们 希望 写 出 查询 :“ 找 出 满足 下 面条 件 的 所 有 教师 的 姓名 ， 他 们 的 工资 至 少 比 Biology 系 某 一 个 
教师 的 工资 要 高 ”， 我 们 可 以 写 出 这 样 的 SQL 表达 式 : 


select distinct T. name 
from instructor as T, instructor as S 
where T. salary > S. salary and S. dept_name = ’ Biology’ ; 


注意 我 们 不 能 使 用 instructor. salary 这 样 的 写法 ， 因 为 这 样 并 不 清楚 到 底 是 希望 引用 哪 一 个 instructor。 

在 上 述 查 询 中 , 7 和 5S 可 以 被 认为 是 instructor 关系 的 两 个 拷贝 ， 但 更 准确 地 说 是 被 声明 为 instructor 
关系 的 别名 ， 也 就 是 另外 的 名 字 。 像 了 和 3$ 那样 被 用 来 重 命名 关系 的 标识 符 在 SQL 标准 中 被 称 作 相关 
名 称 (correlation name) ， 但 通常 也 被 称 作 表 别名 (table alias) ， 或 者 相关 变量 (correlation variable) ， 或 者 
元 组 变量 (tuple variable) 。 

注意 用 文字 表达 上 述 查 询 更 好 的 方式 是 :“ 找 出 满足 下 面条 件 的 所 有 教师 的 姓名 ， 他们 比 Biology 
系 教师 的 最 低 工资 要 高 "。 我 们 早先 的 表述 更 符合 我 们 所 写 的 SQL, 但 后 面 的 表述 更 直观 ， 事实 上 它 可 
以 直接 用 SQL 来 表达 ， 正 如 我 们 将 在 3. 8. 2 节 看 到 的 那样 。 

3.4.2 字符 串 运 算 

SQL 使 用 一 对 单 引号 来 标示 字符 串 ， 例 如 “Computer’ 。 如 果 单 引号 是 字符 串 的 组 成 部 分 ， 那 就 用 
两 个 单 引号 字符 来 表示 ， 如 字符 串 “it's right” 可 表示 为 "it's right”. 

在 SQL 标准 中 ,字符 串 上 的 相等 运算 是 大 小 写 敏感 的 ， 所 以 表达 式 “'comp. sci.’ = ‘Comp. Sci. ”的 
结果 是 假 。 然 而 一 些 数 据 库 系统 ， 如 MySQL 和 SQL Server， 在 匹配 字符 串 时 并 不 区 分 大 小 写 ， 所 以 在 
这 些 数 据 库 中 ”'comp. sci. ' = 'Comp. Sci. ”的 结果 可 能 是 真 。 然 而 这 种 默认 方式 是 可 以 在 数据 库 级 或 特 
定 属性 级 被 修改 的 。 

SQL 还 允许 在 字符 串 上 有 多 种 函数 ， 例 如 串联 (使 用 ”| ” ) 、 提 取 子 串 、 计 算 字 符 串 长 度 、 大 小 写 
转换 (用 upper(s) 将 字符 串 s 转换 为 大 写 或 用 lower(s) 将 字符 串 ; 转换 为 小 写 ) 、 去 掉 字 符 串 后 面 的 空 
格 ( 使 用 trim(s*) ) ， 等 等 。 不 同 数据 库 系 统 所 提供 的 字符 串 郴 数 集 是 不 同 的 ， 请 参阅 你 的 数据 库 系 统 
手册 来 获得 它 所 支持 的 实际 字符 串 函 数 的 详细 信息 。 

在 字符 串 上 可 以 使 用 like 操作 符 来 实现 模式 匹配 。 我 们 使 用 两 个 特殊 的 字符 来 描述 模式 : 

。 百 分 号 (多 ) : 匹配 任意 子 串 。 

。 下 划 线 (_) : 匹配 任意 一 个 字符 。 
模式 是 大 小 写 敏感 的 ， 也 就 是 说 ， 大 写字 符 与 小 写字 符 不 匹配 ， 反 之 亦 然 。 为 了 说 明 模 式 匹 配 ， 考 虑 
下 列 例子 : 

© “Intro% "匹配 任何 以 "Intro "打头 的 字符 串 。 

e ‘% Comp% "匹配 任何 包含 “Comp” 子 串 的 字符 串 ， 例 如 “Intro.to Computer Science’ ”和 

‘Computational Biology’ 。 

e “匹配 只 含 三 个 字符 的 字符 串 。 

e“___% 匹配 至 少 含 三 个 字符 的 字符 串 。 

在 SQL 中 用 比较 运算 符 like 来 表达 模式 。 考 虑 查询 ” 找 出 所 在 建筑 名 称 中 包含 子 串 "Watson 的 所 
有 系 名 ”， 该 查询 的 写法 如 下 : 


select dept_name 
from department 
where building like ' % Watson% ’ ; 


为 使 模式 中 能 够 包含 特殊 模式 的 字符 ( 即 % 和 _) ，SQL 允许 定义 转 义 字符 。 转 义 字符 直接 放 在 特殊 字 
符 的 前 面 ， 表 示 该 特殊 字符 被 当成 普通 字符 。 我 们 在 like 比较 运算 中 使 用 escape 关键 词 来 定义 转 义 字 
符 。 为 了 说 明 这 一 用 法 ,考虑 以 下 模式 ， 它 使 用 反 斜 线 (\ ) 作为 转 义 字符 : 

e like ‘ab\%cd%’ escape ‘\ ”匹配 所 有 以 “ab% cd" 开 头 的 字符 串 。 


H 
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e like ‘ab\ \cd% ”escape“\ ”匹配 所 有 以 “ab\ cd" 开 头 的 字符 串 。 

SQL 允许 使 用 not like 比较 运算 符 搜寻 不 匹配 项 。 一 些 数据 库 还 提供 like 运算 的 变 体 ， 不 区 分 大 小 
3 

在 SQL:1999 中 还 提供 similar to 操作 ， 它 具备 比 like 运算 更 强大 的 模式 匹配 能 力 。 它 的 模式 定义 
语法 类 似 于 UNIX 中 的 正则 表达 式 。 
3.4.3 select 子 句 中 的 属性 说 明 

ES“ * "可 以 用 在 select 子 句 中 表示 “所 有 的 属性 "， 因 而 ， 如 下 查询 的 select 子 句 中 使 用 
instructor. 


select instructor. ~ 
from instructor, teaches 
where instructor. ID = teaches. ID; 


表示 instructor 中 的 所 有 属性 都 被 选中 。 形 如 select ` 的 select 子 句 表示 from 子 句 结果 关系 的 所 有 属性 都 
被 选中 3 
3.4.4 排列 元 组 的 显示 次 序 
SQL 为 用 户 提 供 了 一 些 对 关系 中 元 组 显示 次 序 的 控制 。order by 子 句 就 可 以 让 查询 结果 中 元 组 按 
排列 顺序 显示 。 为 了 按 字母 顺序 列 出 在 Physics 系 的 所 有 教师 ， 我 们 可 以 这 样 写 : 
select name 
from instructor 
where dept_name = ’ Physics’ 
order by name; 
order by 子 句 默认 使 用 升序 。 要 说 明 排 序 顺序 ， 我 们 可 以 用 dese 表示 降序 ， 或 者 用 ase 表示 升序 。 此 
外 ,排序 可 在 多 个 属性 上 进行 。 假 设 我 们 希望 按 salary 的 降序 列 出 整个 instructor RA. 如果 有 几 位 教 
师 的 工资 相同 ， 就 将 它们 按 姓名 升序 排列 。 我 们 用 SQL 将 该 查询 表示 如 下 : 


select” 
from instructor 
order by salary desc, name ast; 


3.4.5 where 子 句 谓词 

为 了 简化 where J, SQL 提供 between 比较 运算 符 来 说 明 一 个 值 是 小 于 或 等 于 某 个 值 ， 同 时 大 
于 或 等 于 另 一 个 值 的 。 如 果 我 们 想 找 出 工资 在 90 000 美元 和 100 000 美元 之 间 的 教师 的 姓名 ， 我 们 可 
以 使 用 between 比较 运算 符 ， 如 下 所 示 : 


select name 
from instructor 
where salary between 90000 and 100000 ; 


它 可 以 取代 
select name 


from instructor 
where salary <= 100000 and salary >=90000; 


类 似 地 ， 我 们 还 可 以 使 用 not between 比较 运算 符 。 

我 们 可 以 扩展 前 面 看 到 过 的 查找 教师 名 以 及 课程 标识 的 查询 ,但 考虑 更 复杂 的 情况 ， 要 求教 师 是 
生物 系 的 :“ 查 找 Biology 系 讲授 了 课程 的 所 有 教师 的 姓名 和 他 们 所 讲授 的 课程 ”"。 为 了 写 出 这 样 的 查 
i, 我 们 可 以 在 前 面 看 到 过 的 两 个 SQL 查询 的 任意 一 个 的 基础 上 进行 修改 ， 在 where 子 句 中 增加 一 个 
额外 的 条 件 。 我 们 下 面 给 出 修改 后 的 不 使 用 自然 连接 的 SQL 查询 形式 : 


select name, course_id 
from instructor, teaches 
where instructor. ID = teaches. ID and dept_name = ’ Biology’ ; 


SQL 人 允许 我 们 用 记号 (w , v,，…, v,) 来 表示 一 个 分 量 值 分 别 为 v, ,vw,，…, 六 的 n 维 元 组 ,在 元 组 
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上 可 以 运用 比较 运算 符 ， 按 字典 顺序 进行 比较 运算 。 例 如 ，(w, a) <= (bi, b) Æa <= b Ba, <= 


b 时 为 真 。 类 似 地 ， 当 两 个 元 组 在 所 有 属性 上 相等 时 ， 它 们 是 相等 的 。 这 样 ， 前 述 查 询 可 被 重 写 为 如 
FÉR: ° 


[78 | 





select name, course_id 
from instructor, teaches 


where (instructor. ID, dept_name) = (teaches. ID, * Biology’ ) ; 
a= 
3. 5 合 运算 


SQL 作用 在 关系 上 的 union, intersect 和 except 运算 对 应 于 数学 集合 论 中 的 U、m 和 -= 运算。 我 们 
现在 来 构造 包含 在 两 个 集合 上 使 用 union intersect 和 except 运算 的 查询 。 
© 在 2009 年 秋季 学 期 开设 的 所 有 课程 的 集合 : 
select course_id 
from section 
where semester = “Fall” and year = 2009; 
© 在 2010 年 春季 学 期 开设 的 所 有 课程 的 集合 : 
select course_id 
from section 
where semester = 'Spring” and year = 2010; 
在 我 们 后 面 的 讨论 中 ,将 用 cl 和 c2 分 别 指 代 包 含 以 上 查询 结果 的 两 个 关系 ， 并 在 图 3-9 和 图 3-10 
中 给 出 作用 在 如 图 2-6 所 示 的 section 关系 上 的 查询 结果 。 注 意 c2 包含 两 个 对 应 于 course_id 为 CS-319 的 
元 组 ， 因 为 该 课程 有 两 个 课程 段 在 2010 年 春季 开课 。 


“courseid | 
Cs-101 | 
CS-315 
= CS-319 
| courseid ] CS-319 
[ cs101 | FIN-201 
| CS-347 HIS-351 | 
_PHY-101 | 
图 3-9 cl 关系 ， 列 出 2009 年 图 3-10 2 关系 ， 列 出 2010 年 
秋季 开设 的 课程 春季 开设 的 课程 


3. 5.1 并 运算 


为 了 找 出 在 2009 年 秋季 开课 ， 或 者 在 2010 年 春季 开课 或 两 个 学 期 都 开课 的 所 有 课程 ， 我 们 可 写 
查询 语句 : > 


( select course_id 





courseid 
from section | courseid | 
| cs-101 | 
where semester = "Fall’ and year = 2009) rox 
| CS-315 
imion cs-319 | 
( select course_id CS-347 
from section FIN-201 
where semester = * Spring’ and year = 2010) ; HIS-351 
0 = k . 区 < MU-199 
与 select 子 句 不 同 ，union 运算 自动 去 除 重复 。 这 样 ， 在 如 图 2-6 所 示 的 section 


PHY-101 | 
关系 中 ，2010 年 春季 开设 CS-319 的 两 个 课程 段 ，CS-101 在 2009 年 秋季 和 2010 u * gems Sy 
年 秋季 学 期 各 开设 一 个 课程 段 ，CS-101 和 CS-319 在 结果 中 只 出 现 一 次 ， 如 图 的 结果 

3-11 所 示 。 





名 尽管 这 是 SQL-92 标准 的 一 部 分 ， 但 某 些 SQL 实现 中 可 能 不 支持 这 种 语法 ， 
© 我 们 在 每 条 select-from- where 语句 上 使 用 的 括号 是 可 省 略 的 ， 但 易于 阅读 。 
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如 果 我 们 想 保留 所 有 重复 ， 就 必须 用 union all 代替 union; 

( select course_id 
from section 
where semester = ’ Fall’ and year = 2009) 
union all 

(select course_id 
from section 
where semester = ° Spring’ and year = 2010) ; 


在 结果 中 的 重复 元 组 数 等 于 在 cl 和 c2 中 出 现 的 重复 元 组 数 的 和 。 因 此 在 上 述 查 询 中 ， 每 个 CS- 
319 和 CS-101 都 将 被 列 出 两 次 。 作 为 一 个 更 深入 的 例子 ， 如 果 存 在 这 样 一 种 情况 : ECE-101 在 2009 年 
秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 那么 在 结果 中 将 有 6 个 ECE- 101 
元 组 。 
3.5.2 ize 

为 了 找 出 在 2009 年 秋季 和 2010 年 春季 同时 开课 的 所 有 课程 的 集合 ， 我 们 可 写 出 : 


(select course_id 

from section 

where semester = ’ Fall’ and year = 2009) 
intersect 
(select course_id 

from section 

where semester = ’ Spring’ and year = 2010) ; 


结果 关系 如 图 3-12 所 示 ， 它 只 包括 一 个 CS-101 元 组 。intersect 运算 自动 去 除 重复 。 例 如 ， 如 果 存 
在 这 样 的 情况 : ECE-101 在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 那 
么 在 结果 中 只 有 1 个 ECE-101 元 组 。 


如 果 我 们 想 保留 所 有 重复 ， 就 必须 用 intersect all 代替 intersect: | courseid 
(select course_id | cs-101 | 
from section p 
where semester = ’ Fall’ and year = 2009) 图 3-12 cl intersect c2 的 结 
intersect all 
(select course_id 
from section 
where semester = ’ Spring’ and year = 2010) ; 


在 结果 中 出 现 的 重复 元 组 数 等 于 在 cl 和 c2 中 出 现 的 重复 次 数 里 最 少 的 那个 。 例 如 ， 如 果 ECE-101 
在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 那 么 在 结果 中 有 2 个 ECE- 
101 元 组 。 
3.5.3 #128 
为 了 找 出 在 2009 年 秋季 学 期 开课 但 不 在 2010 年 春季 学 期 开课 的 所 有 课程 ， 我 们 可 写 出 : 
( select course_id 
from section 
where semester = ’ Fall’ and year = 2009) 
except 
(select course_id 


from section 
where semester = ’ Spring’ and year = 2010) ; 


该 查询 结果 如 图 3-13 所 示 。 注 意 这 正好 是 图 3-9 的 cl 关系 减 去 不 出 现 的 CS-101 元 组 。except 运算 “从 
其 第 一 个 输入 中 输出 所 有 不 出 现在 第 二 个 输入 中 的 元 组 ， 也 即 它 执行 集 差 操作 。 此 运算 在 执行 集 差 操 
作 之 前 自动 去 除 输入 中 的 重复 。 例 如 ， 如 果 ECE-101 在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 





O 某 些 SQL 实现 ,特别 是 Oracle， 使 用 关键 词 minus 代替 except. 
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春季 学 期 开设 2 个 课程 段 ， 那 么 在 except 运算 的 结果 中 将 没有 ECE-101 的 任何 拷贝 。 


如 果 我 们 想 保 留 所 有 重复 ， 就 必须 用 except all 代替 except: | courseid 
(select course_id | CS-347 
from section PHY-101 | 
where semester = ° Fall’ and year = 2009) 
except -_ K pan 图 3-13 cl except c2 的 结果 
( select course_id 
from section 
where semester = ’ Spring’ and year = 2010) ; 


结果 中 的 重复 元 组 数 等 于 在 cl 中 出 现 的 重复 元 组 数 减 去 在 c2 中 出 现 的 重复 元 组 数 (前 提 是 此 差 为 
正 )。 因 此 ， 如 果 ECE-101 在 2009 年 秋季 学 期 开设 4 个 课程 段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 
那么 在 结果 中 有 2 个 ECE-101 元 组 。 然 而 ， 如 果 ECE-101 在 2009 年 秋季 学 期 开设 2 个 或 更 少 的 课程 
段 ， 在 2010 年 春季 学 期 开设 2 个 课程 段 ， 那 么 在 结果 中 将 不 存在 ECE-101 元 组 。 


3.6 空 值 


空 值 给 关系 运算 带 来 了 特殊 的 问题 ， 包 括 算术 运算 、 比 较 运 算 和 集合 运算 

如 果 算 术 表 达 式 的 任 一 输入 为 空 ， 则 该 算术 表达 式 ( 涉 及 诸如 + 、- 、* 或 /) 结 果 为 空 。 例 如 ， 
如 果 查 询 中 有 一 个 表达 式 是 ~4+5， 并 且 对 于 某 个 特定 的 元 组 , ~ 4 为 空 ， 那 么 对 此 元 组 来 说 ， 该 表 
达 式 的 结果 也 为 空 。 

涉及 空 值 的 比较 问题 更 多 。 例如， 考虑 比较 运算 “1 < null*。 因 为 我 们 不 知道 空 值 代表 的 是 什么 ， 
所 以 说 上 述 比 较为 真 可 能 是 错误 的 。 但 是 说 上 述 比 较为 假 也 可 能 是 错误 的 ， 如 果 我 们 认为 比较 为 假 ， 
那么 “not (1 < null) "就 应 该 为 真 ， 但 这 是 没有 意义 的 。 因 而 SQL 将 涉及 空 值 的 任何 比较 运算 的 结果 
视 为 unknown( 既 不 是 谓词 is null， 也 不 是 is not nul， 我 们 在 本 节 的 后 面 介绍 这 两 个 谓词 ) 。 这 创建 了 
BR true Ail false 之 外 的 第 三 个 逻辑 值 。 

由 于 在 where 子 句 的 谓词 中 可 以 对 比较 结果 使 用 诸如 and, or 和 not 的 布尔 运算 ， 所 以 这 些 布尔 
运算 的 定义 也 被 扩展 到 可 以 处 理 unknown 值 。 

e and: true and unknown 的 结果 是 unknown, false and unknown 结果 是 false, unknown and unknown 

的 结果 是 unknown, 
© or; true or unknown 的 结果 是 true ，false or unknown 结果 是 unknown, unknown or unknown 结果 是 
unknown , 

e not: not unknown 的 结果 是 unknown. 

可 以 验证 ， 如 果 7. 4 为 空 ， 那么 “1 < 二 4"” 和 "not (1 < r. A)” REE unknown. 

如 果 where 子 句 谓词 对 一 个 元 组 计算 出 false 或 unknown， 那 么 该 元 组 不 能 被 加 入 到 结果 集中 

SQL 在 谓词 中 使 用 特殊 的 关键 词 null 测试 空 值 。 因 而 为 找 出 instructor 关系 中 salary 为 空 值 的 所 有 
教师 ， 我 们 可 以 写成 : 

select name 


from instructor 
where salary is null; 


如 果 谓 词 is not null 所 作用 的 值 非 空 ， 那 么 它 为 真 。 

HE SQL 实现 还 允许 我 们 使 用 子 句 is unknown 和 is not unknown 来 测试 一 个 表达 式 的 结果 是 否 为 
unknown， 而 不 是 true 或 false, 

当 一 个 查询 使 用 select distinct 子 句 时 ， 重 复元 组 将 被 去 除 。 为 了 达到 这 个 目的 ， 当 比较 两 个 元 组 
对 应 的 属性 值 时 ， 如 果 这 两 个 值 都 是 非 空 并 且 值 相等 ， 或 者 都 是 空 ， 那 么 它们 是 相同 的 。 所 以 诸如 
{(7 A’, null), CA’, null) | 这 样 的 两 个 元 组 拷贝 被 认为 是 相同 的 ， 即 使 在 某 些 属性 上 存在 空 值 。 使 
用 distinct 子 句 会 保留 这 样 的 相同 元 组 的 一 份 拷贝 。 注 意 上 述 对 待 空 值 的 方式 与 谓词 中 对 待 空 值 的 方式 
是 不 同 的 ， 在 谓词 中 “null = null” 会 返回 unknown， 而 不 是 true, 

如 果 元 组 在 所 有 属性 上 的 取 值 相等 ， 那 么 它们 就 被 当 作 相同 元 组 ， 即 使 某 些 值 为 空 。 上 述 方式 还 
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应 用 于 集合 的 并 、 交 和 差 运算 。 


3.7 聚集 函数 


聚集 函数 是 以 值 的 一 个 集合 ( 集 或 多 重 集 ) 为 输入 、 返 回 单个 值 的 函数 。SQL 提供 了 五 个 固有 聚集 
PR : 

。 平均 值 : avg。 

。 最 小 值 : min 。 

。 最 大 值 : max。 

e 总 和 : sum, 

e 计数 : count, 

[84 | sum 和 avg 的 输入 必须 是 数字 集 ， 但 其 他 运算 符 还 可 作用 在 非 数字 数据 类 型 的 集合 上 ， 如 字符 串 。 

3.7.1 基本 聚集 

考虑 查询 “ 找 出 Computer Science 系 教师 的 平均 工资 "。 我 们 书写 该 查询 如 下 : 


select avg (salary) 
from instructor 
where dept_name = ° Comp. Sci. ' ; 


该 查询 的 结果 是 一 个 具有 单 属 性 的 关系 ， 其 中 只 包含 一 个 元 组 ， 这 个 元 组 的 数值 对 应 Computer Science 
系 教师 的 平均 工资 。 数 据 库 系统 可 以 给 结果 关系 的 属性 一 个 任意 的 名 字 ， 该 属性 是 由 聚集 产生 的 。 然 
而 ， 我 们 可 以 用 as 子 句 给 属性 赋 个 有 意义 的 名 称 ， 如 下 所 示 : 


select avg (salary) as avg_salary 
from instructor 
where dept_name = ' Comp. Sci. ° ; 


在 图 2-1 的 instructor KAP, Computer Science 系 的 工资 值 是 75 000 美元 、65 000 美元 和 92 000 美 
元 , 平均 工资 是 232 000/3 =77 333.33 美元 。 

在 计算 平均 值 时 保留 重复 元 组 是 很 重要 的 。 假 设 Computer Science 系 增 加 了 第 四 位 教师 ， 其 工资 正 
好 是 75 000 美元 。 如 果 去 除 重复 的 话 ， 我 们 会 得 到 错误 的 答案 (232 000/4 = 58 000 美元 ) ， 而 正确 的 答 
案 是 76 750 美元 。 

有 些 情况 下 在 计算 聚集 函数 前 需 先 删 掉 重复 元 组 。 如 果 我 们 确实 想 删 除 重复 元 组 ， 可 在 聚集 表达 
式 中 使 用 关键 词 distinct。 比 方 有 这 样 一 个 查询 示例 “ 找 出 在 2010 年 春季 学 期 讲授 一 门 课程 的 教师 总 
数 ”， 在 该 例 中 不 论 一 个 教师 讲授 了 几 个 课程 段 ， 他 只 应 被 计算 一 次 。 所 需 信息 包含 在 teaches RAF, 





我 们 书写 该 查询 如 下 : 
select count ( distinct /D ) 
from teaches 
where semester = ’ Spring’ and year = 2010; 


我 们 经 常 使 用 聚集 函数 count 计算 一 个 关系 中 元 组 的 个 数 。SQL 中 该 函数 的 写法 是 count(“)。 因 
W, BPR course 关系 中 的 元 组 数 ， 可 写成 ; 


select count( ` ) 
from course ; 


由 于 在 ID 前面 有 关键 字 distinct， 所 以 即使 某 位 教师 教 了 不 止 一 门 课程 ， 在 结果 中 他 也 仅 被 计数 一 次 。 
SQL 不 允许 在 用 count(“ ) 时 使 用 distinct。 在 用 max 和 min 时 使 用 distinct 是 合法 的 ， 尽 管 结 果 并 
无 差别 。 我 们 可 以 使 用 关键 词 al 替代 distinct 来 说 明 保 留 重复 元 组 ,但 是 ， 既 然 al 是 默认 的 ， 就 没 必 
要 这 么 做 了 。 
3.7.2 FARR 
有 时 候 我 们 不 仅 希望 将 聚集 函数 作用 在 单个 元 组 集 上 ， 而 且 也 和 希望 将 其 作用 到 一 组 元 组 集 上 ; 在 
SQL 中 可 用 group by 子 句 实现 这 个 愿望 。group by 子 句 中 给 出 的 一 个 或 多 个 属性 是 用 来 构造 分 组 的 。 


在 group by 子 句 中 的 所 有 属性 上 取 值 相同 的 元 组 将 被 分 在 一 个 组 中 。 


作为 示例 ， 考 虑 查询 “ 找 出 每 个 系 的 平均 工资 "， 该 查询 
书写 如 下 : 
select dept_name, avg(salary) as avg_salary 
from instructor 
group by dept_name; 
图 3-14 给 出 了 instructor 关系 中 的 元 组 按照 dept_name 属 
性 进行 分 组 的 情况 ， 分 组 是 计算 查询 结果 的 第 一 步 。 在 每 个 
分 组 上 都 要 进行 指定 的 聚集 计算 ， 查 询 结果 如 图 3-15 所 示 。 
相反 ， 考 虑 查询 “ 找 出 所 有 教师 的 平均 工资 "。 我 们 把 此 
查询 写 做 如 下 形式 : 
select avg (salary) 
from instructor; 
在 这 里 省 略 了 group by 子 句 ， 因 此 整个 关系 被 当 作 是 一 个 
分 组 。 
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ID name [ dept-name | salary 
| 76766 | Crick | Biology 72000 
| 45565 | Katz Comp. Sci. | 75000 | 
| 10101 | Srinivasan | Comp. Sci. | 65000 
| 83821 | Brandt Comp. Sci. | 92000 
| 98345 | Kim Elec. Eng. | 80000 
| 12121 | Wu Finance 90000 
76543 | Singh Finance 80000 
| 32343 | ElSaid | History | 60000 
| 58583 | Califieri History 62000 
15151 | Mozart | Music | 40000 
33456 | Gold | Physics 87000 | 
22222 | Einstein Physics 95000 
PA 3-14 instructor 关系 的 元 组 按照 


作为 在 元 组 分 组 上 进行 聚集 操作 的 另 一 个 例子 ， 考 虑 查询 ”“ 找 出 每 
个 系 在 2010 年 春季 学 期 讲授 一 门 课程 的 教师 人 数 " 。 有 关 每 位 教师 在 
每 个 学 期 讲授 每 个 课程 段 的 信息 在 teaches 关系 中 。 但是， 这 些 信 息 需 
要 与 来 自 instructor 关系 的 信息 进行 连接 ， 才 能 够 得 到 每 位 教师 所 在 的 


系 名 。 这 样 ， 我 们 把 此 查询 写 做 如 下 形式 : 


select dept_name, count (distinct /D) as instr_count 

from instructor natural join teaches 

where semester = ’ Spring’ and year = 2010 

group by dept_name; 
其 结果 如 图 3-16 所 示 。 

当 SQL 查询 使 用 分 组 时 ， 一 个 很 重要 的 事情 是 需要 保证 
出 现在 select 语句 中 但 没有 被 聚集 的 属性 只 能 是 出 现在 group 
by 子 句 中 的 那些 属性 。 换 名 话说， 任何 没有 出 现在 group by 
子 句 中 的 属性 如 果 出 现在 select 子 句 中 的 话 ， 它 只 能 出 现在 
聚集 函数 内 部 ， 否 则 这 样 的 查询 就 是 错误 的 。 例 如 ， 下 述 查 
询 是 错误 的 ， 因 为 D 没有 出 现在 group by 子 句 中 ,但 它 出 
现在 了 select 子 句 中 ， 而 且 没有 被 聚集 : 
/* 错误 查询 */ 


dept_name 属性 分 组 














| deptname | avg-salary | 
Biology | 72000 | 
Comp. Sci. | 77333 

| Elec. Eng. | 80000 

| Finance 85000 

| History 61000 
Music | 40000 
Physics | 91000 





图 3-15 查询 ” 找 出 每 个 系 的 
平均 工资 "的 结果 关系 





| 





| dept name | instr.count | 

| Comp. Sci. 3 

| Finance 1 
History 1 

| Music Jd 








图 3-16 查询 “ 找 出 每 个 系 在 2010 年 
春季 学 期 讲授 一 门 课程 的 
教师 人 数 " 的 结果 关系 


select dept_name, ID, avg (salary) 


from instructor 
group by dept_name; 


在 一 个 特定 分 组 (通过 dept_name 定义 ) 中 的 每 位 教师 都 有 一 个 不 同 的 ID， 既 然 每 个 分 组 只 输出 一 
个 元 组 ， 那 就 无 法 确定 选 哪个 D 值 作为 输出 。 其 结果 是 ，SQL 不 允许 这 样 的 情况 出 现 。 


3.7.3 having FA 


有 时 候 ， 对 分 组 限定 条 件 比 对 元 组 限定 条 件 更 有 有 用。 例如， 我 们 也 许 只 对 教师 平均 工资 超过 
42 000 美 元 的 系 感 兴趣 。 该 条 件 并 不 针对 单个 元 组 ， 而 是 针对 group by 子 句 构成 的 分 组 。 为 表达 这 样 
的 查询 ， 我 们 使 用 SQL 的 having FAJ, having 子 句 中 的 谓词 在 形成 分 组 后 才 起 作用 ， 因 此 可 以 使 用 聚 


集 函 数 。 我 们 用 SQL 表达 该 查询 如 下 : 


select dept_name, avg (salary) as avg_salary 


from instructor 
group by dept_name 
having avg (salary) > 42000; 
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其 结果 如 图 3-17 所 示 。 

















与 select 子 句 的 情况 类 似 ， 任 何 出 现在 having 子 句 中 ,但 | dept.name | avg-salary 
没有 被 聚集 的 属性 必须 出 现在 group by 子 句 中 ， 否 则 查询 就 Physics 91000 
被 当成 是 错误 的 。 R Eng. 80000 
: inan 85000 
包含 聚集 、group by sk having 子 句 的 查询 的 含义 可 通过 Comp. Sci. 77333 
下 述 操作 序列 来 定义 ; eed ees 
1 HA ES 询 情 ; 以 ， fi i F 
woe te 最 先 根 据 from 子 句 来 计 图 3-17 查询 “ 找 出 系 平均 工资 超过 
othe 42 000 美元 的 那些 系 JEH 
2. 如 果 出 现 了 where Faj, where 子 句 中 的 谓词 将 应 用 Se el tll 


工资 "的 结果 关系 
到 from 子 句 的 结果 关系 上 。 全 


3. 如 果 出 现 了 group by FAJ, WE where 谓词 的 元 组 通过 group by 子 句 形成 分 组 。 如 果 没 有 
group by 子 句 ， 满 足 where 谓词 的 整个 元 组 集 被 当 作 一 个 分 组 。 

4. 如 果 出 现 了 having 子 句 ， 它 将 应 用 到 每 个 分 组 上 ; 不 满足 having 子 句 谓 词 的 分 组 将 被 抛弃 。 

5. select 子 句 利用 剩 下 的 分 组 产生 出 查询 结果 中 的 元 组 ， 即 在 每 个 分 组 上 应 用 聚集 函数 来 得 到 单 
个 结果 元 组 。 

为 了 说 明 在 同一 个 查询 中 同时 使 用 having 子 句 和 where 子 句 的 情况 ,我们 考虑 查询 “对 于 在 2009 
年 讲授 的 每 个 课程 段 ， 如 果 该 课程 段 有 至 少 2 名 学 生 选 课 ， 找 出 选修 该 课程 段 的 所 有 学 生 的 总 学 分 (tot 
cred) 的 平均 值 ”。 


select course_id, semester, year, sec_id, avg (tot_cred) 
from takes natural join student 

where year = 2009 

group by course_id, semester, year, sec_id 

having count (JD) >= 2; 


注意 上 述 查 询 需 要 的 所 有 信息 来 自 关系 takes 和 student， 尽 管 此 查询 是 关于 课程 段 的 ， 却 并 不 需要 
与 section 进行 连接 。 
3.7.4 对 空 值 和 布尔 值 的 聚集 

空 值 的 存在 给 聚集 运算 的 处 理 带 来 了 麻烦 。 例 如 ， 假 设 instructor 关系 中 有 些 元 组 在 salary 上 取 空 
值 。 考 虑 以 下 计算 所 有 工资 总 额 的 查询 : 


select sum( salary ) 
from instructor ; 


由 于 一 些 元 组 在 salary 上 取 空 值 ， 上述 查询 待 求 和 的 值 中 就 包含 了 空 值 。SQL 标准 并 不 认为 总 和 
本 身 为 null， 而 是 认为 sum 运算 符 应 忽略 输入 中 的 null 值 。 

总 而 言 之 ， 聚 集 函 数 根据 以 下 原则 处 理 空 值 : 除了 count(“ ) 外 所 有 的 聚集 函数 都 忽略 输入 集合 中 
的 空 值 。 由 于 空 值 被 忽略 ， 有 可 能 造成 参加 函数 运算 的 输入 值 集合 为 空 集 。 规 定 空 集 的 count 运算 值 
为 0， 其 他 所 有 聚集 运算 在 输入 为 空 集 的 情况 下 返回 一 个 空 值 。 在 一 些 更 复杂 的 SQL 结构 中 空 值 的 影 


| 89 | 响 会 更 难以 琢磨 。 


在 SQL:1999 中 引入 了 布尔 (boolean ) 数据 类 型 ， 它 可 以 取 true, false, unknown 三 个 值 。 有 两 个 
聚集 函数 : some 和 every， 其 含义 正如 直观 意义 一 样 ， 可 用 来 处 理 布尔 (boolean) 值 的 集合 。 


3.8 REFS 


SQL #EHEREF AAPL, FAA BE es — TE i FY) select-from- where KAR, TAHE 
套 在 where 子 句 中 ,通常 用 于 对 集合 的 成 员 资格 、 集 合 的 比较 以 及 集合 的 基数 进行 检查 。 从 3.8.1 到 
3.8.4 节 我 们 学 习 在 where 子 句 中 其 套子 查询 的 用 法 。 在 3. 8.5 节 我 们 学 习 在 from Fa) PRE FH 
询 。 在 3. 8.7 节 我 们 将 看 到 一 类 被 称 作 标量 子 查 询 的 子 查询 是 如 何 出 现在 一 个 表达 式 所 返回 的 单个 值 
可 以 出 现 的 任何 地 方 的 。 
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3. 8.1 集合 成 员 资格 

SQL 允许 测试 元 组 在 关系 中 的 成 员 资格 。 连 接 词 in 测试 元 组 是 否 是 集合 中 的 成 员 ， 集 合 是 由 
select 子 句 产生 的 一 组 值 构成 的 。 连 接 词 not in 则 测试 元 组 是 否 不 是 集合 中 的 成 员 。 

作为 示例 ， 考 虑 查询 “ 找 出 在 2009 年 秋季 和 2010 年 春季 学 期 同时 开课 的 所 有 课程 ”。 先 前 ， 我 
们 通过 对 两 个 集合 进行 交 运 算 来 书写 该 查询 ， 这 两 个 集合 分 别 是 : 2009 年 秋季 开课 的 课程 集合 与 
2010 年 春季 开课 的 课程 集合 。 现 在 我 们 采用 另 一 种 方式 ， 查 找 在 2009 年 秋季 开课 的 所 有 课程 ， 看 它 
们 是 否 也 是 2010 年 春季 开课 的 课程 集合 中 的 成 员 。 很 明显 ， 这 种 方式 得 到 的 结果 与 前 面相 同 ， 但 我 
们 可 以 用 SQL 中 的 in 连接 词 书写 该 查询 。 我 们 从 找 出 2010 年 春季 开课 的 所 有 课程 开始 ， 写 出 子 
查询 : 

(select course_id 


from section 
where semester = “Spring”and year = 2010) 


然后 我 们 需要 从 子 查询 形成 的 课程 集合 中 找 出 那些 在 2009 年 秋季 开课 的 课程 。 为 完成 此 项 任务 可 
将 子 查 询 媒 入 外 部 查询 的 where 子 句 中 。 最 后 的 查询 语句 是 : 


select distinct course_id 
from section 
where semester = ` Fall’ and year = 2009 and 
course_id in (select course_id 
from section 
where semester = ' Spring’ and year = 2010) ; 


该 例 说 明了 在 SQL 中 可 以 用 多 种 方法 书写 同一 查询 。 这 种 灵活 性 是 有 好 处 的 ， 因 为 它 允 许 用 户 用 
最 接近 自然 的 方法 去 思考 查询 。 我 们 将 看 到 在 SQL 中 有 许多 这 样 的 元 余 。 

RIS in 结构 类 似 的 方式 使 用 not in 结构 。 例 如， 为 了 找 出 所 有 在 2009 年 秋季 学 期 开课 ， 但 不 
在 2010 年 春季 学 期 开课 的 课程 ， 我 们 可 写 出 : 


select distinct course_id 


from section 
where semester = ’ Fall’ and year = 2009 and 
course_id not in (select course_id 
from section 
where semester = ’ Spring’ and year = 2010) ; 


in 和 not in 操作 符 也 能 用 于 枚 举 集合 。 下 面 的 查询 找 出 既 不 叫 “ Mozart”, ti AN 04“ Einstein "的 教师 
的 姓名 : 


select distinct name 
from instructor 
where name not in (” Mozart’ , ’ Einstein’ ) ; 


在 前 面 的 例子 中 ， 我 们 是 在 单 属 性 关系 中 测试 成 员 资格 。 在 SQL 中 测试 任意 关系 的 成 员 资 格 也 是 
可 以 的 。 例如， 我 们 可 以 这 样 来 表达 查询 “ 找 出 (不 同 的 ) 学 生 总 数 ， 他 们 选修 了 1D 为 10101 的 教师 所 
讲授 的 课程 段 ”: 
select count ( distinct /D) 
from takes 
where (course_id, sec_id, semester, year) in (select course_id, sec_id, semester, year 


from teaches 
where teaches. ID = 10101); 


3.8.2 集合 的 比较 
作为 一 个 说 明 符 套子 查询 能 够 对 集合 进行 比较 的 例子 ， 考 虑 查询 " 找 出 满足 下 面条 件 的 所 有 教师 
的 姓名 ， 他 们 的 工资 至 少 比 Biology 系 某 一 个 教师 的 工资 要 高 ”， 在 3.4. 1 节 ， 我 们 将 此 查询 写作 : 
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select distinct 7. name 
from instructor as T, instructor as S 
where T. salary > S. salary and S. dept_name = ’ Biology’ ; 


但 是 SQL 提供 另外 一 种 方式 书写 上 面 的 查询 。 短 语 “ 至 少 比 某 一 个 要 大 "在 SQL 中 用 > some 表示 。 此 
结构 允许 我 们 用 一 种 更 贴近 此 查询 的 文字 表达 的 形式 重 写 上 面 的 查询 : 
select name 
from instructor 
where salary > some (select salary 
from instructor 
where dept_name = ’ Biology’ ) ; 


子 查询 
(select salary 


from instructor 
where dept_name = ’ Biology’ ) 


产生 Biology 系 所 有 教师 的 所 有 工资 值 的 集合 。 当 元 组 的 salary 值 至 少 比 Biology 系 教师 的 所 有 工资 值 集 
合 中 某 一 成 员 高 时 ， 外 层 select 的 where 子 句 中 > some 的 比较 为 真 。 

SQL 也 人 允许 <some，<=some，>=some，=some fil <>some 的 比较 。 作 为 练习 ， 请 验证 = some 
等 价 于 mh， 然而 <> some 并 不 等 价 于 not in, © 

现在 我 们 稍微 修改 一 下 我 们 的 查询 。 找 出 满足 下 面条 件 的 所 有 教师 的 姓名 ， 他 们 的 工资 值 比 
Biology 系 每 个 教师 的 工资 都 高 。 结 构 > all 对 应 于 词组 比 所 有 的 都 大 ”。 使 用 该 结构 ,我 们 写 出 查询 
如 下 : 


select name 
from instructor 
where salary > all (select salary 
from instructor 
where dept_name = ’ Biology’ ) ; 


类 似 于 some，SQL 也 人 允许 <al，<=al，>=al，=al 和 <>all 的 比较 。 作 为 练习 ， 请 验证 
<> all 等 价 于 not in， 但 = all 并 不 等 价 于 iD。 

作为 集合 比较 的 男 一 个 例子 ， 考 虑 查询 “ 找 出 平均 工资 最 高 的 系 ”。 我们 首先 写 一 个 查询 来 找 出 每 
个 系 的 平均 工资 ， 然 后 把 它 作为 子 查 询 垦 套 在 一 个 更 大 的 查询 中 ， 以 找 出 那些 平均 工资 大 于 等 于 所 有 
系 平均 工资 的 系 。 


select dept_name 

from instructor 

group by dept_name 

having avg (salary) >= all (select avg (salary) 
from instructor 
group by dept_name) ; 


3.8.3 ZAME 

SQL 还 有 一 个 特性 可 测试 一 个 子 查询 的 结果 中 是 否 存在 元 组 。exists 结构 在 作为 参数 的 子 查询 非 空 
时 返回 true 值 。 使 用 exists 结构 ， 我 们 还 能 用 另外 一 种 方法 书写 查询 “ 找 出 在 2009 年 秋季 学 期 和 2010 
年 春季 学 期 同时 开课 的 所 有 课程 ”: 


select course_id 

from section as S 

where semester = ’ Fall’ and year = 2009 and 
exists (select * 





© 76 SQL 中 关键 词 any 同 义 于 some。 早 期 SQL 版 本 中 仅 允许 使 用 any， 后 来 的 版 本 为 了 避免 和 英语 中 any 一 词 在 
语言 上 的 混淆 ， 又 添加 了 另 一 个 可 选择 的 关键 词 some。 
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from section as 了 
where semester = ’ Spring’ and year = 2010 and 
S. course_id = T. course_id) ; 


上 述 查 询 还 说 明了 SQL 的 一 个 特性 ,来 自 外 层 查 询 的 一 个 相关 名 称 ( 上述 查询 中 的 5) 可 以 用 在 
where 子 句 的 子 查 询 中 。 使 用 了 来 自 外 层 查 询 相 关 名 称 的 子 查询 被 称 作 相关 子 查询 ( correlated 
subquery ) 。 

在 包含 了 子 查询 的 查询 中 ， 在 相关 名 称 上 可 以 应 用 作用 域 规则 。 根 据 此 规则 ， 在 一 个 子 查 询 中 只 
能 使 用 此 子 查询 本 身 定义 的 ， 或 者 在 包含 此 子 查询 的 任何 查询 中 定义 的 相关 名 称 。 如 果 一 个 相关 名 称 
既 在 子 查询 中 定义 ， 又 在 包含 该 子 查询 的 查询 中 定义 ， 则 子 查询 中 的 定义 有 效 。 这 条 规则 类 似 于 编程 
语言 中 通用 的 变量 作用 域 规则 。 

我 们 可 以 用 not exists 结构 测试 子 查询 结果 集中 是 否 不 存在 元 组 。 我 们 可 以 使 用 not exists 结构 模 
拟 集 合 包 含 ( 即 超 集 ) 操作 : 我 们 可 将 “关系 4 包含 关系 B” 写成 “not exists( B except A)”, (尽管 
contains 运算 符 并 不 是 当前 SQL 标准 的 一 部 分 ， 但 这 一 运算 符 曾 出 现在 某 些 早期 的 关系 系统 中 ,) 为 了 
说 明 not exists 操作 符 ， 考 虑 查询 “ 找 出 选修 了 Biology 系 开 设 的 所 有 课程 的 学 生 ”- 使 用 except 结构 ， 


我 们 可 以 书写 此 查询 如 下 : | 92 | 
select S. ID, S. name | 93 
from student as S = 
where not exists ( ( select course_id 

from course 
where dept_name = " Biology’ ) 
except 
( select T. course_id 
from żakes as T 
where S. ID = T./D)); 
这 里 ， 子 查询 
( select course_id 
from course 


where dept_name = ’ Biology’ ) 


找 出 Biology 系 开 设 的 所 有 课程 集合 。 子 查询 


(select 7. course_id 
from takes as T 
where S. ID = T./D) 


找 出 S. 1D 选修 的 所 有 课程 。 这 样 ， 外 层 select 对 每 个 学 生 测 试 其 选修 的 所 有 课程 集合 是 否 包含 Biology 
系 开设 的 所 有 课程 集合 。 


3.8.4 重复 元 组 存在 性 测试 
SQL 提供 一 个 布尔 函数 ， 用 于 测试 在 一 个 子 查询 的 结果 中 是 否 存在 重复 元 组 。 如 果 作为 参数 的 子 
查询 结果 中 没有 重复 的 元 组 ，unique 结构 “将 返回 true 值 。 我 们 可 以 用 unique 结构 书写 查询 “ 找 出 所 
有 在 2009 年 最 多 开设 一 次 的 课程 ”， 如 下 所 示 : 
select T. course_id 
from course as T 
where unique (select R. course_id 
from section as R 


where 7. course_id = R. course_id and 
R. year = 2009); 





O ”此 结构 尚未 被 广泛 实现 ， 
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注意 如 果 某 门 课程 不 在 2009 年 开设 ,那么 子 查 询 会 返回 一 个 空 的 结果 ，unique 谓词 在 空 集 上 计算 出 
真 值 。 
在 不 使 用 unique 结构 的 情况 下 ， 上 述 查 询 的 一 种 等 价 表达 方式 是 : 
select 7. course_id 
from course as T 
where | >= (select count( R. course_id) 
from section as R 
where 7. course_id = R. course_id and 
R. year = 2009) ; 
我 们 可 以 用 mot unique 结构 测试 在 一 个 子 查询 结果 中 是 否 存 在 重复 元 组 。 为 了 说 明 这 一 结构 ， 考 
虑 查询 “ 找 出 所 有 在 2009 年 最 少 开 设 两 次 的 课程 ”， 如 下 所 示 : 
select 7. course_id 
from course as T 
where not unique (select R. course_id 
from section as R 
where T. course_id = R. course_id and 
R. year = 2009) ; 
形式 化 地 ， 对 一 个 关系 的 unique 测试 结果 为 假 的 定义 是 ， 当 且 仅 当 在 关系 中 存在 着 两 个 元 组 和 
th, At =t,。 由 于 在 ti 或, 的 某 个 域 为 空 时 ， 判断 ti = 为 假 ， 所 以 尽管 一 个 元 组 有 多 个 副本 ， 只 要 
该 元 组 有 一 个 属性 为 空 ，unique 测试 就 有 可 能 为 真 。 
3.8.5 from 子 句 中 的 子 查询 
SQL 允许 在 from 子 句 中 使 用 子 查询 表达 式 。 在 此 采用 的 主要 观点 是 : 任何 select-from-where 表达 
式 返回 的 结果 都 是 关系 ， 因 而 可 以 被 插 和 人 到 另 一 个 select-from- where 中 任何 关系 可 以 出 现 的 位 置 。 
考虑 查询 “ 找 出 系 平均 工资 超过 42 000 美元 的 那些 系 中 教师 的 平均 工资 " 。 在 3.7 节 我 们 使 用 了 
having 子 句 来 书写 此 查询 。 现 在 我 们 可 以 不 用 having 子 句 来 重 写 这 个 查询 ， 而 是 通过 如 下 这 种 在 from 
子 句 中 使 用 子 查询 的 方式 : 


select dept_name, avg_salary 

from (select dept_name, avg (salary) as avg_salary 
from instructor 
group by dept_name) 

where avg_salary > 42000; 
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该 子 查询 产生 的 关系 包含 所 有 系 的 名 字 和 相应 的 教师 平均 工资 。 子 查询 的 结果 属性 可 以 在 外 层 查询 中 
使 用 ， 正 如 上 例 所 示 。 

注意 我 们 不 需要 使 用 having 子 句 ， 因 为 from 子 句 中 的 子 查询 计算 出 了 每 个 系 的 平均 工资 ， 早 先 
在 having 子 句 中 使 用 的 谓词 现在 出 现在 外 层 查询 的 where FAP, 

我 们 可 以 用 as 子 句 给 此 子 查询 的 结果 关系 起 个 名 字 ， 并 对 属性 进行 重 命名 。 如 下 所 示 : 


select dept_name , avg_salary 
from (select dept_name, avg (salary) 

from instructor 

group by dept_name ) 

as dept_avg (dept_name, avg_salary) 
where avg_salary > 42000; 


子 查询 的 结果 关系 被 命名 为 dept_avg， 其 属性 名 是 dept_name 和 avg_salary 

很 多 (但 并 非 全 部 )SQL 实现 都 支持 在 from FA] PRES A. WEE, Hee SQL 实现 要 求 对 每 
一 个 子 查询 结果 关系 都 给 一 个 名 字 ， 即 使 该 名 字 从 不 被 引用 ; Oracle 允许 对 子 查询 结果 关系 命名 (省 略 
掉 关 键 字 as) ， 但 是 不 允许 对 关系 中 的 属性 重 命名 。 

作为 另 一 个 例子 ， 假 设 我 们 想 要 找 出 在 所 有 系 中 工资 总 额 最 大 的 系 。 在 此 having 子 句 是 无 能 为 力 
的 ， 但 我 们 可 以 用 from 子 句 中 的 子 查询 轻易 地 写 出 如 下 查询 : 
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select max ( tot_salary) 
from (select dept_name, sum( salary ) 
from instructor 
group by dept_name) as dept_total ( dept_name, tot_salary) ; 

我 们 注意 到 在 from 子 句 艇 套 的 子 查询 中 不 能 使 用 来 自 from 子 句 其 他 关系 的 相关 变量 。 然 而 SQL: 
2003 允许 from 子 句 中 的 子 查询 用 关键 词 lateral 作为 前 级 ， 以 便 访问 from 子 句 中 在 它 前 面 的 表 或 子 查 
询 中 的 属性 。 例 如 ， 如 果 我 们 想 打印 每 位 教师 的 姓名 ， 以 及 他 们 的 工资 和 所 在 系 的 平均 工资 ， 可 书写 
查询 如 下 : 

select name, salary, avg_salary 
from instructor 11 , lateral (select avg( salary) as avg_salary 


from instructor [2 
where /2. dept_name = Il. dept_name) ; 


没有 lateral 子 句 的 话 ， 子 查询 就 不 能 访问 来 自 外 层 查询 的 相关 变量 凡 。 目 前 只 有 少数 SQL 实现 支持 


lateral 子 句 ， 比 如 IBM DB2。 [96 | 





3.8.6 with 子 句 

with 子 句 提供 定义 临时 关系 的 方法 ， 这 个 定义 只 对 包含 with 子 句 的 查询 有 效 。 考 虑 下 面 的 查询 ， 

它 找 出 具有 最 大 预算 值 的 系 。 

with max_budget (value) as 

(select max ( budget ) 
from department ) 

select budget 

from department, max_budget 

where department. budget = max_budget. value ; 
with 子 句 定义 了 临时 关系 max_budget， 此 关系 在 随后 的 查询 中 马上 被 使 用 了 。with 子 句 是 在 SQL:1999 
中 引入 的 ， 目 前 有 许多 (但 并 非 所 有 ) 数 据 库 系 统 都 提供 了 支持 。 

我 们 也 能 用 from 子 句 或 where 子 句 中 的 榜 套 子 查 询 书 写 上 述 查 询 。 但 是 ， 用 府 套 子 查 询 会 使 得 查 
WEER., with 子 句 使 查询 在 逻辑 上 更 加 清晰 ， 它 还 允许 在 一 个 查询 内 的 多 个 地 方 使 用 视图 
定义 。 

例如 ,假设 我 们 要 查 出 所 有 工资 总 额 大 于 所 有 系 平均 工资 总 额 的 系 , 我 们 可 以 利用 如 下 with 子 句 
写 出 查询 : 

with dept_total (dept_name, value) as 
(select dept_name , sum( salary) 
from instructor 
group by dept_name) , 
dept_total_avg( value) as 
(select avg( value ) 
from dept_total ) 
select dept_name 
from dept_total , dept_total_avg 
where dept_total. value >= dept_total_avg. value ; 
我 们 当然 也 可 以 不 用 with 子 句 来 建立 等 价 的 查询 ,但 是 那样 会 复杂 很 多 ， 而 且 也 不 易 看 懂 。 作 为 练 
习 ， 你 可 以 把 它 转化 为 不 用 with 子 句 的 等 价 查 询 。 
3.8.7 ”标量 子 查询 

SQL 允许 子 查询 出 现在 返回 单个 值 的 表达 式 能 够 出 现 的 任何 地 方 ， 只 要 该 子 查询 只 返回 包含 单个 

属性 的 单个 元 组 ; 这 样 的 子 查询 称 为 标量 子 查询 ( scalar subquery ) 。 例 如 ， 一 个 子 查询 可 以 用 到 下 面 例 





子 的 select 子 句 中 ， 这 个 例子 列 出 所 有 的 系 以 及 它们 拥有 的 教师 数 : 
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select dept_name, 
(select count( ` ) 
from instructor 
where department. dept_name = instructor. dept_name ) 
as num_instructors 
from department ; 


上 面 例子 中 的 子 查询 保证 只 返回 单个 值 ， 因 为 它 使 用 了 不 带 group by 的 count(“ ) RER Ate Hil th 
说 明了 对 相关 变量 的 使 用 ， 即 使 用 在 外 层 查询 的 from 子 句 中 关系 的 属性 ,例如 上 例 中 的 
department. dept_name ., 

标量 子 查询 可 以 出 现在 select, where 和 having 子 句 中 。 也 可 以 不 使 用 聚集 函数 来 定义 标量 子 查 
询 。 在 编译 时 并 非 总 能 判断 一 个 子 查询 返回 的 结果 中 是 否 有 多 个 元 组 ， 如 果 在 子 查询 被 执行 后 其 结果 
中 有 不 止 一 个 元 组 ， 则 产生 一 个 运行 时 错误 。 

注意 从 技术 上 讲 标量 子 查 询 的 结果 类 型 仍然 是 关系 ,尽管 其 中 只 包含 单个 元 组 。 然 而 ， 当 在 表达 
式 中 使 用 标量 子 查询 时 ， 它 出 现 的 位 置 是 单个 值 出 现 的 地 方 ，SQL 就 从 该 关系 中 包含 单 属性 的 单元 组 
中 取出 相应 的 值 ， 并 返回 该 值 。 


3.9 数据 库 的 修改 
目前 为 止 我 们 的 注意 力 集中 在 对 数据 库 的 信息 抽取 上 。 现 在 我 们 将 展示 如 何 用 SQL 来 增加 、 删 除 


和 修改 信息 。 
3.9.1 删除 
删除 请 求 的 表达 与 查询 非常 类 似 。 我 们 只 能 删除 整个 元 组 ， 而 不 能 只 删除 某 些 属性 上 的 值 。SQL 
用 如 下 语句 表示 删除 : 
delete from r 
where P; 


其 中 尸 代表 一 个 谓词 ，r 代表 一 个 关系 。delete 语句 首先 从 r 中 找 出 所 有 使 P(t) 为 真 的 元 组 上， 然后 把 
它们 从 7 中 删除 。 如 果 省 略 where 子 句 ， 则 -~ 中 所 有 元 组 将 被 删除 。 
注意 delete 命令 只 能 作用 于 一 个 关系 。 如 果 我 们 想 从 多 个 关系 中 删除 元 组 ， 必 须 在 每 个 关系 上 使 
用 一 条 delete 命令 。where 子 句 中 的 谓词 可 以 和 select 命令 的 where 子 句 中 的 谓词 一 样 复 杂 。 在 另 一 种 
极端 情况 下 ，where 子 句 可 以 为 空 ， 请 求 


delete from instructor ; 


将 删除 instructor 关系 中 的 所 有 元 组 。instructor 关系 本 身 仍然 存在 ， 但 它 变 成 空 的 了 - 
下 面 是 SQL 删除 请 求 的 一 些 例子 : 
© 从 instructor 关系 中 删除 与 Finance 系 教师 相关 的 所 有 元 组 。 


delete from instructor 
where dept_name = ' Finance’ ; 


。 删除 所 有 工资 在 13 000 美元 到 15 000 美元 之 间 的 教师 。 


delete from instructor 
where salary between 13000 and 15000; 


© 从 instructor 关系 中 删除 所 有 这 样 的 教师 元 组 ， 他 们 在 位 于 Watson 大 楼 的 系 工作 。 


delete from instructor 
where depi_name in (select dept_name 
from department 
where building = ' Watson’ ) ; 


此 delete 请 求 首先 找 出 所 有 位 于 Watson 大 楼 的 系 ， 然 后 将 属于 这 些 系 的 instructor 元 组 全 部 删除 。 
注意 ， 虽 然 我 们 一 次 只 能 从 一 个 关系 中 删除 元 组 ， 但 是 通过 在 delete 的 where $4) + fk select- 
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from- where， 我 们 可 以 引用 任意 数目 的 关系 。delete RT UEA REH select, 7% select 引用 待 删除 
元 组 的 关系 。 例 如 ， 假 设 我 们 想 删 除 工资 低 于 大 学 平均 工资 的 教师 记录 ， 可 以 写 出 如 下 语句 : 


delete from instructor 
where salary < (select avg (salary) 
from instructor) ; 


该 delete 语句 首先 测试 instructor 关系 中 的 每 一 个 元 组 ， 检 查 其 工资 是 否 小 于 大 学 教师 的 平均 工资 。 然 
后 删除 所 有 符合 条 件 的 元 组 ， 即 所 有 低 于 平均 工资 的 教师 。 在 执行 任何 删除 之 前 先进 行 所 有 元 组 的 测 
试 是 至 关 重 要 的 ， 因 为 若 有 些 元 组 在 其 余 元 组 未 被 测试 前 先 被 删除 ， 则 平均 工资 将 会 改变 ， 这 样 
delete 的 最 后 结果 将 依赖 于 元 组 被 处 理 的 顺序 ! 
3.9.2 插入 
要 往 关 系 中 插入 数据 ， 我 们 可 以 指定 待 插入 的 元 组 ， 或 者 写 一 条 查询 语句 来 生成 待 插入 的 元 组 集 
合 。 显 然 ， 待 插入 元 组 的 属性 值 必须 在 相应 属性 的 域 中 。 同 样 ， 待 插 和 人 元 组 的 分 量 数 也 必须 是 正确 的 。 
最 简单 的 insert 语句 是 单个 元 组 的 插入 请 求 。 假 设 我 们 想 要 插入 的 信息 是 Computer Science 系 开 设 
的 名 为 “Database Systems” 的 课程 CS-437， 它 有 4 个 学 分 。 我 们 可 写成 : 


insert into course 
values ( °’ CS-437° , ° Database Systems’ , ’ Comp. Sci.’ , 4) ; 


在 此 例 中 ， 元 组 属性 值 的 排列 顺序 和 关系 模式 中 属性 排列 的 顺序 一 致 。 考 虑 到 用 户 可 能 不 记得 关系 属 
性 的 排列 顺序 ，SQL 允许 在 insert 语句 中 指定 属性 。 例 如 ， 以 下 SQL insert 语句 与 前 述 语句 的 功能 
相同 。 
insert into course (course_id, title, dept_name, credits ) 
values ( ”CS —437’ , * Database Systems’ , "Comp. Sci. ° , 4) ; 


insert into course (title, course_id, credits, dept_name ) 
values ( °’ Database Systems’ , ° CS -437° , 4, ’Comp. Sci. ’ ) ; 


更 通常 的 情况 是 ， 我 们 可 能 想 在 查询 结果 的 基础 上 插入 元 组 。 假 设 我 们 想 让 Music 系 每 个 修 满 144 
学 分 的 学 生成 为 Music 系 的 教师 ， 其 工资 为 18 000 美元 。 我 们 可 写作 : 


insert into instructor 
select ID, name, dept_name, 18000 
from student 
where depi_name = ’ Music’ and tot_cred > 144; 


和 本 节 前 面 的 例子 不 同 的 是 ,我们 没有 指定 一 个 元 组 ， 而 是 用 select 选 出 一 个 元 组 集合 。SQL 先 执行 
这 条 select 语句 ， 求 出 将 要 插入 到 instructor 关系 中 的 元 组 集合 。 每 个 元 组 都 有 ID, name, dept_name 
( Music ) 和 工资 (18 000 美元 ) 。 

在 执行 插入 之 前 先 执行 完 select 语句 是 非常 重要 的 。 如 果 在 执行 select 语句 的 同时 执行 插入 动作 ， 
如 果 在 student 上 没有 主 码 约束 的 话 ， 像 


insert into student 
select” 
from student ; 


这 样 的 请 求 就 可 能 会 插入 无 数 元 组 。 如 果 没 有 主 码 约束 ， 上 述 请 求 会 重新 插入 student 中 的 第 一 个 
元 组 ， 产 生 该 元 组 的 第 二 份 拷贝 。 由 于 这 个 副本 现在 是 student 中 的 一 部 分 ，select 语句 可 能 找到 
它 ， 于 是 第 三 份 拷贝 被 插入 到 student 中。 第 三 份 拷贝 又 可 能 被 select 语句 发 现 ， 于 是 又 插入 第 四 
份 拷贝 ， 如 此 等 等 ,无 限 循 环 。 在 执行 插入 之 前 先 完成 select 语句 的 执行 可 以 避免 这 样 的 问题 。 
这 样 ， 如 果 在 student 关系 上 没有 主 码 约 束 ， 那 么 上 述 insert 语句 就 只 是 把 student 关系 中 的 每 个 元 
组 都 复制 一 遍 。 

在 讨论 insert 语句 时 我 们 只 考虑 了 这 样 的 例子 : 待 插入 元 组 的 每 个 属性 都 被 赋 了 值 。 但 是 有 可 能 
待 插入 元 组 中 只 给 出 了 模式 中 部 分 属性 的 值 ， 那 么 其 余 属性 将 被 赋 空 值 ， 用 null 表示 。 考 虑 请 求 : 
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insert into student 
values (’3003’ , ’Green’, ’ Finance’ , null) ; 
此 请 求 所 插入 的 元 组 代表 了 一 个 在 Finance A. ID 为 “3003” 的 学 生 , 但 其 tot_cred 值 是 未 知 的 。 考 虑 
查询 : 
select /D 


from student 
where tot_cred > 45; 


既然 "3003 "号 学 生 的 tot_cred 值 未 知 ， 我 们 不 能 确定 它 是 否 大 于 45。 

大 部 分 关系 数据 库 产 品 有 特殊 的 “bulk loader” 工具 ， 它 可 以 向 关系 中 插 和 人 一 个 非常 大 的 元 组 集合 。 
这 些 工具 允许 从 格式 化 文本 文件 中 读 出 数据 ， 且 执行 速度 比 同 等 目的 的 插入 语句 序列 要 快 得 多 。 
3.9.3 更 新 

有 些 情况 下 ， 我 们 可 能 希望 在 不 改变 整个 元 组 的 情况 下 改变 其 部 分 属性 的 值 。 为 达到 这 一 目的 ， 
可 以 使 用 update 语句 。 与 使 用 insert 、 delete 类 似 ， 待 更 新 的 元 组 可 以 用 查询 语句 找到 。 


假设 要 进行 年 度 工资 增长 ， 所 有 教师 的 工资 将 增长 5% 。 我 们 写 出 : 





update instructor 
set salary = salary ` 1.05; 
上 面 的 更 新 语句 将 在 instructor 关系 的 每 个 元 组 上 执行 一 次 。 
如 果 只 给 那些 工资 低 于 70 000 美元 的 教师 涨 工资 ， 我 们 可 以 这 样 写 : 
update instructor 
set salary = salary * 1.05 
where salary < 70 000; 
总 之 ，update 语句 的 where 子 句 可 以 包含 select 语句 的 where F4 i KEIT AA 4 HM LIERE 
select). i insert, delete 类 似 ，update if“) PREM select 可 以 引用 待 更 新 的 关系 。 同 样 ，SQL 首先 
检查 关系 中 的 所 有 元 组 ， 看 它们 是 否 应 该 被 更 新 ， 然 后 才 执 行 更 新 。 例 如 ， 请 求 " 对 工资 低 于 平均 数 的 
教师 涨 5% 的 工资 " 可 以 写 为 如 下 形式 : 
update instructor 
set salary = salary ` 1.05 


where salary < (select avg (salary) 
from instructor ) ; 


我 们 现在 假设 给 工资 超过 100 000 美元 的 教师 涨 3% 的 工资 ， 其 余 教师 涨 5% 。 我 们 可 以 写 两 条 
update 语句 : 
update instructor 


set salary = salary ` 1.03 
where salary > 100000 ; 


update instructor 
set salary = salary ` 1.05 
where salary <= 100000; 
注意 这 两 条 update 语句 的 顺序 十 分 重要 。 假 如 我 们 改变 这 两 条 语句 的 顺序 ， 工 资 略 少 于 100 000 美元 
的 教师 将 增长 8% 的 工资 。 
SQL 提供 case 结构 ， 我 们 可 以 利用 它 在 一 条 update 语句 中 执行 前 面 的 两 种 更 新 ， 避 免 更 新 次 序 引 
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update instructor 
set salary = case 
when salary <= 100000 then salary ` 1.05 
else salary ` 1.03 
end 


case 语句 的 一 般 格式 如 下 : 
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case 
when pred, then result, 
when pred, then result, 


when pred, then result, 
else result, 
end 


当 i 是 第 一 个 满足 的 pred, , pred,---pred, 时 ， 此 操作 就 会 返回 result,; 如 果 没 有 一 个 谓词 可 以 满足 ， 则 
返回 result, 。case 语句 可 以 用 在 任何 应 该 出 现 值 的 地 方 。 
标量 子 查询 在 SQL 更 新 语句 中 也 非常 有 用 ， 它 们 可 以 用 在 set 子 句 中 。 考 虑 这 样 一 种 更 新 : 我 们 
把 每 个 student 元 组 的 tot_cred 属性 值 设 为 该 生成 功 学 完 的 课程 学 分 的 总 和 。 我 们 假设 如 果 一 个 学 生 在 
某 门 课程 上 的 成 绩 既 不 是 'F' ， 也 不 是 空 ， 那 么 他 成 功 学 完了 这 门 课程 。 我 们 需要 使 用 set 子 句 中 的 子 
查询 来 写 出 这 种 更 新 ， 如 下 所 示 : 
update student S 
set tot_cred = ( 
select sum( credits ) 
from takes natural join course 
where S. ID = takes. ID and 
takes. grade <> °F’ and 
takes. grade is not null) ; 
注意 子 查询 使 用 了 来 自 update 语句 中 的 相关 变量 5$。 如 果 一 个 学 生 没 有 成 功 学 完 任何 课程 ， 上 述 更 新 
语句 将 把 其 tot_cred 属性 值 设 为 空 。 如 果 想 把 这 样 的 属性 值 设 为 0 的 话 ， 我 们 可 以 使 用 男 一 条 update 
语句 来 把 空 值 替 换 为 0。 更 好 的 方案 是 把 上 述 子 查询 中 的 “select sum ( credits)” FAE H Ain FE 
case 表达 式 的 select 子 句 : 


Select case 
when sum( credits) is not null then sum ( credits ) 
else 0 
end 


3.10 BE 


© SQL 是 最 有 影响 力 的 商用 市 场 化 的 关系 查询 语言 。SQL 语言 包括 几 个 部 分 : 

口 数据 定义 语言 (DDL) ， 它 提供 了 定义 关系 模式 、 删 除 关 系 以 及 修改 关系 模式 的 命令 。 

O 数据 操纵 语言 (DML) ， 它 包括 查询 语言 ， 以 及 往 数据 库 中 插入 元 组 、 从 数据 库 中 删除 元 组 和 修改 

数据 库 中 元 组 的 命令 。 

。 SQL 的 数据 定义 语言 用 于 创建 具有 特定 模式 的 关系 。 除 了 声明 关系 属性 的 名 称 和 类 型 之 外 ，SQL 还 
人 允许 声明 完整 性 约束 ， 例 如 主 码 约 束 和 外 码 约束 。 
SQL 提供 多 种 用 于 查询 数据 库 的 语言 结构 ， 其 中 包括 select, from 和 where 子 句 。SQL 支持 自然 连接 
操作 。 
© SQL 还 提供 了 对 属性 和 关系 重 命名 ， 以 及 对 查询 结果 按 特 定 属性 进行 排序 的 机 制 。 
© SQL 支持 关系 上 的 基本 集合 运算 ,包括 并 、 交 和 差 运算 ， 它 们 分 别 对 应 于 数学 集合 论 中 的 U、 站 和 
-运算 。 
SQL 通过 在 通用 真 值 true 和 false 外 增加 真 值 “unknown”， 来 处 理 对 包含 空 值 的 关系 的 查询 。 
© SQL 支持 聚集 ， 可 以 把 关系 进行 分 组 ， 在 每 个 分 组 上 单独 运用 聚集 。SQL 还 支持 在 分 组 上 的 集合 
运算 。 
SQL 支持 在 外 层 查询 的 where 和 from 子 句 中 栋 套 子 查询 。 它 还 在 一 个 表达 式 返 回 的 单个 值 所 允许 出 
现 的 任何 地 方 支持 标量 子 查询 。 
SQL 提供 了 用 于 更 新 、 插 入 、 删 除 信息 的 结构 。 
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术语 回顾 
。 数据 定义 语言 口 where 子 句 口 group by 
© 数据 操纵 语言 。 自然 连接 运算 having 
。 数据 库 模 式 e as FAJ e RETA 
。 数据 库 实例 e order by 子 句 。 集合 比较 
。 关系 模式 。 相关 名 称 ( 相关 变量 ， 元 组 ale, <=, >, >=! 
。 关系 实例 变量 ) | some, all} 
。 主 码 e 集合 运算 口 exists 
e 外 码 口 union O unique 
口 参照 关系 口 intersect lateral 子 句 
口 被 参照 关系 口 except e with 子 句 
。 空 值 ° ZE 。 标量 子 查询 
e 查询 语言 O 真 值 * unknown” e 数据库 修改 
© SQL 查询 结构 。 聚集 函数 口 删除 
o select 子 句 O avg, min, max, sum, O 插入 
口 from 子 句 count 更 新 
实践 习题 
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3.4 


使 用 大 学 模式 ， 用 SQL 写 出 如 下 查询 。( 建 议 在 一 个 数据 库 上 实际 运行 这 些 查询 ， 使 用 我 们 在 本 书 的 
Web 网 站 db-book. com 上 提供 的 样本 数据 ， 上 述 网 站 还 提供 了 如 何 建立 一 个 数据 库 和 加 载 样本 数据 的 
说 明 。) 
a. 找 出 Comp. Sci. 系 开设 的 具有 3 个 学 分 的 课程 名 称 。 
b. 找 出 名 叫 Einstein 的 教师 所 教 的 所 有 学 生 的 标识 ， 保 证 结果 中 没有 重复 。 
c 找 出 教师 的 最 高 工资 。 
d 找 出 工资 最 高 的 所 有 教师 (可 能 有 不 止 一 位 教师 具有 相同 的 工资 ) 。 
e. 找 出 2009 年 秋季 开设 的 每 个 课程 段 的 选课 和 人数。 
f 从 2009 年 秋季 开设 的 所 有 课程 段 中 ， 找 出 最 多 的 选课 人 数 。 
g 找 出 在 2009 年 秋季 拥有 最 多 选课 人 数 的 课程 段 。 
假设 给 你 一 个 关系 grade_points( grad_e, points) ， 它 提供 从 takes 关系 中 用 字母 表示 的 成 绩 等 级 到 数字 表 
示 的 得 分 之 间 的 转换 。 例 如 ,“A” 等 级 可 指定 为 对 应 于 4 分 ,“A - "对 应 于 3.7 分 ,“B+ "对 应 于 3.3 
分 ,“B" 对 应 于 3 分 ， 等 等 。 学 生 在 某 门 课程 (课程 段 ) 上 所 获得 的 等 级 分 值 被 定义 为 该 课程 段 的 学 分 
乘 以 该 生得 到 的 成 绩 等 级 所 对 应 的 数字 表示 的 得 分 。 
给 定 上 述 关 系 和 我 们 的 大 学 模式 ， 用 SQL 写 出 下 面 的 每 个 查询 。 为 简单 起 见 ， 可 以 假设 没有 任何 
takes 元 组 在 grade 上 取 null 值 。 
a. 根据 ID 为 12345 的 学 生 所 选修 的 所 有 课程 ， 找 出 该 生 所 获得 的 等 级 分 值 的 总 和 。 
b. 找 出 上 述 学 生 等 级 分 值 的 平均 值 ( GPA) ， 即 用 等 级 分 值 的 总 和 除 以 相关 课程 学 分 的 总 和 。 
c. 找 出 每 个 学 生 的 ID 和 等 级 分 值 的 平均 值 。 
使 用 大 学 模式 ， 用 SQL 写 出 如 下 插入 、 删 除 和 更 新 语句 。 
a. 给 Comp. Sci. 系 的 每 位 教师 涨 10% 的 工资 。 
b. 删除 所 有 未 开设 过 ( 即 没有 出 现在 section 关系 中 ) 的 课程 。 
c. 把 每 个 在 tot_cred 属性 上 取 值 超过 100 的 学 生 作为 同系 的 教师 插入 ， 工 资 为 10 000 美元 。 
考虑 图 3-18 中 的 保险 公司 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 这 个 关系 数据 库 构 造 出 如 下 SQL 查询 : 
a. 找 出 2009 年 其 车 辆 出 过 交通 事故 的 人 员 总 数 。 
b. 向 数据 库 中 增加 一 个 新 的 事故 ， 对 每 个 必需 的 属性 可 以 设 定 任 意 值 。 
c 删除 “John Smith” 拥有 的 马自达 车 (Mazda) 
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3.9 
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person (driver_id, name, address ) 

car (license, model, year) 

accident (report_number , date, location ) 

owns ( driver_id, license) 

participated ( report_number , license, driver_id , damage_amount ) 


图 3-18 习题 3.4 和 习题 3. 14 的 保险 公司 数据 库 





假设 有 关系 marks(ID, score) ， 我 们 希望 基于 如 下 标准 为 学 生 评定 等 级 : 如 果 score <40 得 F; 如 
Æ 40 <score <60 得 C; 如 果 60 三 score <80 得 B; 如 果 80 < score 得 A。 写 出 SQL 查询 完成 下 列 
操作 : 
a. 基于 marks 关系 显示 每 个 学 生 的 等 级 。 
b. 找 出 各 等 级 的 学 生 数 。 
SQL 的 like 运算 符 是 大 小 写 敏感 的 ， 但 字符 串 上 的 lower( ) 晒 数 可 用 来 实现 大 小 写 不 敏感 的 匹配 。 
为 了 说 明 是 怎么 用 的 ， 写 出 这 样 一 个 查询 : 找 出 名 称 中 包含 了 ”sci" 子 串 的 系 ， 忽 略 大 小 写 。 
考虑 SQL 查询 

select distinct p. al 

from p, rl, 72 

where p. al =rl. al or p. al =12. al 
在 什么 条 件 下 这 个 查询 选择 的 p. al 值 要 么 在 rl H, BAPE 2h? 仔细 考察 71 M2 可 能 为 空 的 
情况 。 
考虑 图 3-19 中 的 银行 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 这 个 关系 数据 库 构造 出 如 下 SQL 查询 : 
a 找 出 银行 中 所 有 有 账户 但 无 贷款 的 客户 。 
b. 找 出 与 “Smith” 居 住 在 同一 个 城市 、 同 一 个 街道 的 所 有 客户 的 名 字 . 
c. 找 出 所 有 支行 的 名 称 ， 在 这 些 支 行 中 都 有 居住 在 ”Harrison” 的 客户 所 开设 的 账户 。 


branch( branch_name, branch_city, assets ) 
customer (customer_name, customer_street, customer_city ) 
loan (loan_number , branch_name, amount ) 


borrower ( customer_name , loan_number ) 
account ( account_number, branch_name, balance ) 
depositor ( customer_name , account_number ) 


图 3-19 习题 3. 8 和 习题 3. 15 的 银行 数据 库 


考虑 图 3-20 的 雇员 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 下 面 每 个 查询 写 出 SQL 表达 式 : 
a. 找 出 所 有 为 "First Bank Corporation "工作 的 雇员 名 字 及 其 居住 城市 。 | 106 | 
b. 找 出 所 有 为 “First Bank Corporation "工作 且 薪 金 超过 10 000 美元 的 雇员 名 字 、 居 住 街道 和 城市 。 By 
c. 找 出 数据 库 中 所 有 不 为 “First Bank Corporation” 工作 的 雇员 。 
d. 找 出 数据 库 中 工资 高 于 “Small Bank Corporation "的 每 个 雇员 的 所 有 雇员 。 
e. 假设 一 个 公司 可 以 在 好 几 个 城市 有 分 部 。 找 出 位 于 “Small Bank Corporation ”所 有 所 在 城市 的 所 
有 公司 。 
f. 找 出 雇员 最 多 的 公司 。 
g 找 出 平均 工资 高 于 “First Bank Corporation "平均 工资 的 那些 公司 。 

















employee( employee_name, street , city) 
works ( employee_name , company_name, salary) 
company ( company_name , city) 
managers ( employee_name , manager_name ) 


图 3-20 习题 3.9、 习 题 3. 10 、 习 题 3. 16 、 习 题 3. 17 和 习题 3. 20 的 雇员 数据 库 
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3. 10 考虑 图 3-20 的 关系 数据 库 ， 给 出 下 面 每 个 查询 的 SQL 表达 式 : 
a. 修改 数据 库 使 "Jones "现在 居住 在 " Newtown” 市 。 
b. 为 “First Bank Corporation "所 有 工资 不 超过 100 000 美元 的 经 理 增长 10% 的 工资 ， 对 工资 超过 
100 000 美元 的 只 增长 3% 。 
习题 
3. 11 使 用 大 学 模式 ， 用 SQL 写 出 如 下 查询 。 
a. 找 出 所 有 至 少 选修 了 一 门 Comp. Sci. 课程 的 学 生 姓 名 ， 保 证 结果 中 没有 重复 的 姓名 。 
b. 找 出 所 有 没有 选修 在 2009 年 春季 之 前 开设 的 任何 课程 的 学 生 的 ID 和 姓名 。 
c. 找 出 每 个 系 教师 的 最 高 工资 值 。 可 以 假设 每 个 系 至 少 有 一 位 教师 。 
d. 从 前 述 查 询 所 计算 出 的 每 个 系 最 高 工资 中 选 出 最 低 值 。 
3.12 使 用 大 学 模式 ， 用 SQL 写 出 如 下 查询 。 
a. 创建 一 门 课 程 “ CS -001”， 其 名 称 为 "Weekly Seminar”， 学 分 为 0。 
b. 创建 该 课程 在 2009 年 秋季 的 一 个 课程 段 ，sec_id 41, 
c. 让 Comp. Sei. 系 的 每 个 学 生 都 选修 上 述 课程 段 。 
d. 删除 名 为 Chavez 的 学 生 选 修 上 述 课程 段 的 信息 。 
e. 删除 课程 CS-001。 如 果 在 运行 此 删除 语句 之 前 ， 没 有 先 删 除 这 门 课程 的 授课 信息 (课程 段 )， 
会 发 生 什 么 事情 ? 
f. 删除 课程 名 称 中 包含 “database” 的 任意 课程 的 任意 课程 段 所 对 应 的 所 有 takes 元 组 ， 在 课程 名 
的 匹配 中 忽略 大 小 写 。 
.13” 写 出 对 应 于 图 3-18 中 模式 的 SQL DDL. 在 数据 类 型 上 做 合理 的 假设 ,确保 声明 主 码 和 外 码 。 
考虑 图 3-18 中 的 保险 公司 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 对 这 个 关系 数据 库 构造 如 下 的 SQL 
查询 : 
a. 找 出 和 “John Smith” 的 车 有 关 的 交通 事故 数量 。 
b. 对 事故 报告 编号 为 “AR2197” 中 的 车 牌 是 ”AABB2000" 的 车 辆 损坏 保险 费用 更 新 到 3000 美元 。 
3.15 考虑 图 3-19 中 的 银行 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 为 这 个 关系 数据 库 构造 出 如 下 SQL 
查询 : 
a. 找 出 在 “Brooklyn” 的 所 有 支行 都 有 账户 的 所 有 客户 。 
b. 找 出 银行 的 所 有 贷款 额 的 总 和 。 
c. 找 出 总 资产 至 少 比 位 于 Brooklyn 的 某 一 家 支行 要 多 的 所 有 支行 名 字 
3.16 考虑 图 3-20 中 的 雇员 数据 库 ， 其 中 加 下 划 线 的 是 主 码 。 给 出 下 面 每 个 查询 对 应 的 SQL RARR: 
a. 找 出 所 有 为 “First Bank Corporation "工作 的 雇员 名 字 
b. 找 出 数据 库 中 所 有 居住 城市 和 公司 所 在 城市 相同 的 雇员 。 
c. 找 出 数据 库 中 所 有 居住 的 街道 和 城市 与 其 经 理 相同 的 雇员 。 
d. 找 出 工资 高 于 其 所 在 公司 雇员 平均 工资 的 所 有 雇员 。 
e. 找 出 工资 总 和 最 小 的 公司 。 
3.17 考虑 图 3-20 中 的 关系 数据 库 。 给 出 下 面 每 个 查询 对 应 的 SQL 表达 式 : 
a. 为 “First Bank Corporation” 的 所 有 雇员 增长 10% 的 工资 。 
b. 为 “First Bank Corporation” 的 所 有 经 理 增长 10% 的 工资 。 
c. 删除 “Small Bank Corporation” 的 雇员 在 works 关系 中 的 所 有 元 组 。 
列 出 两 个 原因 ， 说 明 为 什么 空 值 可 能 被 引入 到 数据 库 中 。 
证 明 在 SQL 中 ，<> all 等 价 于 not in, 
给 出 图 3-20 中 雇员 数据 库 的 SQL 模式 定义 。 为 每 个 属性 选择 合适 的 域 ， 并 为 每 个 关系 模式 选择 
合适 的 主 码 。 
3.21 考虑 图 3-21 中 的 图 书馆 数据 库 。 用 SQL 写 出 如 下 查询 : 


w w 
_ 
P 


Vasa E 
N = 一 
© O 20 
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. 打印 借阅 了 任意 由 “McGraw-Hill” 出 版 的 书 的 会 员 名 字 。 

. 打印 借阅 了 所 有 由 “McGraw-Hill” 出 版 的 书 的 会 员 名 字 。 

. 对 于 每 个 出 版 商 ， 打 印 借阅 了 多 于 五 本 由 该 出 版 商 出 版 的 书 的 会 员 名 字 。 

. 打印 每 位 会 员 借阅 书籍 数量 的 平均 值 。 考 虑 这 样 的 情况 : 如 果 某 会 员 没 有 借阅 任何 书籍 ， 那 
么 该 会 员 根本 不 会 出 现在 borrowed 关系 中 。 


a a pf 


a 





member( memb_no, name, age) 
book( isbn, title, authors, publisher ) 
borrowed ( memb_no, isbn, date) 











3-21 习题 3. 21 的 图 书馆 数据 库 
3.22 不 使 用 unique 结构 ， 重 写 下 面 的 where 子 句 : 


where unique (select title from course ) 


3.23 考虑 查询 : 


select course_id, semester, year, sec_id, avg (tot_cred) 
from takes natural join student 
where year = 2009 
group by course_id, semester, year, sec_id 
having count (/D) >= 2; 
解释 为 什么 在 from 子 句 中 还 加 上 与 section 的 连接 不 会 改变 查询 结果 。 
3.24 考虑 查询 : 
with dept total (dept_name, value) as 
(select dept_name, sum( salary) 
from instructor 
group by depi_name) , 
dept_total_avg( value) as 
(select avg( value ) 
from dept_total ) 
select dept_name 
from dept_total, dept_total_avg 
where dept_total. value >= dept_total_avg. value; 


不 使 用 with 结构 ， 重 写 此 查询 。 


工具 


很 多 关系 数据 库 系统 可 以 从 市 场 上 购 得 ， 包 括 IBM DB2, IBM Informix, Oracle, 、Sybase， 以 及 微软 
的 SQL Server。 另 外 还 有 几 个 数据 库 系统 可 以 从 网 上 下 载 并 免费 使 用 ， 包括 PostgreSQL、MySQL( 除 几 
种 特定 的 商业 化 使 用 外 是 免费 的 ) 和 Oracle Express edition。 

大 多 数 数据 库 系 统 提 供 了 命令 行 界面 ， 用 于 提交 SQL 命令 。 此 外 ， 大 多 数 数据 库 还 提供 了 图 形 
化 的 用 户 界 面 (GUI) ， 它 们 简化 了 浏览 数据 库 、 创 建 和 提交 查询 ， 以 及 管理 数据 库 的 任务 。 还 有 商 
品 化 的 IDE， 用 于 在 多 个 数据 库 平 台 上 运行 SQL， 包括 Embarcadero 的 RAD Studio 与 Aqua Data 
Studio, 

pgAdmin 工具 为 PostgreSQL 提供 了 GUI 功能 ; phpMyAdmin 为 MySQL 提供 了 GUI HE. NetBeans 
IDE 提供 了 一 个 GUI 前 端 ， 可 以 与 很 多 不 同 的 数据 库 交 互 ， 但 其 功能 有 限 ; Eclipse IDE 通过 几 种 不 同 
插件 支持 类 似 的 功能 ， 这 些 插件 包括 Data Tools Platform(DTP) 和 JBuilder, 

本 书 的 Web 网 站 db-book. com 提供 了 SQL 模式 定义 和 大 学 模式 的 样本 数据 。 该 Web 网 站 还 提供 了 | 110 
如 何 建立 和 访问 一 些 流行 的 数据 库 系统 的 说 明 。 本 章 讨论 的 SQL 结构 是 SQL 标准 的 一 部 分 ， 但 一 些 特 | 111 | 
征 可 能 没 被 某 些 数据 库 所 支持 。Web 网 站 上 列 出 了 这 些 不 相 容 的 特征 ， 在 这 些 数据 库 上 执行 查询 时 需 
要 多 加 考虑 。 
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文献 注解 


SQL 的 最 早 版 本 Sequel 2 由 Chamberlin 等 [1976] 描 述 。Sequel 2 是 从 Square 语言 (Boyce 等 | 1975 | 
以 及 Chamberlin 和 Boyce [1974] ) 派 生出 来 的 。 美 国 国家 标准 SQL-86 在 ANSI [ 1986 | 中 描述 。IBM A 
统 应 用 体系 结构 对 SQL 的 定义 由 IBM[ 1987] 给 出 。SQL-89 和 SQL-92 官方 标准 可 分 别 从 ANSI[ 1989 ] 和 
ANSI[ 1992 ] 获得 。 

介绍 SQL-92 语言 的 教材 包括 Date 和 Darwen[ 1997 ] Melton 和 Simon[ 1993 ] 以 及 Cannan 和 Otten 
[1993 ] Date 和 Darwen[ 1997] 以 及 Date[ 1993a] 都 包含 了 从 编程 语言 角度 对 SQL-92 的 评论 。 

介绍 SQL:19959 的 教程 包括 Melton 和 Simon[ 2001] 以 及 Melton[ 2002 ] Eisenberg 和 Melton| 1999 ] 提 
供 了 对 SQL:1999 的 概览 。Donahoo 和 Speegle[ 2005 ] 从 开发 者 的 角度 介绍 了 SQL. Eisenberg 等 [2004 | 
提供 了 对 SQL:2003 的 概览 。 

SQL:1999、SQL:2003 、SQL:2006 和 SQL:2008 标准 都 是 作为 ISO/IEC 标准 文档 集 被 发 布 的 ，24.4 
节 将 介绍 关于 它们 的 更 多 细节 。 标 准 文档 中 塞 满 了 大 量 的 信息 ， 非 常 难以 阅读 ， 主 要 用 于 数据 库 系 统 
的 实现 。 标 准 文档 可 以 从 Web 网 站 http: //webstore. ansi. org 上 购买 。 

很 多 数据 库 产 品 支 持 标 准 以 外 的 SQL 特性 ， 还 可 能 不 支持 标准 中 的 某 些 特性 。 关 于 这 些 特性 的 更 
多 信息 可 在 各 产品 的 SQL 用 户 手册 中 找到 。 

SQL 查询 的 处 理 ， 包 括 算法 和 性 能 等 问题 ， 将 在 第 12 章 和 第 13 章 讨论 。 关 于 这 些 问 题 的 参考 文 

献 也 在 那里 。 
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中 级 SQL 


本 章 我 们 继续 学 习 SQL。 我 们 考虑 具有 更 复杂 形式 的 SQL 查询 、 视 图 定义 、 事 务 、 完 整 性 约束 、 


关于 SQL 数据 定义 的 更 详细 介绍 以 及 授权 。 
4.1 连接 表达 式 


E 3.3.3 节 我 们 介绍 了 自然 连接 运算 。SQL 提供 了 连接 
运算 的 其 他 形式 , 包括 能 够 指定 显 式 的 连接 谓词 (join 
predicate) ， 能 够 在 结果 中 包含 被 自然 连接 排除 在 外 的 元 组 。 


本 节 我 们 将 讨论 这 些 连 接 的 形式 。 


本 节 的 例子 涉及 student 和 takes 两 个 关系 ， 分 别 如 图 4-1 
和 图 4-2 所 示 。 注 意 到 对 于 ID 为 98988 的 学 生 ， 他 在 2010 夏 
季 选 修 的 BIO-301 课程 的 1 号 课程 段 的 grade 属性 为 空 值 。 该 


空 值 表示 这 门 课程 的 成 绩 还 没有 得 到 。 
4.1.1 连接 条 件 
在 3.3.3 节 我 们 介绍 了 如 何 表 达 自 然 连接 ， 并 
且 介 绍 了 join---using 子 句 ， 它 是 一 种 自然 连接 的 形 
式 ， 只 需要 在 指定 属性 上 的 取 值 匹配 。SQL 支持 另 
外 一 种 形式 的 连接 ， 其 中 可 以 指定 任意 的 连接 条 件 。 
on 条 件 允 许 在 参与 连接 的 关系 上 设置 通用 的 请 
词 。 该 谓词 的 写法 与 where 子 句 谓词 类 似 ， 只 不 过 
使 用 的 是 关键 词 on 而 不 是 where。 与 using 条 件 一 
PE, om 条 件 出 现在 连接 表达 式 的 末尾 。 
考虑 下 面 的 查询 ， 它 具有 包含 on 条 件 的 连接 表 
达 式 : 
select * 
from student join takes on student. ID = takes. ID; 


ER on 条 件 表 明 : 如 果 一 个 来 自 student 的 元 组 和 
一 个 来 自 takes 的 元 组 在 ID 上 的 取 值 相同 ， 那 么 它 
们 是 匹配 的 。 在 上 例 中 的 连接 表达 式 与 连接 表达 式 
student natural join takes 几乎 是 一 样 的 ， 因 为 自然 连 
接 运 算 也 需要 student 元 组 和 takes 元 组 是 匹配 的 。 这 









































ID name dept_name F tot.cred 
00128 | Zhang Comp. Sci. 102 
12345 | Shankar | Comp. Sci. 32 
19991 | Brandt History 80 
23121 | Chavez Finance 110 
44553 | Peltier Physics 56 
45678 | Levy Physics 46 
54321 | Williams | Comp. Sci. 54 
55739 | Sanchez | Music 38 
70557 | Snow Physics 0 
76543 | Brown Comp. Sci. 58 
76653 | Aoi Elec. Eng. 60 
98765 | Bourikas | Elec. Eng. 98 
98988 | Tanaka Biology 120 
图 4-1 student 关系 
ID | courseid | secid | semester | year | grade 
00128 | CS-101 1 Fall 2009 | A 
00128 | CS-347 1 Fall 2009 | A- 
12345 | CS-101 1 Fall 2009 | C 
12345 | CS-190 2 Spring 2009 | A 
12345 | CS-315 1 | Spring 2010 | A 
12345 | CS-347 1 Fall 2009 | A 
19991 | HIS-351 1 Spring 2010 | B 
23121 | FIN-201 1 | Spring 2010 | C+ 
44553 | PHY-101 1 | Fall 2009 | B- 
45678 | CS-101 1 Fall 2009 | F 
45678 | CS-101 1 Spring 2010 | B+ 
45678 | CS-319 1 Spring 2010 | B 
54321 | CS-101 1 Fall 2009 | A- 
54321 | CS-190 2 | Spring 2009 | B+ 
55739 | MU-199 1 Spring 2010 | A- 
76543 | CS-101 1 Fall 2009 | A 
76543 | CS-319 2 Spring 2010 | A 
76653 | EE-181 1 | Spring 2009 | C 
98765 | CS-101 1 Fall 2009 | C- 
98765 | CS-315 1 Spring 2010 | B 
98988 | BIO-101 1 | Summer | 2009 | A 
98988 | BIO-301 1 Summer | 2010 | null 




















图 4-2 takes 关系 


两 者 之 间 的 一 个 区 别 在 于 : 在 上 述 连接 查询 结果 中 ,， 肥 属性 出 现 两 次 ,一 次 是 student 中 的 ， 另 一 次 是 


takes 中 的 ， 即 便 它 们 的 ID 属性 值 是 相同 的 。 


实际 上 ， 上 述 查 询 与 以 下 查询 是 等 价 的 (换言之 ,它们 产生 了 完全 相同 的 结果 ) : 


select * 


from student, takes 
where student. ID = takes. ID; 
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正如 我 们 此 前 所 见 ， 关 系 名 用 来 区 分 属性 名 ID, ORE ID 的 两 次 出 现 被 分 别 表示 为 student. ID 和 
takes. 万 。 只 显示 一 次 ID 值 的 查询 版 本 如 下 : 


select student. ID as ID, name, dept_name, tot_cred , 
course_id, sec_id, semester, year, grade 
from student join takes on student. ID = takes. ID; 


上 述 查询 的 结果 如 图 4-3 所 示 。 




















ID | name dept_name_| tot.cred | coursed | sec.id | semester | year | grade 
00128 | Zhang “| Comp. Sci. 102 | CS-101 1 | Fall | 20097 A 
00128 | Zhang “| Comp. Sci. 102 | CS-347 1 | Fall 2009 | A- 
12345 | Shankar | Comp. Sci. 32 | CS-101 1 | Fall 2009 | C 
12345 | Shankar | Comp. Sci. 32 | CS-190 2 |Spring | 2009/A 
12345 | Shankar | Comp. Sci. 32 | CS-315 1 |Spring |2010|A 
12345 | Shankar | Comp. Sci. 32 | CS-347 1 ‘| Fall 2009 | A 
19991 | Brandt | History 80 | HIS-351 1 |Spring |2010 |B 
23121 | Chavez | Finance 110 | FIN-201 1 |Spring |2010 | C+ 
44553 | Peltier | Physics 56|PHY-101| 1 | Fall | 2009 | B- 
45678 | Levy Physics 46 | CS-101 1 | Fall 2009 | F 
45678 | Levy Physics 46 | CS-101 1 |Spring | 2010| B+ 
45678 | Levy Physics 46 | CS-319 1 |Spring |2010 |B 
54321 | Williams | Comp. Sci. 54 | CS-101 1 ‘| Fall 2009 | A- 
54321 | Williams | Comp. Sci. 54 | CS-190 2 |Spring | 2009) B+ 
55739 | Sanchez | Music 38 | MU-199 | 1 |Spring |2010 |A- 
76543 | Brown | Comp. Sci. 58 | CS-101 1 | Fall 2009 | A 
76543 | Brown “| Comp. Sci. 58 | CS-319 2 {Spring |2010A | 
76653 | Aoi Elec. Eng. 60 | EE-181 1 {Spring |2009/C | 
| 98765 | Bourikas | Elec. Eng. 98 | CS-101 1 | Fall 2009|C- | 
98765 | Bourikas | Elec. Eng. 98 | CS-315 1 |Spring |2010 |B 
98988 | Tanaka | Biology 120 | BIO-101 | 1 | Summer | 2 A 
98988 | Tanaka | Biology 120 | BIO-301 1 | Summer | 2010 | null 





























图 4-3 student join takes on student. ID = takes. 万 的 结果 ， 其 中 省 略 了 ID 的 第 二 次 出 现 


on 条 件 可 以 表示 任何 SQL 谓词 ， 从 而 使 用 on 条 件 的 连接 表达 式 就 可 以 表示 比 自然 连接 更 为 丰富 
的 连接 和 条件。 然而， 正如 上 例 所 示 ， 使 用 带 on 条 件 的 连接 表达 式 的 查询 可 以 用 不 带 on 条 件 的 等 价 表 
达 式 来 替换 ， 只 要 把 on 子 句 中 的 谓词 移 到 where 子 句 中 即 可 。 这 样 看 来 ，on 条 件 似乎 是 一 个 元 余 的 
SQL 特征 。 

但 是 ， 引 入 on 条 件 有 两 个 优点 。 首 先 ， 对 于 我 们 马上 要 介绍 的 ， 被 称 作 外 连接 的 这 类 连接 来 说 ， 
on 条 件 的 表现 与 where 条 件 是 不 同 的 。 其 次 ， 如 果 在 on 子 句 中 指定 连接 条 件 ， 并 在 where 子 句 中 出 
现 其 余 的 条 件 ， 这 样 的 SQL 查询 通常 更 容易 让 人 读 慌 。 

4. 1.2 外 连接 

假设 我 们 要 显示 一 个 所 有 学 生 的 列表 ， 显 示 他 们 的 ID, name, dept_name 和 tot_cred， 以 及 他 们 所 

选修 的 课程 。 下 面 的 查询 好 像 检 索 出 了 所 需 的 信息 : 

select * 

from student natural join takes ; 
遗憾 的 是 ， 上 述 查 询 与 想 要 的 结果 是 不 同 的 。 假 设 有 一 些 学 生 ， 他 们 没有 选修 任何 课程 。 那 么 这 些 学 
生 在 student 关系 中 所 对 应 的 元 组 与 takes 关系 中 的 任何 元 组 配对 ， 都 不 会 满足 自然 连接 的 条 件 ， 从 而 这 
些 学 生 的 数据 就 不 会 出 现在 结果 中 。 这 样 我 们 就 看 不 到 没有 选修 任何 课程 的 学 生 的 任何 信息 。 例 如 ， 
在 图 4-1 的 student 关系 和 图 4-2 的 takes HAP, ID 为 70557 的 学 生 Snow 没有 选修 任何 课程 。Snow 出 
现在 student 关系 中 ,但 是 Snow AY ID 号 没有 出 现在 takes 的 ID 列 中 。 从 而 Snow 不 会 出 现在 自然 连接 的 
结果 中 。 

更 为 一 般 地 ， 在 参与 连接 的 任何 一 个 或 两 个 关系 中 的 某 些 元 组 可 能 会 以 这 种 方式 “丢失 ”。 外 连接 
(outer join) 运算 与 我 们 已 经 学 过 的 连接 运算 类 似 , 但 通过 在 结果 中 创建 包含 空 值 元 组 的 方式 ,保留 了 
那些 在 连接 中 丢失 的 元 组 。 

例如 ， 为 了 保证 在 我 们 前 例 中 的 名 为 Snow 的 学 生出 现在 结果 中 ， 可 以 在 连接 结果 中 加 入 一 个 元 
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组 ， 它 在 来 自 student 关系 的 所 有 属性 上 的 值 被 设置 为 学 生 Snow 的 相应 值 ， 在 所 有 余下 的 来 自 takes X 
系 属性 上 的 值 被 设 为 null， 这 些 属性 是 course_id, sec_id, semester 和 year. 


实际 上 有 三 种 形式 的 外 连接 : 


e 左 外 连接 (left outer join ) 只 
e 右 外 连接 (right outer join) 只 


© 全 外 连接 (full outer join ) 保 留 出 现在 两 个 关系 中 的 元 组 。 
相 比 而 言 ， 为 了 与 外 连接 运算 相 区 分 ， 我 们 此 前 学 习 的 不 保留 未 匹配 元 组 的 连接 运算 被 称 作 内 连接 


(inner join) 运算 。 


保留 出 现在 左 外 连接 运算 之 前 (左边 ) 的 关系 中 的 元 组 : 
保留 出 现在 右 外 连接 运算 之 后 (右边 ) 的 关系 中 的 元 组 





我 们 现在 详细 解释 每 种 形式 的 外 连接 是 怎样 操作 的 。 我 们 可 以 按照 如 下 方式 计算 左 外 连接 运算 : 
首先 ， 像 前 面 那样 计算 出 内 连接 的 结果 ; 然后 ， 对 于 在 内 连接 的 左 侧 关系 中 任意 一 个 与 右 侧 关系 中 任 
何 元 组 都 不 匹配 的 元 组 +， 向 连接 结果 中 加 入 一 个 元 组 ">,r 的 构造 如 下 : 

© 元 组 r 从 左 侧 关 系 得 到 的 属性 被 赋 为 1 中 的 值 。 


。r 的 其 他 属性 被 赋 为 空 值 。 


图 4-4 给 出 了 下 面 查 询 的 结果 : 


与 内 连接 的 结果 不 同 ， 此 结果 中 包含 了 学 生 Snow(1D 70557) , 


select ` 


from student natural left outer join takes ; 


但 是 在 Snow 对 应 的 元 组 中 ， 在 那些 只 出 








courseid |secid 























现在 takes 关系 模式 中 的 属性 上 取 空 值 。 
[00128 | Zhang jea Sci. 102 
00128 | Zhang | Comp. Sci. 102 
12345 | Shankar | Comp. Sci. 32 
12345 | Shankar | Comp. Sci. 32 
12345 | Shankar | Comp. Sci. 32 
12345 | Shankar | Comp. Sci. 32 
19991 | Brandt | History 80 
23121 | Chavez |Finance 110 
44553 | Peltier | Physics 56 
45678 | Levy Physics 46 
45678 | Levy Physics 46 
45678 | Levy Physics 46 
54321 | Williams | Comp. Sci. 54 
54321 | Williams | Comp. Sci. 54 
55739 | Sanchez | Music 38 
70557 | Snow Physics 0 
76543 | Brown | Comp. Sci. 58 
76543 | Brown |Comp. Sci. 58 
76653 | Aoi Elec. Eng. 60 
98765 | Bourikas | Elec. Eng. 98 
98765 | Bourikas | Elec. Eng. 98 
98988 | Tanaka | Biology 120 
98988 | Tanaka | Biology 
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student natural left outer join takes 的 结果 


作为 使 用 外 连接 运算 的 另 一 个 例子 ， 我们 可 以 写 出 查询 “ 找 出 所 有 一 门 课程 也 没有 选修 的 学 生 ”: 


序 ， 如 下 所 示 : 


select /D 


from student natural left outer join takes 
where course_id is null; 


右 外 连接 和 左 外 连接 是 对 称 的 。 来 自 右 侧 关系 中 的 不 匹配 左 侧 关系 任何 元 组 的 元 组 被 补 上 空 值 ， 
并 加 入 到 右 外 连接 的 结果 中 。 这 样 ， 如 果 我 们 使 用 右 外 连接 来 重 写 前 面 的 查询 ， 并 交换 列 出 关系 的 次 


Select“ 
from takes natural right outer join student ; 


我 们 得 到 的 结果 是 一 样 的 ， 只 不 过 结果 中 属性 出 现 的 顺序 不 同 ( 见 


图 4-5)。 
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| dept-name | 
00128[CS-101 | 1 [Fall 12009[A = | Zhang |Comp.Sci. 102 | 
00128 | CS-347 | 1 Fall 2009|A- Zhang Comp.Sci| 102| 
12345 | CS-101 | 1 | Fall |2009|C | Shankar | Comp. Sci. | 32 | 
12345 | CS-190 2 |Spring |2009;A (Shankar | Comp. Sci. 32 | 
12345 | CS-315 1 |Spring |2010|A Shankar | Comp. Sci. 32 
12345 | CS-347 1 | Fall 2009 | A Shankar | Comp. Sci. 32 
19991 | HIS-351 1 |Spring | 2010/B Brandt | History | 80 | 
23121 | FIN-201 1 |Spring |2010|C+ | Chavez | Finance 110) 
44553 |PHY-101| 1 | Fall 2009 | B- | Peltier | Physics 56 
45678 | CS-101 1 | Fall 2009 | F Levy | Physics 46 
45678 | CS-101 1 |Spring |2010|B+ | Levy Physics 46 
45678 | CS-319 1 |Spring | 2010|B Levy |Physics 46 
54321 | CS-101 1 |Fall 2009| A- | Williams | Comp. Sci. 54 | 
54321 | CS-190 2 |Spring | 2009)B+ | Williams | Comp. Sci. 54 | 
55739 | MU-199 | 1 |Spring |2010|A- | Sanchez | Music 38 
70557 | null null | null | null | null | Snow Physics 0) 
76543 | CS-101 1 | Fall |2009|A =| Brown! Comp. Sci. 58 | 
76543 | CS-319 2 (Spring |2010|A Brown — Comp. Sci. | 58 | 
76653 | EE-181 1 |Spring |2009|C | Aoi Elec. Eng. | 60 | 
98765 | CS-101 1 | Fall 2009 | C- | Bourikas | Elec. Eng. 98 
98765 | CS-315 1 |Spring | 2010|B | Bourikas | Elec. Eng. 98 | 
98988 | BIO-101 1 |Summer}2009}A |Tanaka | Biology 120 | 
98988 | BIO-301 | 1 | Summer | 2010 | null | Tanaka [Biology | 120 | 

















图 4-5 takes natural right outer join student 的 结果 


全 外 连接 是 左 外 连接 与 右 外 连接 类 型 的 组 合 。 在 内 连接 结果 计算 出 来 之 后 ， 左 侧 关 系 中 不 匹配 右 
侧 关 系 任何 元 组 的 元 组 被 添上 空 值 并 加 到 结果 中 。 类 似 地 ， 右 侧 关 系 中 不 匹配 左 侧 关系 任何 元 组 的 元 
组 也 被 添上 空 值 并 加 到 结果 中 。 

作为 使 用 全 外 连接 的 例子 ， 考 虑 查询 :“ 显示 Comp. Sci. 系 所 有 学 生 以 及 他 们 在 2009 年 春季 选修 
的 所 有 课程 段 的 列表 。2009 年 春季 开设 的 所 有 课程 段 都 必须 显示 ， 即 使 没有 Comp. Sci. 系 的 学 生 选 修 
这 些 课程 段 ”"。 此 查询 可 写 为 : 

select” 
from( select ` 
from student 
where dept_name = ’ Comp. Sci’ ) 
natural full outer join 
( select” 
from takes 
where semester = ‘Spring’ and year = 2009) ; 

on 子 句 可 以 和 外 连接 一 起 使 用 。 下 述 查 询 与 我 们 见 过 的 第 一 个 使 用 “student natural left outer join 

takes” 的 查询 是 相同 的 ， 只 不 过 属性 ID 在 结果 中 出 现 两 次 。 
select ` 
from student left outer join takes on student. ID = takes. ID; 

正如 我 们 前 面 提 到 的 ，on 和 where 在 外 连接 中 的 表现 是 不 同 的 。 其 原因 是 外 连接 只 为 那些 对 相应 
内 连接 结果 没有 贡献 的 元 组 补 上 空 值 并 加 入 结果 。on 条 件 是 外 连接 声明 的 一 部 分 ， 但 where 子 句 却 不 
是 。 在 我 们 的 例子 中 ，ID 为 70557 的 学 生 “Snow” 所 对 应 的 student 元 组 的 情况 就 说 明了 这 样 的 差异 。 假 
设 我 们 把 前 述 查 询 中 的 on 子 句 谓词 换 成 where 子 句 ， 并 使 用 on 条 件 true; 


select” 
from student left outer join takes on true 
where student. ID = takes. ID; 


早先 的 查询 使 用 带 on 条 件 的 左 外 连接 ， 包 括 元 组 (70557,， Snow, Physics, 0, null, null, null, null, 


117 
null, null ) ， 因 为 在 takes 中 没有 ID = 70557 的 元 组 。 然 而 在 后 面 的 查询 中 ， 每 个 元 组 都 满足 连接 条 件 


true， 因 此 外 连接 不 会 产生 出 补 上 空 值 的 元 组 。 外 连接 实际 上 产生 了 两 个 关系 的 笛 卡 儿 积 。 因 为 在 takes 
中 没有 ID = 70557 的 元 组 ， 每 次 当 外 连接 中 出 现 name =“Snow” 的 元 组 时 ，student. ID 5 takes. ID 的 取 


第 4 章 中 级 SQL 67 


值 必然 是 不 同 的 ， 这 样 的 元 组 会 被 where 子 句 谓词 排除 掉 。 从 而 学 生 Snow 不 会 出 现在 后 面 查询 的 结 
果 中 。 
4.1.3 ”连接 类 型 和 条 件 
为 了 把 常规 连接 和 外 连接 区 分 开 来 ，SQL 中 把 常规 连接 称 作 内 连接 。 这 样 连接 子 句 就 可 以 用 inner 
join 来 替换 outer join ， 说 明 使 用 的 是 常规 连接 。 然 而 关键 词 inner 是 可 选 的 ， 当 join 子 句 中 没有 使 用 
outer Aji, BRAM He AE inner join。 从 而 ， 
select * 
from student join takes using (ID) ; 
等 价 于 : 
select ` 
from student inner join takes using (/D) ; 
ZEW sh, natural join 等 价 于 natural inner join, 
图 4-6 给 出 了 我 们 所 讨论 的 所 有 连接 类 型 的 列表 。 从 图 中 可 以 看 出 ， 任 意 的 连接 形式 (内 连接 、 左 
外 连接 、 右 外 连接 或 全 外 连接 ) 可 以 和 任意 的 连接 条 件 ( 自然 连接 、using 条 件 连接 或 on 条 件 连接 ) 进 
行 组 合 。 


inner join natural 


left outer join on < predicate> 
right outer join using (A;, Az ..., A,) 
full outer join 





图 4-6 连接 类 型 和 连接 条 件 


4.2 视图 


在 上 面 的 所 有 例子 中 ， 我 们 一 直 都 在 逻辑 模型 层 操作 ， 即 我 们 假定 了 给 定 的 集合 中 的 关系 都 是 实 
际 存储 在 数据 库 中 的 。 

让 所 有 用 户 都 看 到 整个 逻辑 模型 是 不 合适 的 。 出 于 安全 考虑 ， 可 能 需要 向 用 户 隐藏 特定 的 数据 。 
考虑 一 个 职员 需要 知道 教师 的 标识 、 姓 名 和 所 在 系 名 ， 但 是 没有 权限 看 到 教师 的 工资 值 。 此 人 应 该 看 
到 的 关系 由 如 下 SQL 语句 所 描述 : 


select ID, name, dept_name 
from instructor; 


除了 安全 考虑 ， 我 们 还 可 能 希望 创建 一 个 比 逻 辑 模型 更 符合 特定 用 户 直 觉 的 个 人 化 的 关系 集合 。 我 们 
可 能 希望 有 一 个 关于 Physics 系 在 2009 年 秋季 学 期 所 开设 的 所 有 课程 段 的 列表 ， 其 中 包括 每 个 课程 段 
在 哪 栋 建 筑 的 哪个 房间 授课 的 信息 。 为 了 得 到 这 样 的 列表 ， 我 们 需要 创建 的 关系 是 : 


select course. course_id, sec_id, building, room_number 
from course , section 
where course. course_id = section. course_id 
and course. dept_name = ’ Physics’ 
and section. semester = ` Fall’ 
and section. year = * 2009’ ; 
我 们 可 以 计算 出 上 述 查 询 的 结果 并 存储 下 来 ， 然 后 把 存储 关系 提供 给 用 户 。 但 如 果 这 样 做 的 话 ， 
— H instructor, course 或 section 关系 中 的 底层 数据 发 生变 化 ， 那 么 所 存储 的 查询 结果 就 不 再 与 在 这 些 关 
系 上 重新 执行 查询 的 结果 匹配 。 一 般 说 来 ， 对 像 上 例 那样 的 查询 结果 进行 计算 并 存储 不 是 一 种 好 的 方 
式 (尽管 也 存在 某 些 例外 情况 ， 我 们 会 在 后 面 讨论 ) 。 
相反 ，SQL 允许 通过 查询 来 定义 “ 虚 关 系 ”， 它 在 概念 上 包含 查询 的 结果 。 虚 关系 并 不 预先 计算 并 
存储 ， 而 是 在 使 用 虚 关 系 的 时 候 才 通过 执行 查询 被 计算 出 来 。 
任何 像 这 种 不 是 逻辑 模型 的 一 部 分 ， 但 作为 虚 关 系 对 用 户 可 见 的 关系 称 为 视图 (view) -。 在 任何 给 
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定 的 实际 关系 集合 上 能 够 支持 大 量 视图 。 
4.2.1 视图 定义 

我 们 在 SQL 中 用 create view 命令 定义 视图 。 为 了 定义 视图 ， 我 们 必须 给 视图 一 个 名 称 ， 并 且 必须 
提供 计算 视图 的 查询 。create view 命令 的 格式 为 : 


create view v as < query expression > ; 


其 中 < query expression > 可 以 是 任何 合法 的 查询 表达 式 ,v 表示 视图 名 。 

重新 考虑 需要 访问 instructor 关系 中 除 salary 之 外 的 所 有 数据 的 职员 。 这 样 的 职员 不 应 该 授予 访问 
instructor 关系 的 权限 (我 们 将 在 后 面 4.6 节 介 绍 如 何 进行 授权 )。 相 反 ， 可 以 把 视图 关系 faculty 提供 给 
职员 ， 此 视图 的 定义 如 下 : 


create view faculty as 
select JD, name, dept_name 
from instructor; 
正如 前 面 已 经 解释 过 的 ， 视 图 关系 在 概念 上 包含 查询 结果 中 的 元 组 ， 但 并 不 进行 预计 算 和 存储 。 
相反 ， 数 据 库 系统 存储 与 视图 关系 相关 联 的 查询 表达 式 。 当 视图 关系 被 访问 时 ， 其 中 的 元 组 是 通过 计 
算 查 询 结果 而 被 创建 出 来 的 。 从 而 ， 视 图 关系 是 在 需要 的 时 候 才 被 创建 的 。 
为 了 创建 一 个 视图 ， 列 出 Physics RÆ 2009 年 秋季 学 期 所 开设 的 所 有 课程 段 ， 以 及 每 个 课程 段 在 
哪 栋 建筑 的 哪个 房间 授课 的 信息 ， 我 们 可 以 写 出 : 
create view physics_fall_2009 as 
select course. course_id, sec_id, building, room_number 


from course, section 
where course. course_id = section. course_id 


and course. dept_name = ’ Physics’ 
and section. semester = ’ Fall’ 
and section. year = * 2009’ ; 


4.2.2 SQL 查询 中 使 用 视图 
一 旦 定义 了 一 个 视图 ， 我 们 就 可 以 用 视图 名 指 代 该 视图 生成 的 虚 关 系 。 使 用 视图 physics _ fall_ 
2009 ， 我 们 可 以 用 下 面 的 查询 找到 所 有 于 2009 年 秋季 学 期 在 Watson 大 楼 开设 的 Physics 课程 : 
select course_id 
from physics_fall_2009 
where building = ’ Watson’ ; 
在 查询 中 ， 视 图 名 可 以 出 现在 关系 名 可 以 出 现 的 任何 地 方 。 
视图 的 属性 名 可 以 按 下 述 方式 显 式 指定 : 


create view departments_total_salary( dept_name, total_salary) as 
select dept_name, sum (salary) 
from instructor 
group by dept_name; 


上 述 视图 给 出 了 每 个 系 中 所 有 教师 的 工资 总 和 。 因 为 表达 式 sum (salary) 没有 名 称 ， 其 属性 名 是 在 视图 
定义 中 显 式 指 定 的 。 

直觉 上 ， 在 任何 给 定时 刻 ， 视 图 关系 中 的 元 组 集 是 该 时 刻 视图 定义 中 的 查询 表达 式 的 计算 结果 。 
因此 ， 如 果 一 个 视图 关系 被 计算 并 存储 ， 一 旦 用 于 定义 该 视图 的 关系 被 修改 ， 视 图 就 会 过 期 。 为 了 避 
免 这 一 点 ， 视 图 通常 这 样 来 实现 : 当 我 们 定义 一 个 视图 时 ， 数 据 库 系 统 存储 视图 的 定义 本 身 ， 而 不 存 
储 定义 该 视图 的 查询 表达 式 的 执行 结果 。 一旦 视图 关系 出 现在 查询 中 ， 它 就 被 已 存储 的 查询 表达 式 代 
替 。 因 此 ， 无 论 我 们 何 时 执行 这 个 查询 ， 视 图 关系 都 被 重新 计算 。 

一 个 视图 可 能 被 用 到 定义 另 一 个 视图 的 表达 式 中 。 例 如 ， 我 们 可 以 如 下 定义 视图 physics_ fall_ 
2009_watson， 它 列 出 了 于 2009 年 秋季 学 期 在 Watson 大 楼 开设 的 所 有 Physics 课程 的 标识 和 房间 号 : 
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create view physics_fall_2009_watson as 
select course_id , room_number 
from physics_fall_2009 
where building = ’ Watson’ ; 


其 中 physics_fall_2009_watson 本 身 是 一 个 视图 关系 ， 它 等 价 于 : 
create view physics_fall_2009_watson as 
(select course_id , room_number 
from (select course. course_id, building, room_number 
from course , section 
where course. course_id = section. course_id 
and course. dept_name = ’ Physics’ 
and section. semester = ’ Fall’ 
and section. year = * 2009" ) 
where building = ’ Watson’ ; 
4.2.3 物化 视图 

特定 数据 库 系统 允许 存储 视图 关系 ， 但 是 它们 保证 : 如 果 用 于 定义 视图 的 实际 关系 改变 ， 视 图 也 
跟着 修改 。 这 样 的 视图 被 称 为 物化 视图 ( materialized view) 。 

例如 ， 考 察 视 图 departments_total_salary。 如 果 上 述 视图 是 物化 的 ， 它 的 结果 就 会 存放 在 数据 库 中 。 
然而 ， 如 果 一 个 instructor 元 组 被 插入 到 instructor KAP, RAM instructor 关系 中 删除 ， 定义 视 图 的 查 
询 结果 就 会 变化 ， 其 结果 是 物化 视图 的 内 容 也 必须 更 新 。 类 似 地 ， 如 果 一 位 教师 的 工资 被 更 新 ， 那 么 
departments_total_salary 中 对 应 于 该 教师 所 在 系 的 元 组 必须 更 新 。 

保持 物化 视图 一 直 在 最 新 状态 的 过 程 称 为 物化 视图 维护 ( materialized view maintenance) ， 或 者 通常 
简称 视图 维护 (view maintenance) ， 这 将 在 13. 5 节 进 行 介绍 。 当 构成 视图 定义 的 任何 关系 被 更 新 时 ， 可 
以 马上 进行 视图 维护 。 然 而 某 些 数据 库 系 统 在 视图 被 访问 时 才 执 行 视图 维护 。 还 有 一 些 系统 仅 采 用 周 
期 性 的 物化 视图 更 新 方式 ， 在 这 种 情况 下 ， 当 物化 视图 被 使 用 时 ， 其 中 的 内 容 可 能 是 陈旧 的 ， 或 者 说 
过 时 的 。 如 果 应 用 需要 最 新 数据 的 话 ， 这 种 方式 是 不 适用 的 。 某 些 数据 库 系 统 允 许 数据 库 管 理 员 来 控 
制 在 每 个 物化 视图 上 需要 采取 上 述 的 哪 种 方式 。 

频繁 使 用 视图 的 应 用 将 会 从 视图 的 物化 中 获 益 。 那 些 需要 快速 响应 基于 大 关系 上 聚集 计算 的 特定 
查询 也 会 从 创建 与 查询 相对 应 的 物化 视图 中 受益 良 多 。 在 这 种 情况 下 ， 聚 集结 果 很 可 能 比 定义 视图 的 
大 关系 要 小 得 多 ， 其 结果 是 利用 物化 视图 来 回答 查询 就 很 快 ， 它 避免 了 读 取 大 的 底层 关系 。 当 然 ， 物 
化 视图 查询 所 带 来 的 好 处 还 需要 与 存储 代价 和 增加 的 更 新 开销 相 权衡 。 

SQL 没有 定义 指定 物化 视图 的 标准 方式 ， 但 是 很 多 数据 库 系 统 提供 了 各 自 的 SQL 扩展 来 实现 这 项 
任务 。 一 些 数据 库 系统 在 底层 关系 变化 时 ， 总 是 把 物化 视图 保持 在 最 新 状态 ; 也 有 另外 一 些 系统 允许 
物化 视图 过 时 ,但 周期 性 地 重新 计算 物化 视图 。 

4.2.4 视图 更 新 

尽管 对 查询 而 言 ， 视 图 是 一 个 有 用 的 工具 ， 但 如 果 我 们 用 它们 来 表达 更 新 、 插 和 人 或 删除 ， 它 们 可 
能 带 来 严重 的 问题 。 困 难 在 于 ， 用 视图 表达 的 数据 库 修改 必须 被 翻译 为 对 数据 库 逻 辑 模型 中 实际 关系 
的 修改 。 

假设 我 们 此 前 所 见 的 视图 faculty 被 提供 给 一 个 职员 。 既 然 我 们 允许 视图 名 出 现在 任何 关系 名 可 以 
出 现 的 地 方 ， 该 职员 可 以 这 样 写 出 : 

insert into faculty 
values ( 30765’, ’Green’ , ’ Music’ ) ; 
这 个 插入 必须 表示 为 对 instructor 关系 的 插入 ， 因 为 instructor 是 数据 库 系 统 用 于 构造 视图 faculty 的 实际 
关系 。 然 而 ， 为 了 把 一 个 元 组 插入 到 instructor 中 ,我 们 必须 给 出 salary 的 值 。 存 在 两 种 合理 的 解决 方 
法 来 处 理 该 插入 : 
。 拒绝 插入 ， 并 向 用 户 返 回 一 个 错误 信息 。 
© 问 instructor 关系 插入 元 组 ( "30765” ,，" Green” , ’ Music’ , null), 
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通过 视图 修改 数据 库 的 男 一 类 问题 发 生 在 这 样 的 视图 上 : 


create view instructor_info as 

select JD, name, building 

from instructor, department 

where instructor. dept_name = department. dept_name ; 


XAMRA H RE BS ST ID, name 和 建筑 名 。 考 虑 如 下 通过 该 视图 的 插入 : 
insert into instructor_info 
values (' 69987", ’White’ , ’ Taylor’ ) ; 
假设 没有 标识 为 69987 的 教师 ， 也 没有 位 于 Taylor 大 楼 的 系 。 那 么 向 instructor 和 department 关系 中 
插入 元 组 的 唯一 可 能 的 方法 是 : 向 instructor 中 插入 元 组 ID | name | deptname | salary 
(° 69987’ , ’ White’ , null, nul) ， 并 向 department 中 插入 元 组 10101 | Srinivasan | Comp. Sci. | 65000 


i : : S 12121 | W Finance | 90000 
(null, * Taylor’ , null) 。 于 是 我 们 得 到 如 图 4-7 所 示 的 关系 。 | 15151 | Mozart Music. 40000 











department 关系 以 得 到 对 instructor _info 所 需 的 更 新 是 不 可 | 76543 | Singh Finance 80000 | 
行 的 。 76766 | Crick | Biology 72000 


但 是 这 个 更 新 并 没有 产生 出 所 需 的 结果 ， 因 为 视图 关系 |222 | Einstein | Physics | 95000 
! i i : ric AEA 32343 | ElSaid | History | 60000 
instructor _ info "P 5 2 AN E & 7c tH (° 69987", ' White’, 33456 | Gold Physics 87000 
“Taylor” J, , WE oS ; 45565 | Katz Comp. Sci. | 75000 

aylor )。 因 此 ,通过 利用 空 值 来 更 新 instructor 和 | 58583 | Califieri History | 62000 
































| 83821 | Brandt Comp. Sci. | 92000 
由 于 如 上 所 述 的 种 种 问题 ， 除 了 一 些 有 限 的 情况 之 外 ， | 98345 | Kim | Elec. Eng. | 80000 
一 般 不 允许 对 视图 关系 进行 修改 。 不 同 的 数据 库 系 统 指定 了 [Le White ull | 
不 同 的 条 件 以 允许 更 新 视图 关系 ; 请 参考 数据 库 系统 手册 以 instructor 
获得 详细 信息 。 通 过 视图 进行 数据 库 修改 的 通用 问题 已 经 成 aera ang” ge 
为 重要 的 研究 课题 ， 文 献 注 解 中 引用 了 一 些 这 方面 的 研究 。 Biology ; Watson 90000 
一 般 说 来 ， 如 果 定 义 视图 的 查询 对 下 列 条 件 都 能 满足 ， Becical Eng: | Tector | 85000 
我 们 称 SQL 视图 是 可 更 新 的 (updatable) ( 即 视 图 上 可 以 执行 | — pr | 120000 
isto ainter 50000 
插入 、 更 新 或 删除 ) : | Music. | Packard | 80000 
e from 子 句 中 只 有 一 个 数据 库 关 系 。 | Physics Watson | 70000 | 
。 select 子 句 中 只 包含 关系 的 属性 名 ， 不 包含 任何 表达 me Loo 
It, HRM distinct 声明 。 department 
SEREDE not null 约束 ， 也 不 构成 主 码 的 一 aisinas 


。 查询 中 不 含有 group by 或 having 子 句 。 
在 这 些 限制 下 ， 下 面 的 视图 上 人 允许 执行 update, insert 和 delete 操作 : 


create view history_instructors as 
select * 

from instructor 

where dept_name = ’ History’ ; 


即便 是 在 可 更 新 的 情况 下 ， 下 面 这 些 问题 仍然 存在 。 假 设 一 个 用 户 尝试 向 视图 history_instructors 中 
插 人 元 组 ( "25566” , ’ Brown’, ’ Biology’ , 100000) ， 这 个 元 组 可 以 被 插入 到 instructor 关系 中 ， 但 是 由 
于 它 不 满足 视图 所 要 求 的 选择 条 件 ， 它 不 会 出 现在 视图 history_instructors 中 
在 默认 情况 下 ，SQL 允许 执行 上 述 更 新 。 但 是 ， 可 以 通过 在 视图 定义 的 末尾 包含 with check option 
子 句 的 方式 来 定义 视图 。 这 样 ， 如 果 向 视图 中 插入 一 条 不 满足 视图 的 where 子 句 条 件 的 元 组 ， 数 据 库 
系统 将 拒绝 该 插入 操作 。 类 似 地 ， 如 果 新 值 不 满足 where 子 句 的 条 件 ， 更 新 也 会 被 拒绝 。 
125 SQL:1999 对 于 何 时 可 以 在 视图 上 执行 插入 、 更 新 和 删除 有 更 复杂 的 规则 集 ， 该 规则 集 允 许 通过 一 
类 更 大 视图 进行 更 新 ,但 是 这 些 规 则 过 于 复杂 ， 我 们 就 不 在 这 里 讨论 了 。 
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4.3 事务 


事务 (transaction ) 由 查询 和 (或 ) 更 新 语句 的 序列 组 成 。SQL 标准 规定 当 一 条 SQL 语句 被 执行 ， 就 
隐 式 地 开始 了 一 个 事务 。 下 列 SQL 语句 之 一 会 结束 一 个 事务 : 

e Commit work: 提交 当前 事务 ， 也 就 是 将 该 事务 所 做 的 更 新 在 数据 库 中 持久 保存 。 在 事务 被 提 

交 后 ， 一 个 新 的 事务 自动 开始 。 
è Rollback work: 回 滚 当前 事务 ， 即 撤销 该 事务 中 所 有 SQL 语句 对 数据 库 的 更 新 。 这 样 ， 数 据 库 
就 恢复 到 执行 该 事务 第 一 条 语句 之 前 的 状态 。 

关键 词 work 在 两 条 语句 中 都 是 可 选 的 。 

当 在 事务 执行 过 程 中 检测 到 错误 时 ， 事 务 回 滚 是 有 用 的 。 在 某 种 意义 上 ， 事 务 提 交 就 像 对 编辑 文 
档 的 变化 存盘 ， 而 回 滚 就 像 不 保存 变化 退出 编辑 。 一 旦 某 事务 执行 了 commit work， 它 的 影响 就 不 能 
用 rollback work 来 撤销 了 。 数 据 库 系统 保证 在 发 生 诸如 某 条 SQL 语句 错误 、 断 电 、 系 统 骨 溃 这 些 故障 
的 情况 下 ， 如 果 一 个 事务 还 没有 完成 commit work， 其 影响 将 被 回 深 。 在 断 电 和 系统 崩溃 的 情况 下 ， 
回 滚 会 在 系统 重启 后 执行 。 

例如 ， 考 虑 一 个 银行 应 用 ， 我 们 需要 从 一 个 银行 账户 上 把 钱 转 到 同一 家 银行 的 另 一 个 账户 。 为 了 
这 样 做 ， 我 们 需要 更 新 两 个 账户 的 余额 ， 把 需要 转移 的 资金 额 从 一 个 账户 划 走 ， 并 把 它 加 到 另 一 个 账 
户 上 。 如 果 在 从 第 一 个 账户 上 划 走 资金 以 后 ,但 在 把 这 笔 资金 加 入 第 二 个 账户 之 前 发 生 了 系统 月 演 ， 
那么 银行 账户 就 会 不 一 致 。 如 果 在 第 一 个 账户 划 走 资金 之 前 先 往 第 二 个 账户 存款 ， 并 且 在 存款 之 后 马 
上 发 生 系统 崩溃， 那么 也 会 出 现 类 似 的 问题 。 

作为 男 一 个 例子 ， 考 虑 我 们 正在 使 用 的 大 学 应 用 的 例子 。 我 们 假设 student 关系 中 每 个 元 组 在 tot_cred 
属性 上 的 取 值 需要 保持 在 最 新 状态 ， 只 要 学 生成 功 修 完 一 门 课程 ， 该 属性 值 就 要 更 新 。 为 了 这 样 做 ， 
只 要 takes 关系 被 更 新 为 记录 一 位 学 生成 功 修 完 一 门 课程 的 信息 (通过 赋予 适当 的 成 绩 ) ， 相 应 的 student 
元 组 也 必须 更 新 。 如 果 执 行 这 两 个 更 新 的 任务 在 执行 完 一 个 更 新 后 ,但 在 第 二 个 更 新 前 崩 演 了 ， 数 据 
库 中 的 数据 就 是 不 一 致 的 。 

一 个 事务 或 者 在 完成 所 有 步骤 后 提交 其 行为 ,或 者 在 不 能 成 功 完成 其 所 有 动作 的 情况 下 回 滚 其 所 
有 动作 ， 通 过 这 种 方式 数据 库 提 供 了 对 事务 具有 原子 性 (atomic ) 的 抽象 ， 原 子 性 也 就 是 不 可 分 割 性 。 
要 么 事务 的 所 有 影响 被 反映 到 数据 库 中 ， 要 么 任何 影响 都 没有 ( 在 回 滚 之 后 ) 。 

如 果 把 事务 的 概念 应 用 到 上 述 应 用 中 ， 那 些 更 新 语句 就 会 作为 单个 事务 执行 。 在 事务 执行 其 某 一 
条 语句 时 出 错 会 导致 事务 早先 执行 的 语句 的 影响 被 撤销 ， 从 而 不 会 让 数据 库 处 于 部 分 更 新 状态 。 

如 果 程 序 没有 执行 两 条 命令 中 的 任何 一 条 而 终止 了 ,那么 更 新 要 么 被 提交 要 么 被 回 滚 。SQL 标准 
并 没有 指出 究竟 执行 哪 一 种 ， 如 何 选 择 依赖 于 具体 实现 。 

在 很 多 SQL 实现 中 ， 默 认 方式 下 每 个 SQL 语句 自 成 一 个 事务 ， 且 一 执行 完 就 提交 。 如 果 一 个 事务 
要 执行 多 条 SQL 语句 ， 就 必须 关闭 单独 SQL 语句 的 自动 提交 。 如 何 关 闭 自动 提交 也 依赖 于 特定 的 SQL 
实现 ,尽管 在 诸如 JDBC 或 ODBC 那样 的 应 用 编程 接口 中 存在 标准 化 方式 来 完成 这 项 工作 。 我 们 将 在 
5.1.1 #15. 1.2 节 分 别 学 习 JDBC Fl ODBC. 

一 个 较 好 的 选择 是 ， 作 为 SQL:1999 标准 的 一 部 分 (但 目前 只 有 一 些 SQL 实现 支持 )， 允 许多 条 
SQL 语句 包含 在 关键 字 begin atomic…end 之 间 。 所 有 在 关键 字 之 间 的 语句 构成 了 一 个 单一 事务 。 

我 们 将 在 第 14 章 学 习 事 务 的 更 多 特性 ; 第 15 章 和 第 16 章 介绍 在 单个 数据 库 中 实现 事务 的 相关 问 
题 ， 而 在 第 19 章 介 绍 跨 多 个 数据 库 上 实现 事务 的 相关 问题 ， 这 是 为 了 处 理 不 同 银行 的 账户 之 间 转 账 的 
问题 ， 不 同 银行 有 不 同 的 数据 库 。 


4.4 完整 性 约束 


完整 性 约束 保证 授权 用 户 对 数据 库 所 做 的 修改 不 会 破坏 数据 的 一 致 性 。 因 此 ， 完 整 性 约束 防止 的 
是 对 数据 的 意外 破坏 。 
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完整 性 约束 的 例子 有 : 

© 教师 姓名 不 能 为 null, 

。 任意 两 位 教师 不 能 有 相同 的 教师 标识 。 

© course 关系 中 的 每 个 系 名 必须 在 department 关系 中 有 一 个 对 应 的 系 名 。 

。 一 个 系 的 预算 必须 大 于 0. 00 美元 。 

一 般 说 来 ， 一 个 完整 性 约束 可 以 是 属于 数据 库 的 任意 谓词 。 但 检测 任意 谓词 的 代价 可 能 太 高 。 因 
此 ， 大 多 数 数据 库 系统 允许 用 户 指定 那些 只 需 极 小 开销 就 可 以 检测 的 完整 性 约束 。 

在 3.2.2 节 我 们 已 经 见 过 了 一 些 完整 性 约束 的 形式 。 本 节 我 们 将 学 习 更 多 的 完整 性 约束 形式 。 在 

第 8 章 我 们 学 习 男 一 种 被 称 作 函数 依赖 的 完整 性 约束 形式 ， 它 主要 应 用 在 模式 设计 的 过 程 中 。 

完整 性 约束 通常 被 看 成 是 数据 库 模 式 设计 过 程 的 一 部 分 ， 它 作为 用 于 创建 关系 的 create table 命令 
的 一 部 分 被 声明 。 然 而 ， 完 整 性 约束 也 可 以 通过 使 用 alter table table-name add constraint 命令 施加 到 已 
有 关系 上 ， 其 中 constrain 可 以 是 关系 上 的 任意 约束 。 当 执行 上 述 命令 时 ， 系 统 首先 保证 关系 满足 指定 
的 约束 。 如 果 满 足 ， 那 么 约束 被 施加 到 关系 上 ; 如 果 不 满 足 ， 则 拒绝 执行 上 述 命令 。 
4.4.1 单个 关系 上 的 约束 

我 们 在 3. 2 节 中 描述 了 如 何 用 create table 命令 定义 关系 表 。create table 命令 还 可 以 包括 完整 性 约 
柬 语句 。 除 了 主 码 约束 之 外 ， 还 有 许多 其 他 可 以 包括 在 create table 命令 中 的 约束 。 人 允许 的 完整 性 约束 
包括 : 

e not null, 

e unique, 

e check( < 谓词 > ) 。 

我 们 将 在 下 面 的 几 节 中 讨论 上 述 每 一 种 约束 。 
4.4.2 not null 约束 

正如 我 们 在 第 3 章 中 讨论 过 的 ， 空 值 是 所 有 域 的 成 员 ， 因 此 在 默认 情况 下 是 SQL 中 每 个 属性 的 合 
法 值 。 然 而 对 于 一 些 属性 来 说 ， 空 值 可 能 是 不 合适 的 。 考 虑 student 关系 中 的 一 个 元 组 ， 其 中 name 是 
null。 这 样 的 元 组 给 出 了 一 个 未 知 学 生 的 学 生 信 息 ; 因此 它 不 含有 有 用 的 信息 。 类 似 地 ， 我 们 不 会 希望 
系 的 预算 为 null。 在 这 些 情况 下 ， 我们 希望 禁止 空 值 ， 我 们 可 以 通过 如 下 声明 来 通过 限定 属性 name 和 
budget 的 域 来 排除 空 值 : 


name varchar( 20) not null 
budget numeric( 12, 2) not null 


not null 声明 禁止 在 该 属性 上 插入 空 值 。 任 何 可 能 导致 向 一 个 声明 为 not null 的 属性 插入 空 值 的 数据 库 
修改 都 会 产生 错误 诊断 信息 。 
许多 情况 下 我 们 希望 避免 空 值 。 尤 其 是 SQL 禁止 在 关系 模式 的 主 码 中 出 现 空 值 。 因 此 ， 在 我 们 的 
大 学 例子 中 ,在 department 关系 上 如 果 声 明 属 性 dept_name 为 department 的 主 码 ， 那 它 就 不 能 为 空 。 因 
此 它 不 必 显 式 地 声明 为 not null。 
4.4.3 unique 约束 
SQL 还 支持 下 面 这 种 完整 性 约束 : 


unique ( A, Åz, sAm ) 


unique 声明 指出 属性 4; ,42 ,… ,4 形成 了 一 个 候选 码 ; 即 在 关系 中 没有 两 个 元 组 能 在 所 有 列 出 的 属性 
上 取 值 相同 。 然 而 候选 码 属性 可 以 为 null， 除 非 它 们 已 被 显 式 地 声明 为 not nul。 回 忆 一 下 ， 空 值 不 等 
于 其 他 的 任何 值 。( 这 里 对 空 值 的 处 理 与 3. 8. 4 节 中 定义 的 unique 结构 一 样 。) 
4.4.4 check 子 句 

当 应 用 于 关系 声明 时 ，check(P) 子 句 指 定 一 个 谓词 P， 关 系 中 的 每 个 元 组 都 必须 满足 谓词 P。 
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通常 用 check 子 句 来 保证 属性 值 满足 指定 的 条 件 ， 实 际 上 创建 了 一 个 强大 的 类 型 系统 。 例 如 ， 在 
创建 关系 department 的 create table 命令 中 的 check( budget > 0) 子 句 将 保证 budget 上 的 取 值 是 正 数 。 
作为 另 一 个 例子 ， 考 虑 如 下 语句 : 


create table section 
( course_id varchar (8 ) , 
sec_id varchar (8) , 
semester varchar (6) , 
year numeric (4, 0), 
building varchar (15) , 
room_number varchar (7) , 
time_slot_id varchar (4) , 
primary key (course_id, sec_id, semester, year) , 
check (semester in (’ Fall’ , ' Winter’ , ’ Spring’ , ’Summer’ ) ) ) ; 

这 里 我 们 用 check 子 句 模拟 了 一 个 枚 举 类 型 ， 通 过 指定 semester 必须 是 Fall’ |’ Winter’ |’ Spring’ 
aK’ Summer’ 中 的 一 个 来 实现 。 这 样 check 子 句 允 许 以 有 力 的 方式 对 属性 域 加 以 限制 ， 这 是 大 多 数 编 
程 语 言 的 类 型 系统 都 不 能 允许 的 。 

根据 SQL 标准 ，check 子 句 中 的 谓词 可 以 是 包括 子 查询 在 内 的 任意 谓词 。 然 而 ， 当 前 还 没有 一 个 
广泛 使 用 的 数据 库 产品 允许 包含 子 查询 的 谓词 。 [130 
4.4.5 参照 完整 性 

我 们 常常 希望 保证 在 一 个 关系 中 给 定 属 性 集 上 的 取 值 也 在 另 一 关系 的 特定 属性 集 的 取 值 中 出 现 。 
这 种 情况 称 为 参照 完整 性 ( referential integrity ) 。 

正如 我 们 此 前 在 3. 2. 2 节 所 见 ， 外 码 可 以 用 作为 SQL 中 create table 语句 一 部 分 的 foreign key F 
句 来 声明 。 我 们 用 大 学 数据 库 SQL DLL 定义 的 一 部 分 来 说 明 外 码 声明 ， 如 图 4-8 所 示 。course 表 的 定 
义 中 有 一 个 声明 “foreign key( dept_name) references department”。 这 个 外 码 声 明 表 示 ， 在 每 个 课程 元 
组 中 指定 的 系 名 必须 在 department 关系 中 存在 。 没 有 这 个 约束 ， 就 可 能 会 为 一 门 课程 指定 一 个 不 存在 
的 系 名 。 

更 一 般 地 ， 令 关系 7 和 7, 的 属性 集 分 别 为 R 和 尼 ， 主 码 分 别 为 天 和 K,。 如 果 要 求 对 r, 中 任意 
元 组 i, ， 均 存在 mm 中 元 组 i Et. K =t.0, RIK R 的 子 集 a 为 参照 关系 7 PK 的 外 码 (foreign 
key) 。 

这 种 要 求 称 为 参照 完整 性 约束 ( referential-intergrity constraint ) 或 子 集 依赖 (subset dependency) ， 后 一 
种 称 法 是 由 于 上 述 参照 完整 性 可 以 表示 为 这 样 一 种 要 求 : r, 中 a 上 的 取 值 集合 必须 是 7, 中 天 上 的 取 值 
集合 的 子 集 。 请 注意 ， 为 使 参照 完整 性 约束 有 意义 , a AK, 必须 是 相 容 的 属性 集 ; 也 就 是 说 ， 要 么 a 
等 于 K,， 要 么 它们 必须 包含 相同 数目 的 属性 ， 并 且 对 应 属性 的 类 型 必须 相 容 ( 这 里 我 们 假设 a MK, 是 
有 序 的 )。 不 同 于 外 码 约束 ， 参 照 完整 性 约束 通常 不 要 求 K, 是 mm 的 主 码 ; HARE, n 中 可 能 有 不 止 
一 个 元 组 在 属性 K, 上 取 值 相同 。 

默认 情况 下 ，SQL 中 外 码 参 照 的 是 被 参照 表 中 的 主 码 属性 。SQL 还 支持 一 个 可 以 显 式 指定 被 参照 
关系 的 属性 列表 的 references 子 句 。 然 而 ， 这 个 指定 的 属性 列表 必须 声明 为 被 参照 关系 的 候选 码 ， 要 
么 使 用 primary key 约束 ， 要 么 使 用 unique 约束 。 在 更 为 普遍 的 参照 完整 性 约束 形式 中 ， 被 参照 的 属 
性 不 必 是 候选 码 ， 这 样 的 形式 还 不 能 在 SQL 中 直接 声明 。SQL 标准 提供 了 另外 的 结构 用 于 实现 这 样 的 
约束 ，4.4.7 节 将 描述 这 样 的 结构 。 

我 们 可 以 使 用 如 下 的 简写 形式 作为 属性 定义 的 一 部 分 ， 并 声明 该 属性 为 外 码 : 

dept_name varchar( 20) references department 

当 违反 参照 完整 性 约束 时 ， 通 常 的 处 理 是 拒绝 执行 导致 完整 性 破坏 的 操作 ( 即 进行 更 新 操作 的 事 
务 被 回 滚 ) 。 但 是 ， 在 foreign key 子 句 中 可 以 指明 : 如 果 被 参照 关系 上 的 删除 或 更 新 动作 违反 了 约束 ， 
那么 系统 必须 采取 一 些 步骤 通过 修改 参照 关系 中 的 元 组 来 恢复 完整 性 约束 ， 而 不 是 拒绝 这 样 的 动作 。 
考虑 在 关系 course 上 的 如 下 完整 性 约束 定义 : 
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由 于 有 了 与 外 码 声明 相关 联 的 on delete cascade 子 句 ， 如 果 删 除 department 中 的 元 组 导致 了 此 参照 
完整 性 约束 被 违反 ， 则 删除 并 不 被 系统 拒绝 ， 而 是 对 course KRE RK” 删除 ， 即 删除 参照 了 被 删除 
系 的 元 组 。 类 似 地 ， 如 果 更 新 被 参照 字段 时 违反 了 约束 ， 则 更 新 操作 并 不 被 系统 拒绝 ， 而 是 将 course 
中 参照 的 元 组 的 dept_name 字段 也 改 为 新 值 。SQL 还 允许 foreign key 子 句 指明 除 cascade 以 外 的 其 他 动 
作 ， 如 果 约 束 被 违反 : 可 将 参照 域 (这 里 是 dept_name) 置 为 nul( 用 set null 代替 cascade), = 
的 默认 值 (用 set default) 。 

如 果 存 在 涉及 多 个 关系 的 外 码 依赖 链 ， 则 在 链 一 端 所 做 的 删除 或 更 新 可 能 传 至 整个 链 。 实 践 习 题 
个 关系 上 定义 的 foreign key 约束 所 参照 的 关系 就 是 它 自 己 ei 
个 级 联 更 新 或 删除 导致 的 对 约束 的 违反 不 能 通过 进 一 Ws 则 系统 中 止 该 事务 。 


4.9 中 的 一 个 有 趣 的 情况 是 ， 在 一 


create table classroom 


( building varchar (15) , 
room_number varchar (7) , 
capacity numeric (4, 0) , 
primary key (building, room_number) ) 
create table department 
( dept_name varchar (20) , 
building varchar (15) , 
budget numeric (12, 2) check (budget > 0) , 
primary key ( dept_name) ) 
create table course 
( course_id varchar (8) , 
title varchar (50) , 
dept_name varchar (20) , 
credits numeric (2, 0) check (credits > 0), 
primary key ( course_id) , 
foreign key ( dept_name) references department ) 
create table instructor 
(ID varchar (5) , 
name varchar (20), not null 
dept_name varchar (20) , 
salary numeric (8, 2), check (salary > 29000) , 
primary key (/D) , 
foreign key (dept_name) references department ) 
create table section 
( course_id varchar (8) , 
sec_id varchar (8) , 
semester varchar (6) , check (semester in 
(° Fall’, ’ Winter’, ’ Spring’ , ’ Summer’ ) , 
year numeric (4, 0), check (year > 1759 and year < 2100) 
building varchar (15) , 
room_number varchar (7) , 
time_slot_id varchar (4) , 
primary key (course_id, sec_id, semester, year) , 
foreign key (course_id) references course , 
foreign key ( building, room_number) references classroom ) 





图 4-8 大 学 数据 库 的 部 分 SQL 数据 定义 


create table course 
foreign key (dept_name) references department 
on delete cascade 
on update cascade, 
F 


该 事务 所 做 的 所 有 改变 及 级 联动 作 将 被 撤销 。 
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空 值 使 得 SQL 中 参照 约束 的 语义 复杂 化 了 。 外 码 中 的 属性 允许 为 nul， 只 要 它们 没有 被 声明 为 not 
null。 如 果 给 定 元 组 中 外 码 的 所 有 列 上 均 取 非 空 值 ， 则 对 该 元 组 采用 外 码 约束 的 通常 定义 。 如 果 某 外 
码 列 为 null， 则 该 元 组 自动 被 认为 满足 约束 。 

这 样 的 规定 有 时 不 一 定 是 正确 的 选择 ， 因 此 SQL 也 提供 一 些 结 构 使 你 可 以 改变 对 空 值 的 处 理 ; 我 
们 在 此 不 讨论 这 样 的 结构 。 

4.4.6 事务 中 对 完整 性 约束 的 违反 

事务 可 能 包括 几 个 步骤 ， 在 某 一 步 之 后 完整 性 约束 也 许 会 暂时 被 违反 ,但 是 后 面 的 某 一 步 也 许 就 
会 消除 这 个 违反 。 例 如 ， 假 设 我 们 有 一 个 主 码 为 name 的 person 关系 ， 还 有 一 个 属性 是 spouse， 并且 
spouse 是 在 person 上 的 一 个 外 码 。 也 就 是 说 ， 约 束 要 求 spouse 属性 必须 包含 在 person 表 里 出 现 的 名 字 。 
假设 我 们 希望 在 上 述 关系 中 插入 两 个 元 组 ， 一 个 是 关于 John 的 ， 另 一 个 是 关于 Mary 的 ， 这 两 个 元 组 
的 配偶 属性 分 别 设置 为 Mary 和 John, MERZ John 和 Mary 彼此 之 间 的 婚姻 关系 。 无 论 先 插入 哪个 元 
组 ， 插 人 第 一 个 元 组 的 时 候 都 会 违反 外 码 约束 。 在 插 和 人 第 二 个 元 组 后 ， 外 码 约束 又 会 满足 了 。 

为 了 处 理 这 样 的 情况 ，SQL 标准 允许 将 initially deferred 子 句 加 入 到 约束 声明 中 ; 这 样 完 整 性 约束 
不 是 在 事务 的 中 间 步 又 上 检查 ， 而 是 在 事务 结束 的 时 候 检 查 。 一 个 约束 可 以 被 指定 为 可 延迟 的 
(deferrable) ， 这 意味 着 默认 情况 下 它 会 被 立即 检查 ， 但 是 在 需要 的 时 候 可 以 延迟 检查 。 对 于 声明 为 可 
延迟 的 约束 ， 执 行 set constraints constraint-list deferred 语句 作为 事务 的 一 部 分 ， 会 导致 对 指定 约束 的 
检查 被 延迟 到 该 事务 结束 时 执行 。 

然而 ， 读 者 应 该 注意 的 是 默认 的 方式 是 立即 检查 约束 ， 而 且 许 多 数据 库 实 现 不 支持 延迟 约束 检查 。 

如 果 spouse 属性 可 以 被 赋 为 mwl ， 我 们 可 以 用 另 一 种 方式 来 避 开 在 上 面 例 子 中 的 问题 : 在 插入 John 
和 Mary 元 组 时 ， 我 们 设置 其 spouse 属性 为 wx， 然后 再 更 新 它们 的 值 。 然 而 ， 这 个 技术 需要 更 大 的 编 
程 量 ， 而 且 如 果 属 性 不 能 设 为 null 的 话 ， 此 方法 就 不 可 行 。 

4.4.7 复杂 check 条 件 与 断言 

本 节 描 述 SQL 标准 所 支持 的 另外 一 些 用 于 声明 完整 性 约束 的 结构 。 然 而 ， 读 者 应 该 注意 的 是 ， 这 
些 结构 目前 还 没有 被 大 多 数 数据 库 系 统 支 持 。 

正如 SQL 标准 所 定义 的 ，check 子 句 中 的 谓词 可 以 是 包含 子 查 询 的 任意 谓词 。 如 果 一 个 数据 库 实现 支持 
在 check 子 句 中 出 现 子 查询 ， 我 们 就 可 以 在 关系 section 上 声明 如 下 所 示 的 参照 完整 性 约束 : 

check (time_slot_id in (select time_slot_id from time_slot) ) 
这 个 check 条 件 检测 在 section 关系 中 每 个 元 组 的 time_slot_id 的 确 是 在 time_slot 关系 中 某 个 时 间 段 的 标 
识 。 因 此 这 个 条 件 不 仅 在 section 中 插入 或 修改 元 组 时 需要 检测 ， 而 且 在 time _slot 关系 改变 时 也 需要 检 
测 ( 如 在 time_slot 关系 中 ， 当 一 个 元 组 被 删除 或 修改 的 情况 下 ) 。 

在 我 们 的 大 学 模式 上 ， 另 一 个 自然 的 约束 是 : 每 个 课程 段 都 需要 有 至 少 一 位 教师 来 讲授 。 为 了 强 
制 实现 此 约束 ， 一 种 方案 是 声明 section 关系 的 属性 集 (course_id， sec_id, semester, year) 为 外 码 ， 它 参照 
teaches 关系 中 的 相应 属性 。 遗 憾 的 是 ， 这 些 属性 并 未 构成 teaches 关系 的 主 码 。 如 果 数 据 库 系统 支持 在 
check 约束 中 出 现 子 查询 的 话 ， 可 以 使 用 与 time_slot 属性 类 似 的 check 约束 来 强制 实现 上 述 约束 。 

复杂 check 条 件 在 我 们 希望 确保 数据 完整 性 的 时 候 是 很 有 用 的 ， 但 其 检测 开销 可 能 会 很 大 。 例 如 ， 
check 子 句 中 的 谓词 不 仅 需要 在 section 关系 发 生 更 新 时 计算 ， 而 且 也 可 能 在 time_slot 关系 发 生 更 新 时 检 
测 ， 因 为 time_slot 在 子 查询 中 被 引用 了 。 

一 个 断言 (assertion ) 就 是 一 个 谓词 ， 它 表达 了 我 们 希望 数据 库 总 能 满足 的 一 个 条 件 。 域 约束 和 参照 
完整 性 约束 是 断言 的 特殊 形式 。 我 们 前 面 用 大 量 篇 幅 介 绍 了 这 几 种 形式 的 断言 ， 是 因为 它们 容易 检测 
并 且 适 用 于 很 多 数据 库 应 用 。 但 是 ， 还 有 许多 约束 不 能 仅 用 这 几 种 特殊 形式 来 表达 。 如 有 两 个 这 样 的 
例子 : 

© 对 于 student 关系 中 的 每 个 元 组 ， 它 在 属性 tot_cred 上 的 取 值 必须 等 于 该 生 所 成 功 修 完 课程 的 学 

分 总 和 。 
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。 每 位 教师 不 能 在 同一 个 学 期 的 同一 个 时 间 段 在 两 个 不 同 的 教室 授课 。 ~ 
SQL 中 的 断言 为 如 下 形式 : 
create assertion < assertion-name > check < predicate > ; 
图 4-9 给 出 了 我 们 如 何 用 SQL 写 出 第 一 个 约束 的 示例 。 由 于 SQL 不 提供 “for al X, P(X)” t CH 
中 PP 是 一 个 谓词 )， 我 们 只 好 通过 等 价 的 “not exists X such that not P(X) "结构 来 实现 此 约束 ， 这 一 结构 
可 以 用 SQL 来 表示 。 





create assertion credits_earned_constraint check 
(not exists ( select ID 
from student 
where tot_cred < > (select sum( credits ) 
from takes natural join course 
where student. ID = takes. ID 
and grade is not null and grade < > `F’ ); 


图 4-9 一 个 断言 的 例子 


我 们 把 第 二 个 约束 的 声明 留 作 练习 。 

当 创 建 断言 时 ， 系 统 要 检测 其 有 效 性 。 如 果断 言 有 效 ， 则 今后 只 有 不 破坏 断言 的 数据 库 修改 才 被 
允许 。 如 果断 言 较 复杂 ， 则 检测 会 带 来 相当 大 的 开销 。 因 此 ， 使 用 断言 应 该 特别 小 心 。 由 于 检测 和 维 
护 断 言 的 开销 较 大 ， 一 些 系 统 开发 者 省 去 了 对 一 般 性 断言 的 支持 ， 或 者 只 提供 易于 检测 的 特殊 形式 的 
断言 。 

目前 ， 还 没有 一 个 广泛 使 用 的 数据 库 系统 支持 在 check 子 句 的 谓词 中 使 用 子 查询 或 create assertion 
结构 。 然 而 ， 如 果 数 据 库 系统 支持 触发 器 的 话 ， 可 以 通过 使 用 触发 器 来 实现 等 价 的 功能 ， 触 发 器 将 在 
5. 3 节 介 绍 ，5. 3 节 还 将 介绍 如 何 用 触发 器 来 实现 time_slot_id 上 的 参照 完整 性 约束 。 


4.5 SQL 的 数据 类 型 与 模式 


在 第 3 章 中 ,我们 介绍 了 一 些 SQL 支持 的 固有 数据 类 型 ， 如 整数 类 型 、 实 数 类 型 和 字符 类 型 。 
SQL 还 支持 一 些 其 他 的 固有 数据 类 型 ， 我 们 将 在 下 面 描述 。 我 们 还 将 描述 如 何在 SQL 中 创建 基本 的 用 
户 定 义 类 型 。 

4.5.1 SQL 中 的 日 期 和 时 间 类 型 

除了 我 们 在 3. 2 节 介 绍 过 的 基本 数据 类 型 以 外 ，SQL 标准 还 支持 与 日 期 和 时 间 相 关 的 几 种 数据 
类 型 : 

e date: 日 历 日 期 ， 包 括 年 (四 位 ) 、 月 和 日 。 

e time: 一 天 中 的 时 间 ， 包 括 小 时 、 分 和 秒 。 可 以 用 变量 time(p) 来 表示 秒 的 小 数 点 后 的 数字 位 

数 ( 这 里 默认 值 为 0) 。 通 过 指定 time with timezone， 还 可 以 把 时 区 信息 连同 时 间 一 起 存储 ， 
。 timestamp; date 和 time 的 组 合 。 可 以 用 变量 timestamp(p) 来 表示 秒 的 小 数 点 后 的 数字 位 数 
(这 里 默认 值 为 6) 。 如 果 指 定 with timezone， 则 时 区 信息 也 会 被 存储 。 
日 期 和 时 间 类 型 的 值 可 按 如 下 方式 说 明 : 
date ‘2001 -04 -25” 
time “09:30:00” 
timestamp ‘2001 -04 -25 10:29: 01. 45° 

日 期 类 型 必须 按照 如 上 年 月 日 的 格式 顺序 指定 。time 和 timestamp 的 秒 部 分 可 能 会 有 小 数 部 分 ， 
像 上 述 时 间 惟 中 的 情况 一 样 。 

我 们 可 以 利用 cast e as t 形式 的 表达 式 来 将 一 个 字符 串 ( 或 字符 串 表 达 式 )e 转换 成 类 型 +， 其 中 ! 是 














晶 ” 我 们 假设 不 在 第 二 课程 采用 远程 授课 的 形式 ! 另 一 个 约束 是 指定 "一 位 教师 在 一 个 给 定 学 期 的 相同 时 间 段 不 能 讲授 
两 门 课程 ”， 由 于 有 时 候 课 程 是 交叉 排 课 的 ， 即 对 一 门 课程 给 出 了 两 个 标识 和 名 称 ， 所 以 可 能 不 满足 此 约束 
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date, time, timestamp 中 的 一 种 。 字 符 串 必须 符合 正确 的 格式 ， 像 本 段 开 头 说 的 那样 。 当 需要 时 ， 时 
区 信息 可 以 从 系统 设置 中 得 到 。 

我 们 可 以 利用 extract (field from d), ， 从 date 或 time 值 d 中 提取 出 单独 的 域 ， 这 里 的 域 可 以 是 
year, month, day, hour, minute 或 者 second 中 的 任意 一 种 。 时 区 信息 可 以 用 timezone_hour 和 
timezone_minute 来 提取 。 

SQL 定义 了 一 些 函 数 以 获取 当前 日 期 和 时 间 。 例 如 ，current_date 返回 当前 日 期 ，current_time ik 
回 当前 时 间 ( 带 有 时 区 ) ， 还 有 localtime 返回 当前 的 本 地 时 间 ( 不 带 时 区 )。 时 间 戳 (日 期 加 上 时 间 ) 由 
current_timestamp( 带 有 时 区 ) 以 及 localtimestamp( 本 地 日 期 和 时 间 ， 不 带 时 区 ) 返 回 。 

SQL 允许 在 上 面 列 出 的 所 有 类 型 上 进行 比较 运算 ， 也 允许 在 各 种 数字 类 型 上 进行 算术 运算 和 比较 
iA. SQL 还 支持 interval 数据 类 型 ， 它 允许 在 日 期 、 时 间 和 时 间 间 隔 上 进行 计算 。 例 如 ,假设 x* 和 yy 
都 是 date BAY, 那么 x - y 就 是 时 间 间 隔 类 型 ， 其 值 为 从 日 期 x 到 日 期 y 间隔 的 天 数 。 类 似 地 ， 在 日 
期 或 时 间 上 加 减 一 个 时 间 间 隔 将 分 别 得 到 新 的 日 期 或 时 间 。 

4. 5.2 默认 值 

SQL 允许 为 属性 指定 默认 值 ， 如 下 面 的 create table 语句 所 示 : 

create table student 
(ID varchar (5), 
name varchar (20) not null, 
dept_name varchar (20) , 
tot_cred numeric (3, 0) default 0, 
primary key (/D) ) ; 

tot_cred 属性 的 默认 值 被 声明 为 0。 这 样 ， 当 一 个 元 组 被 插入 到 student 关系 中 ， 如 果 没 有 给 出 tot_ 
cred 属性 的 值 ， 那 么 该 元 组 在 此 属性 上 的 取 值 就 被 置 为 0。 下 面 的 插入 语句 说 明了 在 插入 操作 中 如 何 省 
H% tot_cred 属性 的 值 : 

insert into student( ID, name, dept_name ) 
values (’12789’ , ’ Newman’ , ’ Comp. Sci. ' ); 
4.5.3 创建 索引 

许多 查询 只 涉及 文件 中 的 少量 记录 。 例 如 ， 像 这 样 的 查询 “ 找 出 Physics 系 的 所 有 教师 ”,， 或 “ 找 出 
万 为 22201 的 学 生 的 tot_cred 值 ”"， 只 涉及 学 生 记录 中 的 一 小 部 分 。 如 果 系 统 读 取 每 条 记录 并 一 一 检查 
其 万 域 是 否 为 "22201”， 或 者 dept_name 域 是 否 取 值 为 "Physics”， 这 样 的 方式 是 很 低 效 的 。 

在 关系 的 属性 上 所 创建 的 索引 (index) 是 一 种 数据 结构 ， 它 允许 数据 库 系 统 高 效 地 找到 关系 中 那些 
在 索引 属性 上 取 给 定 值 的 元 组 ， 而 不 用 扫描 关系 中 的 所 有 元 组 。 例 如 ， 如 果 我 们 在 student 关系 的 属性 
ID 上 创建 了 索引 ， 数 据 库 系统 不 用 读 取 student 关系 中 的 所 有 元 组 ， 就 可 以 直接 找到 任何 像 22201 或 
44553 那样 具有 指定 ID 值 的 记录 。 索 引 也 可 以 建立 在 一 个 属性 列表 上 ， 例 如 在 student 的 属性 name 和 
dept_name 上 。 

我 们 将 在 后 面 第 11 章 学 习 索 引 是 如 何 实现 的 ， 包 括 一 种 被 称 作 B 树 的 索引 ， 它 是 一 种 特别 的 、 
广泛 使 用 的 索引 类 型 。 

尽管 SQL 语言 没有 给 出 创建 索引 的 正式 语法 定义 ， 但 很 多 数据 库 都 支持 使 用 如 下 所 示 的 语法 形式 
来 创建 索引 : 

create index student/D_index on student( ID) ; 
上 述 语句 在 student 关系 的 属性 ID 上 创建 了 一 个 名 为 studentID_index 的 索引 。 

如 果 用 户 提交 的 SQL 查询 可 以 从 索引 的 使 用 中 获 益 ， 那 么 SQL 查询 处 理 器 就 会 自动 使 用 索引 。 例 
如 ， 给 定 的 SQL Arif ewe ID 为 22201 的 student 元 组 ，SQL 查询 处 理 器 就 会 使 用 上 面 定 义 的 studentID 
_index 索引 来 找到 所 需 元 组 ， 而 不 用 读 取 整个 关系 。 

4.5.4 ”大 对 象 类 型 
许多 当前 的 数据 库 应 用 需要 存储 可 能 很 大 ( KB 级 ) 的 属性 ， 例 如 一 张 照 片 ; 或 者 非常 大 的 属性 
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(MB 级 甚至 GB 级 ) ， 例 如 高 清晰 度 的 医学 图 像 或 视频 片断 。 因 此 SQL 提供 字符 数据 的 大 对 象 数据 类 
型 (clob) 和 二 进 制 数据 的 大 对 象 数据 类 型 (blob ) 。 在 这 些 数据 类 型 中 字符 “lob ”代表 "Large OBject” . 
例如 ， 我 们 可 以 声明 属性 

book_review clob ( 10KB) 

image blob ( 10MB) 

movie blob (2GB) 

对 于 包含 大 对 象 (好 几 个 MB EF GB) 的 结果 元 组 而 言 ， 把 整个 大 对 象 放 和 内存 中 是 非常 低 效 和 不 
现实 的 。 相 反 ， 一 个 应 用 通常 用 一 个 SQL 查询 来 检索 出 一 个 大 对 象 的 “定位 器 ”"， 然 后 在 宿主 语言 中 用 
这 个 定位 器 来 操纵 对 象 ， 应 用 本 身 也 是 用 宿主 语言 书写 的 。 例 如 ，JDBC 应 用 编程 接口 (5. 1. 1 节 描 述 ) 
允许 获取 一 个 定位 器 而 不 是 整个 大 对 象 ; 然后 用 这 个 定位 器 来 一 点 一 点 地 取出 这 个 大 对 象 ， 而 不 是 一 
次 取出 全 部 ， 这 很 像 用 一 个 read PRAIA FAM GEER Be CHE PEERAGE 
4.5.5 用户 定 义 的 类 型 

SQL 支持 两 种 形式 的 用 户 定义 数据 类 型 。 第 一 种 称 为 独特 类 型 ( distinct type) ， 我 们 将 在 这 里 介绍 。 
另 一 种 称 为 结构 化 数据 类 型 ( structured data type) ， 人 允许 创建 具有 榜 套 记录 结构 、 数 组 和 多 重 集 的 复杂 
数据 类 型 。 在 本 章 我 们 不 介绍 结构 化 数据 类 型 ， 而 是 在 后 面 第 22 章 描述 . 

一 些 属性 可 能 会 有 相同 的 数据 类 型 。 例 如 ， 用 于 学 生 名 和 教师 名 的 name 属性 就 可 能 有 相同 的 域 : 
所 有 人 名 的 集合 。 然 而 ，budget 和 dept_name 的 域 肯定 应 该 是 不 同 的 。name 和 dept_name 是 否 应 该 有 相 
ASR, 这 一 点 就 不 那么 明显 了。 在 实现 层 ， 教师 姓名 和 系 的 名 字 都 是 字符 串 。 然 而 ， 我 们 通常 不 认 
为 “ 找 出 所 有 与 某 个 系 同 名 的 教师 "是 一 个 有 意义 的 查询 。 因 此 ， 如 果 我 们 在 概念 层 而 不 是 物理 层 来 看 
待 数 据 库 的 话 ，name 和 dept_name 应 该 有 不 同 的 域 。 

更 重要 的 是 ， 在 现实 中 ， 把 一 个 教师 的 姓名 赋 给 一 个 系 名 可 能 是 一 个 程序 上 的 错误 ; 类 似 地 ， 把 
一 个 以 美元 表示 的 货币 值 直接 与 一 个 以 英镑 表示 的 货币 值 进行 比较 几乎 可 以 肯定 是 程序 上 的 错误 。 一 
个 好 的 类 型 系统 应 该 能 够 检测 出 这 类 赋值 或 比较 。 为 了 支持 这 种 检测 ，SQL 提供 了 独特 类 型 ( distinct 
type) 的 概念 。 

可 以 用 create type 子 句 来 定义 新 类 型 。 例 如 ， 下 面 的 语句 : 


create type Dollars as numeric (12, 2) final; 
create type Pounds as numeric (12, 2) final; 


把 两 个 用 户 定义 类 型 Dollars 和 Pounds 定义 为 总 共 12 位 数字 的 十 进 制 数 ， 其 中 两 位 放 在 十 进 制 小 数 点 
后 。( 在 此 关键 字 final 并 不 是 真 的 有 意义 ， 它 是 SQL:1999 标准 要 求 的 ， 其 原因 我 们 不 在 这 里 讨论 了 ; 
一 些 系统 实现 允许 忽略 final 关键 字 。) 然后 新 创建 的 类 型 就 可 以 用 作 关 系 属性 的 类 型 。 例 如 ， 我 们 可 以 
把 department 表 定 义 为 : 


create table department 
(dept_name varchar (20) , 
building varchar (15) , 
budget Dollars ) ; 


尝试 为 Pounds 类 型 的 变量 赋予 一 个 Dollars 类 型 的 值 会 导致 一 个 编译 时 错误 ， 尽 管 这 两 者 都 是 相同 的 数 
值 类 型 。 这 样 的 赋值 很 可 能 是 由 程序 错误 引起 的 ， 或 许 是 程序 员 忘 记 了 货币 之 间 的 区 别 。 为 不 同 的 货 
币 声明 不 同 的 类 型 能 帮助 发 现 这 些 错 误 。 

由 于 有 强 类 型 检查 ， 表 达 式 ( department. budget +20) 将 不 会 被 接受 ， 因 为 属性 和 整 型 常数 20 具有 
不 同 的 类 型 。 一 种 类 型 的 数值 可 以 被 转换 (也 即 cast) 到 另 一 个 域 ， 如 下 所 示 : 


cast ( department. budget to numeric( 12, 2) ) 


我 们 可 以 在 数值 类 型 上 做 加 法 ， 但 是 为 了 把 结果 存 回 到 一 个 Dollars 类 型 的 属性 中 ， 我 们 需要 用 另 一 个 
类 型 转换 表达 式 来 把 数值 类 型 转换 回 Dollars 类 型 。 

SQL 提供 了 drop type 和 alter type 子 句 来 删除 或 修改 以 前 创建 过 的 类 型 。 

在 把 用 户 定义 类 型 加 入 到 SQL( 在 SQL:1999 H) ZA, SQL 有 一 个 相似 但 稍 有 不 同 的 概念 : 域 
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(domain) (在 SQL-92 中 引入 )， 它 可 以 在 基本 类 型 上 施加 完整 性 约束 。 例如， 我 们 可 以 定义 一 个 域 
DDollars ， 如 下 所 示 : 


create domain DDollars as numeric( 12, 2) not null; 


DDollars 域 可 以 用 作 属 性 类 型 ， 正 如 我 们 用 Dollars 类 型 一 样 。 然 而 ， 类 型 和 域 之 间 有 两 个 重大 的 
差别 : 

1. 在 域 上 可 以 声明 约束 ， 例 如 not nul， 也 可 以 为 域 类 型 变量 定义 默认 值 ， 然 而 在 用 户 定义 类 型 
上 不 能 声明 约束 或 默认 值 。 设 计 用 户 定义 类 型 不 仅 是 用 它 来 指定 属性 类 型 ， 而 且 还 将 它 用 在 不 能 施加 
约束 的 地 方 对 SQL 进行 过 程 扩 展 。 

2. 域 并 不 是 强 类 型 的 。 因 此 一 个 域 类 型 的 值 可 以 被 赋 给 另 一 个 域 类 型 ， 只 要 它们 的 基本 类 型 是 相 
容 的 。 

当 把 check 子 句 应 用 到 域 上 时 ， 人 允许 模式 设计 者 指定 一 个 谓词 ， 被 声明 为 来 自 该 域 的 任何 变量 都 
必须 满足 这 个 谓词 。 例 如 ，check 子 句 可 以 保证 教师 工资 域 中 只 允许 出 现 大 于 给 定 值 的 值 : 


create domain YearlySalary numeric(8, 2) 
constraint salary_value_test check( value >= 29000. 00) ; 


YearlySalary 域 有 一 个 约束 来 保证 年 薪 大 于 或 等 于 29 000. 00 3250. constraint salary_value_test 子 句 是 可 
选 的 ， 它 用 来 将 该 约束 命名 为 salary_value_test。 系 统 用 这 个 名 字 来 指出 一 个 更 新 违反 了 哪个 约束 。 
作为 另 一 个 例子 ， 使 用 in 子 句 可 以 限定 一 个 域 只 包含 指定 的 一 组 值 : 


create domain degree_level varchar( 10) 
constraint degree_level_test 
check ( value in ( ° Bachelors’ , ’ Masters’ , or ° Doctorate’ ) ) ; 


在 数据 库 实 现 中 对 类 型 和 域 的 支持 

尽管 本 节 描 述 的 create type 和 create domain 结构 是 SQL 标准 的 部 分 ， 但 这 里 描述 的 这 些 结构 形 
式 还 没有 被 大 多 数 数据 库 实现 完全 支持 。PostgreSQL 支持 create domain 结构 ， 但 是 其 create type 结 
构 具 有 不 同 的 语法 和 解释 。 

IBM DB2 支持 create type 的 一 个 版 本 ， 它 使 用 create distinct type 语法 ,但 不 支持 create 
domain。 微 软 的 SQL Server 实现 了 create type 结构 的 一 个 版 本 ,支持 域 约束 ， 与 SQL 的 create 
domain 结构 类 似 。 

Oracle 不 支持 在 此 描述 的 任何 一 种 结构 。 然 而 ，SQL 还 定义 了 一 个 更 复杂 的 面向 对 象 类 型 系统 ， 
我 们 将 在 后 面 第 22 章 学 习 。 通 过 使 用 不 同形 式 的 create type 结构 ，Oracle、IBM DB2、PostgreSQL 和 
SQL Server 都 支持 面向 对 象 类 型 系统 。 


4. 5.6 create table 的 扩展 
应 用 常常 要 求 创建 与 现 有 的 某 个 表 的 模式 相同 的 表 。SQL 提供 了 一 个 create table like 的 扩展 来 支 
持 这 项 任务 : 


[140 


create table temp_instructor like instructor; 


上 述 语句 创建 了 一 个 与 instructor 具有 相同 模式 的 新 表 temp_instructor。 
当 书 写 一 个 复杂 查询 时 ， 把 查询 的 结果 存储 成 一 个 新 表 通 常 是 很 有 用 的 ; 这 个 表 通 常 是 临时 的 。 
这 里 需要 两 条 语句 ， 一 条 用 于 创建 表 ( 具 有 合适 的 列 )， 男 一 条 用 于 把 查询 结果 插入 到 表 中 。SQL:2003 
提供 了 一 种 更 简单 的 技术 来 创建 包含 查询 结果 的 表 。 例 如 ， 下 面 的 语句 创建 了 表 tl1 ,该 表 包含 一 个 查 
询 的 结果 。 
create table 1] as 
( select ` 
from instructor 


where dept_name = ’ Music’ ) 
with data; 
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在 默认 情况 下 ， 列 的 名 称 和 数据 类 型 是 从 查询 结果 中 推导 出 来 的 。 通 过 在 关系 名 后 面 列 出 列 名 ， 可 以 
给 列 显 式 指派 名 字 。 

正如 SQL:2003 标准 所 定义 的 ， 如 果 省 略 with data 子 句 ， 表 会 被 创建 ， 但 不 会 载 和 人 数据。 但 即使 
在 省 略 with data 子 句 的 情况 下 ， 很 多 数据 库 实现 还 是 通过 默认 方式 往 表 中 加 载 了 数据 。 注 意 几 种 数据 
库 实 现 都 用 不 同 语法 支持 create table--- like 和 create table--- as 的 功能 ; 请 参考 相应 的 系统 手册 以 获得 
进一步 细节 。 

上 述 create table… as 语句 与 create view 语句 非常 相似 ， 并 且 都 用 查询 来 定义 。 两 者 主要 的 区 别 
在 于 当 表 被 创建 时 表 的 内 容 被 加 载 ， 但 视图 的 内 容 总 是 反映 当前 查询 的 结果 。 

4.5.7 模式、 目录 与 环境 

要 理解 模式 和 目录 的 形成 ， 需 要 考虑 文件 系统 中 文件 是 如 何 命名 的 。 早 期 的 文件 系统 是 平面 的 ， 
也 就 是 说 ， 所 有 的 文件 都 存储 在 同一 个 目录 下 。 当 然 ， 当 代 的 文件 系统 有 一 个 目录 (或 者 文件 夹 ) 结 
构 ， 文 件 都 存储 在 子 目录 下 。 要 单独 命名 一 个 文件 ,我 们 必须 指定 文件 的 完整 路 径 名 ， 例 如 ，/users/ 
avi/db-book/ chapter3. tex, 

跟 早期 文件 系统 一 样 ， 早 期 数据 库 系统 也 只 为 所 有 关系 提供 一 个 命名 空间 。 用 户 不 得 不 相互 协调 
以 保证 他 们 没有 对 不 同 的 关系 使 用 同样 的 名 字 。 当 代数 据 库 系统 提供 了 三 层 结构 的 关系 命名 机 制 。 最 
顶层 由 目录 (catalog ) 构 成 ， 每 个 目录 都 可 以 包含 模式 (schema) 。 诸 如 关系 和 视图 那样 的 SQL 对 象 都 包 
含 在 模式 中 。( 一 些 数据 库 实现 用 术语 “数据 库 ” 代 替 术语 “目录 ”)。 

要 在 数据 库 上 做 任何 操作 ， 用 户 ( 或 程序 ) 都 必须 先 连 接 到 数据 库 。 为 了 验证 用 户 身份 ， 用 户 必须 
提供 用 户 名 以 及 密码 (通常 情况 下 ) 。 每 个 用 户 都 有 一 个 默认 的 目录 和 模式 ， 这 个 组 合 对 用 户 来 说 是 唯 
一 的 。 当 一 个 用 户 连 接 到 数据 库 系 统 时 ， 将 为 该 连接 设置 好 默认 的 目录 和 模式 。 这 对 应 于 当 用 户 登 录 
进 一 个 操作 系统 时 ， 把 当前 目录 设置 为 用 户 的 主 (home) 目录 。 

为 了 唯一 标识 出 一 个 关系 ， 必 须 使 用 一 个 名 字 ， 它 包含 三 部 分 ， 例 如 : 

catalog5. univ_shema. course 
当 名 字 的 目录 部 分 被 认为 是 连接 的 默认 目录 时 ， 可 以 省 略 目录 部 分 。 这 样 如 果 catalogs 是 默认 目录 ， 
我 们 可 以 用 wniv_schema. course 来 唯一 标识 上 述 关系 。 

如 果 用 户 想 访问 存在 于 另外 的 模式 中 的 关系 ， 而 不 是 该 用 户 的 默认 模式 ， 那 就 必须 指定 模式 的 名 
字 。 然 而 ， 如 果 一 个 关系 存在 于 特定 用 户 的 默认 模式 中 ， 那 么 连 模式 的 名 字 也 可 以 省 略 。 这 样 ， 如 果 
catalogs 是 默认 目录 并 且 univ_schema 是 默认 模式 ， 我 们 可 以 只 用 course, 

当 有 多 个 目录 和 模式 可 用 时 ， 不 同 应 用 和 不 同 用 户 可 以 独立 工作 而 不 必 担 心 命名 冲突 。 不 仅 如 此 ， 
一 个 应 用 的 多 个 版 本 (一 个 产品 版 本 ， 其 他 是 测试 版 本 ) 可 以 在 同一 个 数据 库 系统 上 运行 。 

默认 目录 和 模式 是 为 每 个 连接 建立 的 SQL 环境 (SQL environment) 的 一 部 分 。 环 境 还 包括 用 户 标识 
(也 称 为 授权 标识 符 ) 。 所 有 通常 的 SQL 语句， 包括 DDL 和 DML 语句， 都 在 一 个 模式 的 环境 中 运行 。 

我 们 可 以 用 create schema 和 drop schema 语句 来 创建 和 删除 模式 。 在 大 多 数 数据 库 系统 中 ， 模 式 
还 随 着 用 户 账户 的 创建 而 自动 创建 ， 此 时 模式 名 被 置 为 用 户 账号 名 。 模 式 要 么 建立 在 默认 目录 中 ， 要 
么 建立 在 创建 用 户 账 户 时 所 指定 的 目录 中 。 新 创建 的 模式 成 为 用 户 账户 的 默认 模式 。 

创建 和 删除 目录 依据 实现 的 不 同 而 不 同 ， 这 不 是 SQL 标准 中 的 一 部 分 。 


4.6 授权 


我 们 可 能 会 给 一 个 用 户 在 数据 库 的 某 些 部 分 授予 几 种 形式 的 权限 。 对 数据 的 授权 包括 : 

。 授权 读 取 数据 。 

© 授权 插入 新 数据 。 

。 授权 更 新 数据 。 

。 授权 删除 数据 。 
每 种 类 型 的 授权 都 称 为 一 个 权限 (privilege) 。 我 们 可 以 在 数据 库 的 某 些 特定 部 分 ( 如 一 个 关系 或 视图 ) 
上 授权 给 用 户 所 有 这 些 类 型 的 权限 ， 或 者 完全 不 授权 ， 或 者 这 些 权 限 的 一 个 组 合 。 
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当 用 户 提交 查询 或 更 新 时 ，SQL 执行 先 基于 该 用 户 曾 获得 过 的 权限 检查 此 查询 或 更 新 是 否 是 授权 
过 的 。 如 果 查 询 或 更 新 没有 经 过 授权 ， 那么 将 被 拒绝 执行 。 

除了 在 数据 上 的 授权 之 外 ， 用 户 还 可 以 被 授予 在 数据 库 模式 上 的 权限 ， 例 如 ， 可 以 允许 用 户 创建 、 
修改 或 删除 关系 。 拥 有 某 些 形式 的 权限 的 用 户 还 可 以 把 这 样 的 权限 转 授 (授予 ) 给 其 他 用 户 ， 或 者 撤销 
(收回 ) 一 种 此 前 授 出 的 权限 。 本 节 我 们 将 学 习 每 个 这 样 的 权限 是 如 何 用 SQL 来 指定 的 。 

最 大 的 授权 形式 是 被 授予 数据 库 管理 员 的 。 数 据 库 管 理 员 可 以 授权 新 用 户 、 重 构 数 据 库 ， 等 等 。 
这 种 权限 方式 和 操作 系统 中 的 超级 用 户 、 管 理 员 或 操作 员 的 权限 是 类 似 的 。 


4.6.1 权限 的 授予 与 收回 
SQL 标准 包括 select, insert, update 和 delete 权限 .权限 所 有 权限 ( all privileges) 可 以 用 作 所 有 人 允 
许 权限 的 简写 形式 。 一 个 创建 了 新 关系 的 用 户 将 自动 被 授予 该 关系 上 的 所 有 权限 。 
SQL 数据 定义 语言 包括 授予 和 收回 权限 的 命令 。grant 语句 用 来 授予 权限 。 此 语句 的 基本 形式 为 : 
grant < 权限 列表 > 
on < 关系 名 或 视图 名 > 
to < 用 户 / 角 色 列表 > ; 
权限 列表 使 得 一 个 命令 可 以 授予 多 个 权限 。 角 色 的 概念 将 在 后 面 4. 6. 2 节 讨 论 。 
关系 上 的 select 权限 用 于 读 取 关系 中 的 元 组 。 下 面 的 grant 语句 授予 数据 库 用 户 Amit 和 Satoshi 在 
department 关系 上 的 select 权限 : 


grant select on department to Amit, Satoshi; 


该 授权 使 得 这 些 用 户 可 以 在 department 关系 上 执行 查询 。 

关系 上 的 update 权限 允许 用 户 修 改 关 系 中 的 任意 元 组 。update 权限 既 可 以 在 关系 的 所 有 属性 上 授 
予 ， 又 可 以 只 在 某 些 属性 上 授予 。 如 果 grant 语句 中 包括 update 权限 ， 将 被 授予 update 权限 的 属性 列 
表 可 以 出 现在 紧 跟 关键 字 update 的 括号 中 。 属 性 列表 是 可 选项 ， 如 果 省 略 属性 列表 ， 则 授予 的 是 关系 
中 所 有 属性 上 的 update 权限 。 

下 面 的 grant 语句 授予 用 户 Amit 和 Satoshi 在 department 关系 的 budget 属性 上 的 更 新 权限 : 


grant update (budget) on department to Amit, Satoshi; 


关系 上 的 insert 权限 允许 用 户 往 关系 中 插入 元 组 。insert 权限 也 可 以 指定 属性 列表 ; 对 关系 所 作 的 
任何 插入 必须 只 针对 这 些 属性 ， 系 统 将 其 余 属性 要 么 赋 默 认 值 (如果 这 些 属性 上 定义 了 默认 值 )， 要 么 
WÈ null, 
关系 上 的 delete 权限 允许 用 户 从 关系 中 删除 元 组 。 
用 户 名 public 指 系统 的 所 有 当前 用 户 和 将 来 的 用 户 。 因此， 对 publie 的 授权 隐 含 着 对 所 有 当前 用 
户 和 将 来 用 户 的 授权 。 
在 默认 情况 下 ， 被 授予 权限 的 用 户 /角色 无 权 把 此 权限 授予 其 他 用 户 / 角 色 。SQL 人 允许 用 授予 权限 
来 指定 权限 的 接受 者 可 以 进一步 把 权限 授予 其 他 用 户 。 我 们 将 在 4. 6. 5 节 详 细 讨论 这 个 特性 
值得 注意 的 是 ，SQL 授权 机 制 可 以 对 整个 关系 或 一 个 关系 的 指定 属性 授予 权限 。 但 是 ， 它 不 允许 
对 一 个 关系 的 指定 元 组 授权 。 
我 们 使 用 revoke 语句 来 收回 权限 。 此 语句 的 形式 与 grant 几乎 是 一 样 的 : 
revoke < 权限 列表 > 
on < 关系 名 或 视图 名 > 
from < 用户/ 角色 列表 > ; 
因此 ， 要 收回 前 面 我 们 所 授予 的 那些 权限 ， 我 们 书写 下 列 语句 : 


revoke select on department from Amit, Satoshi; 
revoke update (budget) on department from Amit, Satoshi; 


如 果 被 收回 权限 的 用 户 已 经 把 权限 授予 了 其 他 用 户 ， 权 限 的 收回 会 更 加 复杂 。 我 们 将 在 4.6.5 节 
回 到 这 个 问题 。 
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4.6.2 角色 

考虑 在 一 个 大 学 里 不 同人 所 具有 的 真实 世界 角色 。 每 个 教师 必须 在 同一 组 关系 上 具有 同 种 类 型 的 
权限 。 无 论 何 时 指定 一 位 新 的 教师 ， 她 都 必须 被 单独 授予 所 有 这 些 权 限 。 

一 种 更 好 的 方式 是 指明 每 个 教师 应 该 被 授予 的 权限 ， 并 单独 标示 出 哪些 数据 库 用 户 是 教师 。 系 统 
可 以 利用 这 两 条 信息 来 确定 每 位 教师 的 权限 。 当 雇佣 了 一 位 新 的 教师 时 ， 必 须 给 他 分 配 一 个 用 户 标识 
符 ， 并 且 必 须 将 他 标示 为 一 位 教师 ， 而 不 需要 重新 单独 授予 教师 权限 。 

角色 (role) 的 概念 适用 于 此 观念 。 在 数据 库 中 建立 一 个 角色 集 ， 可 以 给 角色 授予 权限 ， 就 和 给 每 
个 用 户 授权 的 方式 完全 一 样 。 每 个 数据 库 用 户 被 授予 一 组 他 有 权 扮 演 的 角色 (也 可 能 是 空 的 ) 。 

在 我 们 的 大 学 数据 库 里 ， 角 色 的 例子 可 以 包括 instructor, teaching _assistant, student, dean 和 
department_chair ., 

另 一 个 不 是 很 合适 的 方法 是 建立 一 个 instructor 用 户 标识 ， 人 允许 每 位 教师 用 instructor 用 户 标识 来 连 
接 数 据 库 。 该 方式 的 问题 是 它 不 可 能 鉴别 出 到 底 是 哪 位 教师 执行 了 数据 库 更 新 ， 从 而 导致 安全 隐患 。 
使 用 角色 的 好 处 是 需要 用 户 用 他 们 自己 的 用 户 标识 来 连接 数据 库 。 

任何 可 以 授予 给 用 户 的 权限 都 可 以 授予 给 角色 。 给 用 户 授予 角 色 就 跟 给 用 户 授权 一 样 。 

在 SQL 中 创建 角色 如 下 所 示 : 


create role instructor; 


然后 角色 就 可 以 像 用户 那 样 被 授予 权限 ， 如 在 这 样 的 语句 中 


grant select on takes 
to instructor; 


角色 可 以 授予 给 用 户 ， 也 可 以 授予 给 其 他 角色 ， 如 这 样 的 语句 : 


grant dean to Amit; 
create role dean; 

grant instructor to dean; 
grant dean to Satoshi; 


因此 ， 一 个 用 户 或 一 个 角色 的 权限 包括 : 

。 所 有 直接 授予 用 户 /角色 的 权限 。 

。 所 有 授予 给 用 户 /角色 所 拥有 角色 的 权限 。 

注意 可 能 存在 着 一 个 角色 链 ; 例如 ， 角 色 teaching_assistant 可 能 被 授予 所 有 的 instructor, PER, f 
色 instructor 被 授予 所 有 的 dean。 这 样 ， 角 色 dean 就 继承 了 所 有 被 授予 给 角色 instructor 和 teaching _ 
assistant 的 权限 ， 还 包括 直接 赋 给 dean 的 权限 。 

当 一 个 用 户 登 录 到 数据 库 系统 时 ， 在 此 会 话 中 用 户 执行 的 动作 拥有 所 有 直接 授予 该 用 户 的 权限 ， 
以 及 所 有 ( 直接 地 或 通过 其 他 角色 间接 地 ) 授 予 该 用 户 所 拥有 角色 的 权限 。 这 样 ， 如 果 一 个 用 户 Amit 被 
授予 了 角色 dean, FAP Amit 就 拥有 所 有 直接 授予 给 Amit 的 权限 ， 以 及 授予 给 dean 的 权限 ， 再 加 上 授 
¥ 4 instructor 和 teaching_assistant 的 权限 ， 如 果 像 上 面 那 样 ， 这 些 角 色 被 ( 直接 地 或 间接 地 ) 授予 给 角色 
dean 的 话 。 

值得 注意 的 是 ， 基 于 角色 的 授权 概念 并 没有 在 SQL 中 指定 , 但 在 很 多 的 共享 应 用 中 ， 基 于 角色 的 
授权 被 广泛 应 用 于 存 取 控制 。 
4.6.3 视图 的 授权 

在 我 们 的 大 学 例子 中 ， 考 虑 有 一 位 工作 人 员 ， 他 需要 知道 一 个 给 定 系 (比如 Geology A) 里 所 有 员 
工 的 工资 。 该 工作 人 员 无 权 看 到 其 他 系 中 员工 的 相关 信息 。 因 此 ， 该 工作 人 员 对 instructor 关系 的 直接 
访问 必须 被 禁止 。 但 是 ， 如 果 他 要 访问 Geology 系 的 信息 ， 就 必须 得 到 在 一 个 视图 上 的 访问 权限 ， 我 们 
称 该 视图 为 geo_instructor， 它 仅 由 属于 Geology 系 的 那些 instructor 元 组 构成 。 该 视图 可 以 用 SQL 定义 
如 下 : 
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create view geo_instructor as 
( select” 
from instructor 
where dept_name = ' Geology’ ) ; 


假设 该 工作 人 员 提 出 如 下 SQL 查询 : 


select ` 
from geo_instructor ; 


显然 ， 该 工作 人 员 有 权 看 到 此 查询 的 结果 。 但 是 ， 当 查询 处 理 器 将 此 查询 转换 为 数据 库 中 实际 关系 上 
的 查询 时 ， 它 产生 了 一 个 在 instructor 上 的 查询 。 这 样 ， 系 统 必 须 在 开始 查询 处 理 以 前 ， 就 检查 该 工作 
人 员 查 询 的 权限 。 

创建 视图 的 用 户 不 需要 获得 该 视图 上 的 所 有 权限 。 他 得 到 的 那些 权限 不 会 为 他 提供 超越 他 已 有 权 
限 的 额外 授权 。 例 如 ， 如 果 一 个 创建 视图 的 用 户 在 用 来 定义 视图 的 关系 上 没有 update 权限 的 话 ， 那 么 
他 不 能 得 到 视图 上 的 update 权限 。 如 果 用 户 创建 一 个 视图 ， 而 此 用 户 在 该 视图 上 不 能 获得 任何 权限 ， 
系统 会 拒绝 这 样 的 视图 创建 请 求 。 在 我 们 的 geo_instructor 视图 例子 中 ， 视 图 的 创建 者 必须 在 instructor 
关系 上 具有 select 权限 。 

正如 我 们 将 在 5. 2 节 看 到 的 那样 ，SQL 支持 创建 函数 和 过 程 ， 在 函数 和 过 程 中 可 以 包括 查询 与 更 
新 。 在 函数 或 过 程 上 可 以 授予 execute 权限 ， 以 允许 用 户 执 行 该 函数 或 过 程 。 在 默认 情况 下 ， 和 视图 类 
似 ， 函 数 和 过 程 具有 其 创建 者 所 拥有 的 所 有 权限 。 在 效果 上 上， 该 函数 或 过 程 的 运行 就 像 其 被 创建 者 调 
用 了 那样 。 

尽管 此 行为 在 很 多 情况 下 是 恰当 的 ， 但 是 它 并 不 总 是 恰当 的 。 从 SQL:2003 开始 ， 如 果 函 数 定义 有 
一 个 额外 的 sql security invoker 子 句 ， 那 么 它 就 在 调用 该 函数 的 用 户 的 权限 下 执行 ， 而 不 是 在 函数 定 
义 者 的 权限 下 执行 。 这 就 允许 创建 的 函数 库 能 够 在 与 调用 者 相同 的 权限 下 运行 。 
4. 6. 4 ”模式 的 授权 

SQL 标准 为 数据 库 模 式 指定 了 一 种 基本 的 授权 机 制 : 只 有 模式 的 拥有 者 才能 够 执行 对 模式 的 任何 


修改 ， 诸 如 创建 或 删除 关系 ， 增 加 或 删除 关系 的 属性 ， 以 及 增加 或 删除 索引 。 [147 | 





然而 ，SQL 提供 了 一 种 references 权限 ， 人 允许 用 户 在 创建 关系 时 声明 外 码 。SQL 的 references 权限 
可 以 与 update 权限 类 似 的 方式 授予 到 特定 属性 上 。 下 面 的 grant 语句 允许 用 户 Mariano 创建 这 样 的 关 
系 ， 它 能 够 参照 department 关系 的 码 dept_name: 

grant references (dept_name) on department to Mariano; 

初 看 起 来 ， 似 乎 没有 理由 不 允许 用 户 创 建 参 照 了 其 他 关系 的 外 码 。 但 是 ， 回 想 一 下 外 码 约束 限制 
了 被 参照 关系 上 的 删除 和 更 新 操作 。 假 定 Mariano 在 关系 中 创建 了 一 个 外 码 ， 它 参照 department 关系 
的 dept_name 属性 ， 然 后 在 r 中 插入 一 条 属于 Geology 系 的 元 组 。 那 么 就 再 也 不 可 能 从 department 关系 中 
将 Geology 系 删除 ， 除 非 同时 也 修改 关系 r。 这 样 Mariano 定义 的 外 码 限 制 了 其 他 用 户 将 来 的 行为 ， 因 
此 ， 需 要 有 references 权限 。 

继续 使 用 department 关系 的 例子 ， 如 果 要 创建 关系 上 上 的 check 约束 ， 并 且 该 约束 有 参照 
department 的 子 查询 ， 那 么 还 需要 有 department 上 的 references 权限 。 其 原因 与 外 码 约束 的 情况 类 似 ， 因 
为 参照 了 一 个 关系 的 check 约束 限制 了 对 该 关系 可 能 的 更 新 。 
4. 6.5 权限 的 转移 

获得 了 某 些 形式 授权 的 用 户 可 能 被 允许 将 此 授权 传递 给 其 他 用 户 。 在 默认 方式 下 ， 被 授予 权限 的 
用 户 / 角 色 无 权 把 得 到 的 权限 再 授予 给 另外 的 用 户 / 角 色 。 如 果 我 们 在 授权 时 人 允许 接受 者 把 得 到 的 权限 
再 传递 给 其 他 用 户 ， 我 们 可 以 在 相应 的 grant 命令 后 面 附加 with grant option 子 句 。 例 如 ， 如 果 我 们 希 
望 授予 Amit 在 department 上 的 select ER, FFA iF Amit 将 该 权限 授予 给 其 他 用 户 ， 我 们 可 以 写 : 

grant select on department to Amit with grant option; 

一 个 对 象 (关系 /视图 /角色 ) 的 创建 者 拥有 该 对 象 上 的 所 有 权限 ， 包 括 给 其 他 用 户 授 权 的 权限 。 

作为 一 个 例子 ， 考 虑 大 学 数据 库 中 teaches 关系 上 更 新 权限 的 授予 。 假 设 最 初 数据 库 管 理 员 将 
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teaches 上 的 更 新 权限 授 给 用 户 VU, U, 和 Us， 他 们 接 下 来 又 可 以 将 这 一 授权 传递 给 其 他 用 户 。 指 定 权 
限 从 一 个 用 户 到 男 一 个 用 户 的 传递 可 以 表示 为 授权 图 ( authorization graph ) 。 该 图 中 的 项 点 是 用 户 

考虑 teaches 上 更 新 权限 所 对 应 的 授权 图 。 如 果 用 户 OU, gh ey 
将 teaches 上 的 更 新 权限 授 给 U,， 则 图 中 包含 边 U, 一 U, 。 图 E R 
的 根 是 数据 库 管 理 员 。 在 图 4-10 所 示 的 示例 图 中 ,注意 U, y NSS 
和 U, 都 给 用 户 Us 授权 了 ; 而 U, 只 从 U, 处 获得 了 授权 。 ed eed) 

用 户 具 有 权限 的 充分 必要 条 件 是 : 当 且 仅 当 存在 从 授权 
图 的 根 ( 即 代表 数据 库 管理 员 的 顶点 ) 到 代表 该 用 户 顶 点 的 
路 径 。 hy 
EG Sees 图 4-10 ”权限 授 子 图 (U,V,,，…, 1/ 

假设 数据 库 管理 员 决 定 收回 用 户 U, 的 授权 。 由 于 Us 从 on nen ER 
U, 处 获得 过 授权 ， 因 此 其 权限 也 应 该 被 收回 。 可 是 ，Us RE ; 4 
BAU, 处 又 从 U, 处 获得 过 授权 。 由 于 数据 库 管理 员 没 有 从 U, 处 收回 teaches 上 的 更 新 权限 ，U; 继续 拥 
有 teaches 上 的 更 新 权限 。 如 果 Uy 最 终 从 Us 处 收回 授权 ， 则 U, 失去 权限 。 

一 对 狭 独 的 用 户 可 能 企图 通过 相互 授权 来 破坏 权限 收回 规则 。 例 如 ， 如 果 U; 最 初 由 数据 库 管理 员 
授予 了 一 种 权限 ，U, 进而 把 此 权限 授予 给 U;。 假 设 U, 现在 把 此 权限 授 回 给 U,。 如 果 数 据 库 管 理 员 从 
U, 收回 权限 ， 看 起 来 好 像 U, 保留 了 通过 U 获得 的 授权 。 然 而 ， 注 意 一 旦 管理 员 从 U, 收回 权限 ， 在 
授权 图 中 就 不 存在 从 根 到 U, R U, 的 路 径 了 。 这 样 ，SQL 保证 从 这 两 个 用 户 那 里 都 收回 了 权限 。 

正如 我 们 刚才 看 到 的 那样 ， 从 一 个 用 户 /角色 那里 收回 权限 可 能 导致 其 他 用 户 / 角 色 也 失去 该 权限 。 
这 一 行为 称 作 级 联 收回 。 在 大 多 数 的 数据 库 系统 中 ， 级 联 是 默认 行为 。 然 而 ，revoke 语句 可 以 申明 
restrict 来 防止 级 联 收回 : 





revoke select on department from Amit, Satoshi restrict; 


这 种 情况 下 ， 如 果 存 在 任何 级 联 收回 ， 系 统 就 返回 一 个 错误 ， 并 且 不 执行 收 权 动作 。 

可 以 用 关键 字 cascade 来 替换 restrict， 以 表示 需要 级 联 收回 ; 然而 ，cascade 可 以 省 略 ， 就 像 我 们 
前 述 例 子 中 的 那样 ， 因 为 它 是 默认 行为 。 

下 面 的 revoke 语句 仅仅 收回 grant option ， 而 并 不 是 真正 收回 select 权限 : 

revoke grant option for select on department from Amit; 
注意 一 些 数 据 库 实现 不 支持 上 述 语 法 ; 它们 采用 另 一 种 方式 : 收回 权限 本 身 ， 然 后 不 带 grant option 重 
新 授权 。 

级 联 收回 在 许多 情况 下 是 不 合适 的 。 假 定 Satoshi 具有 dean 角色 ， 他 将 instructor 授 给 Amit， 后 来 
dean 角色 从 Satoshi 收回 (也 许 由 于 Satoshi 离开 了 大 学 ) ; Amit 继续 被 雇佣 为 教 职 工 ， 并 且 还 应 该 保持 
instructor 和 角色。 

为 了 处 理 以 上 情况 ，SQL 允许 权限 由 一 个 角色 授予 ， 而 不 是 由 用 户 来 授予 。SQL 有 一 个 与 会 话 所 
关联 的 当前 角色 的 概念 。 默 认 情 况 下 ， 一 个 会 话 所 关联 的 当前 角色 是 空 的 ( 某 些 特殊 情况 除外 ) 。 一 个 
会 话 所 关联 的 当前 角色 可 以 通过 执行 set role role_name 来 设置 。 指 定 的 角色 必须 已 经 授予 给 用 户 ， 否 
则 set role 语句 执行 失败 。 

如 果 要 在 授予 权限 时 将 授权 人 设置 为 一 个 会 话 所 关联 的 当前 角色 ， 并 且 当 前 角色 不 为 空 的 话 ， 我 
们 可 以 在 授权 语句 后 面 加 上 

granted by current_role 
子 句 。 

假设 将 角色 instructor( 或 其 他 权限 ) 授 给 Amit 是 用 granted by current_role 子 句 实现 的 ， 当 前 角色 
被 设置 为 dean 而 不 是 授权 人 ( 用户 Satoshi) ， 那 么 ， 从 Satoshi 处 收回 角色 /权限 (包括 角色 dean) 就 不 会 
导致 收回 以 角色 dean 作为 授权 人 所 授予 的 权限 ， 即 使 Satoshi 是 执行 该 授权 的 用 户 ; 这 样 ， 即 使 在 
Satoshi 的 权限 被 收回 后 ，Amit 仍然 能 够 保持 instructor 角色 。 


4.7 总 结 


。 SQL 支持 包括 内 连接 、 外 连接 在 内 的 几 种 连接 类 型 ， 以 及 几 种 形式 的 连接 条 件 。 
。 视图 关系 可 以 定义 为 包含 查询 结果 的 关系 。 视 图 是 有 用 的 ， 它 可 以 隐藏 不 需要 的 信息 ， 可 以 把 信息 
从 多 个 关系 收集 到 一 个 单一 的 视图 中 。 


滚 ， 该 事务 执行 的 所 有 更 新 所 带 来 的 影响 将 被 撤销 。 


区 分 。 
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事务 是 一 个 查询 和 更 新 的 序列 ， 它 们 共同 执行 某 项 任务 。 事 务 可 以 被 提交 或 回 滚 。 当 一 个 事务 被 回 


完整 性 约束 保证 授权 用 户 对 数据 库 所 做 的 改变 不 会 导致 数据 一 致 性 的 破坏 。 

参照 完整 性 约束 保证 出 现在 一 个 关系 的 给 定 属 性 集 上 的 值 同样 出 现在 另 一 个 关系 的 特定 属性 集 上 。 
域 约束 指定 了 在 一 个 属性 上 可 能 取 值 的 集合 。 这 种 约束 也 可 以 禁止 在 特定 属性 上 使 用 空 值 。 

断言 是 描述 性 表达 式 ， 它 指定 了 我 们 要 求 总 是 为 真 的 谓词 。 

SQL 数据 定义 语言 提供 对 定义 诸如 date 和 time 那样 的 固有 域 类 型 以 及 用 户 定义 域 类 型 的 支持 。 
通过 SQL 授权 机 制 ， 可 以 按照 在 数据 库 中 不 同 数据 值 上 数据 库 用 户 所 允许 的 访问 类 型 对 他 们 进行 


获得 了 某 种 形式 授权 的 用 户 可 能 允许 将 此 授权 传递 给 其 他 用 户 。 但 是 ， 对 于 权限 怎样 在 用 户 间 传递 
我 们 必须 很 小 心 ， 以 保证 这 样 的 权限 在 将 来 的 某 个 时 候 可 以 被 收回 。 


。 角色 有 助 于 根据 用 户 在 组 织 机 构 中 所 扮演 的 角色 ， 把 一 组 权限 分 配给 用 户 。 
术语 回顾 


。 连接 类 型 

口 内 连接 和 外 连接 

口 左 外 连接 、 右 外 连接 和 

全 外 连接 

O natural 连接 条 件 、using 
连接 条 件 和 on 连接 条 件 

视图 定义 

物化 视图 

视图 更 新 

事务 

口 提交 

口 回 滚 

口 原子 事务 

。 完整 性 约束 

。 WAR 














实践 习题 


4.1 


4.2 


用 SQL 写 出 下 面 的 查询 : 


唯一 性 约束 
check 子 句 
参照 完整 性 
口 级 联 删 除 
口 级 联 更 新 


日 期 和 时 间 类 型 
默认 值 

索引 

大 对 象 

用 户 定 义 类 型 


xX 


权限 

选择 

mE 插入 
更 新 

O 所 有 权限 
口 授予 权限 
收回 权限 
授予 权限 的 权限 
口 grant option 
角色 

视图 授权 
执行 授权 
调用 者 权限 
行 级 授权 











E 


























a 显示 所 有 教师 的 列表 ， 列 出 他 们 的 也、 姓名 以 及 所 讲授 课程 段 的 编号 。 对 于 没有 讲授 任何 课程 段 的 
教师 ， 确 保 将 课程 段 编 号 显示 为 0。 在 你 的 查询 中 应 该 使 用 外 连接 ， 不 能 使 用 标量 子 查询 。 

b 使 用 标量 子 查询 ， 不 使 用 外 连接 写 出 上 述 查 询 。 

c 显示 2010 年 春季 开设 的 所 有 课程 的 列表 ， 包 括 讲授 课程 段 的 教师 的 姓名 。 如 果 一 个 课程 段 有 不 止 
一 位 教师 讲授 ， 那 么 有 多 少 位 教师 ， 此 课程 段 在 结果 中 就 出 现 多 少 次 。 如 果 一 个 课程 段 没有 任何 教 
师 ， 它 也 要 出 现在 结果 中 ， 相 应 的 教师 名 置 为 一” 。 

d 显示 所 有 系 的 列表 ， 包 括 每 个 系 中 教师 的 总 数 ， 不 能 使 用 标量 子 查询 。 确 保 正 确 处 理 没有 教师 


的 系 。 


不 使 用 SQL 外 连接 运算 也 可 以 在 SQL 中 计算 外 连接 表达 式 。 为 了 阐明 这 个 事实 ， 不 使 用 外 连接 表达 式 


重 写 下 面 每 个 SQL 查询 : 
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4.4 


4.5 


4.6 
4.7 


4.8 


4.9 


a. select" from studeni natural left outer join takes 

b. select” from student natural full outer join takes 

假设 有 三 个 关系 r(4, B), s(B, C) Flt B, D) ， 其 中 所 有 属性 声明 为 非 空 。 考 虑 表达 式 : 

è r natural left outer join (s natural left outer join 1) 

e (r natural left outer join s) natural left outer join : 

a 给 出 关系 rr、s 和 + 的 实例 ， 使 得 在 第 二 个 表达 式 的 结果 中 ， 属 性 C 有 一 个 空 值 但 属性 D 有 非 空 值 . 

b. 在 第 一 个 表达 式 的 结果 中 ， 上 述 模式 中 的 C 为 空 且 刀 非 空 有 可 能 吗 ? 解释 原因 。 

测试 SQL 查询 (testing SQL query): 为 了 测试 一 个 用 文字 表达 的 查询 能 否 正确 地 用 SQL 写 出 ， 通 常 

SQL 查询 会 在 多 个 测试 数据 库 上 执行 ， 并 用 人 工 来 检测 在 每 个 测试 数据 库 上 SQL 查询 的 结果 是 否 与 用 

文字 表达 的 意图 相 匹配 。 

a. 在 3.3.3 节 我 们 见 过 一 个 错误 的 SQL 查询 ， 它 希望 找 出 每 位 教师 讲授 了 哪些 课程 ; 该 查询 计算 
instructor, teaches 和 course 的 自然 连接 ， 结 果 是 无 意 地 造成 了 让 instructor 和 course 的 dept_name 属性 
取 值 相等 。 给 出 一 个 数据 集 样 例 ， 能 有 助 于 发 现 这 种 特别 的 错误 。 

b. 在 创建 测试 数据 库 时 ， 对 每 个 外 码 来 说 ， 在 被 参照 关系 中 创建 与 参照 关系 中 任何 元 组 都 不 匹配 的 元 
组 是 很 重要 的 。 请 用 大 学 数据 库 上 的 一 个 查询 样 例 来 解释 原因 。 

c. 在 创建 测试 数据 库 时 ， 倘 若 外 码 属性 可 空 的 话 ， 在 外 码 属 性 上 创建 具有 空 值 的 元 组 是 很 重要 的 ( SQL 
人 允许 在 外 码 属 性 上 取 空 值 ， 只 要 它们 不 是 主 码 的 一 部 分 ， 并 且 没 有 被 声明 为 not null) 。 请 用 大 学 数 
据 库 上 的 一 个 查询 样 例 来 解释 原因 。 

提示 : 使 用 来 自习 题 4. 1 中 的 查询 。 

基于 习题 3. 2 中 的 查询 ， 指 出 如 何 定义 视图 student_grades (1D,GP4)， 它 给 出 了 每 个 学 生 的 等 级 分 值 

的 平均 值 ; 回忆 一 下 ， 我 们 用 关系 grade_points( grade，points) 来 把 用 字母 表示 的 成 绩 等 级 转换 为 用 数 

字 表 示 的 得 分 。 你 的 视图 定义 要 确保 能 够 正确 处 理 在 takes 关系 的 grade 属性 上 取 null 值 的 情况 。 

完成 图 4-8 中 的 大 学 数据 库 的 SQL DDL 定义 以 包括 student, takes, advisor 和 prereg 关系 。 

考虑 图 4-11 所 示 的 关系 数据 库 。 给 出 这 个 数据 库 的 SQL DDL 定义 。 指 出 应 有 的 参照 完整 性 约束 ， 并 

把 它们 包括 在 DDL 定义 中 。 





| 
employee( employee_name, street, city) 


works( employee_name, company_name, salary) 
company( company_name, city) | 
manages( employee_name, manager_name ) 





图 4-11 习题 4.7 和 习题 4. 12 的 雇员 数据 库 


正如 在 4.4.7 节 所 讨论 的 ， 我 们 希望 能 够 满足 约束 “每 位 教师 不 能 在 同一 个 学 期 的 同一 个 时 间 段 在 两 个 

不 同 的 教室 授课 ”。 

a 写 出 一 个 SQL 查询 ， 它 返回 违反 此 约束 的 所 有 (instructor， section) HA 

b. 写 出 一 个 SQL 断言 来 强制 实现 此 约束 (正如 在 4.4.7 节 所 讨论 的 那样 ， 当 代 的 数据 库 系统 不 支持 这 
样 的 断言 ， 尽 管 它们 是 SQL 标准 的 一 部 分 ) 。 

SQL 允许 外 码 依赖 指向 同一 个 关系 ， 如 下 面 的 例子 所 示 : 


create table manager 
(employee_name var char(20) not null 
manager_name var char(20) not null, 
primary key employee_name , 
foreign key (manager_name) references manager 
on delete cascade ) 


这 里 employee_name 是 manager 表 的 码 ， 意 味 着 每 个 雇员 最 多 只 有 一 个 经 理 。 外 码 子 句 要 求 每 个 经 
理 都 是 一 个 雇员 。 请 准确 解释 当 manager 关系 中 一 个 元 组 被 删除 时 会 发 生 什么 情况 。 


4.10 SQL 提供 一 个 称 为 coalesce 的 n 维 数组 运算 ， 其 定义 如 下 : coalesce(A,, A, =, 4,) 返 回 序列 


A, 4 ，…，, A, 中 第 一 个 非 空 值 4 ， 如 果 所 有 的 A,, 4: ，…, 4， 全 为 null, MRE null, 
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假设 a 和 4 是 模式 分 别 为 4(name, address, ,iitle) 和 有 (name， address, salary) 的 关系 。 如 何 用 带 on 
条 件 和 coalesce 运算 的 全 外 连接 (full outer-join ) 运算 来 表达 a natural full outer join bp。 要 保证 结 
果 关 系 中 不 包含 属性 name 和 address 的 两 个 副本 ， 并 且 即 使 a。 Fb 中 的 某 些 元 组 在 属性 name 和 
address 上 取 空 值 的 情况 下 ， 所 给 出 的 解决 方案 仍然 是 正确 的 . 

一 些 研 究 者 提出 带 标 记 的 (marked) 空 值 的 概念 。 带 标记 空 值 上 , 与 它 自身 相等 ,但 是 如 果 iA), 
BAL AL. 带 标记 空 值 的 一 个 应 用 是 允许 通过 视图 进行 特定 的 更 新 。 考 虑 视图 instructor_info 
(4.2 节 )， 如 何 利 用 带 标记 空 值 来 允许 通过 instructor _ info 搬入 元 组 (99999,“Johnson , 
“Taylor”) ， 


对 于 图 4-11 中 的 数据 库 ， 写 出 一 个 查询 来 找到 那些 没有 经 理 的 雇员 。 注 意 一 个 雇员 可 能 只 是 没有 列 
出 其 经 理 ， 或 者 可 能 有 null 经 理 。 使 用 外 连接 书写 查询 ， 然 后 不 用 外 连接 再 重 写 查 询 。 
在 什么 情况 下 ,查询 

select © 

from student natural full outer join takes natural full outer join course 
将 包含 在 属性 tiitie 上 取 空 值 的 元 组 ? 
给 定 学 生 每 年 修 到 的 学 分 总 数 ， 如 何 定义 视图 tot_credits (year, num_credits) 。 
给 出 如 何 用 case 运算 表达 习题 4. 10 中 的 coalesce 运算 。 
如 本 章 定义 的 参照 完整 性 约束 正好 涉及 两 个 关系 。 考 虑 包括 如 图 4-12 所 示 关 系 的 数据 库 。 假 设 我 们 
希望 要 求 每 个 出 现在 address 中 的 名 字 必 须 出 现在 salaried_worker 或 者 hourly_worker 中 ， 但 不 一 定 要 求 
在 两 者 中 同时 出 现 。 
a. 给 出 表达 这 种 约束 的 语法 。 
b. 讨论 为 了 使 这 种 形式 的 约束 生效 ， 系 统 必须 采取 什么 行动 。 

salaried_worker ( name, office, phone, salary) | 


hourly_worker ( name, hourly_wage ) 
address (name, street, city) 





图 4-12 习题 4. 16 的 雇员 数据 库 


当 一 个 经 理 如 Satoshi 授予 权限 的 时 候 ， 授 权 应 当 由 经 理 角色 完成 ， 而 不 是 由 用 户 Satoshi 完成 。 解 释 
其 原因 。 

假定 用 户 4 拥有 关系 上 上 的 所 有 权限 ， 该 用 户 把 关系 "上 的 查询 权限 以 及 授予 该 权限 的 权限 授予 给 
public。 假 定 用 户 中 将 "上 的 查询 权限 授予 A。 这 是 否 会 导致 授权 图 中 的 环 ” 解释 原因 。 

将 每 个 关系 存放 在 一 个 单独 的 操作 系统 文件 中 的 数据 库 系统 可 能 使 用 操作 系统 的 授权 机 制 ， 而 不 是 自 
己 定义 一 种 专门 的 机 制 。 请 论述 这 种 方法 的 一 个 优点 和 一 个 缺点 。 


文献 注解 


准 中 


对 于 SQL 参考 资料 请 参考 第 3 章 的 文献 注解 。 
SQL 用 于 决定 视图 更 新 能 力 的 规则 ， 以 及 更 新 操作 如 何 影响 底层 的 数据 库 关 系 ， 都 定义 在 SQL:1999 标 
o Melton 和 Simon[ 2001 | 中 对 此 进行 了 总 结 。 
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高 级 SQL 





在 第 3 章 和 第 4 章 我 们 详细 地 介绍 了 SQL 的 基本 结构 。 在 本 章 中 我 们 将 介绍 SQL 的 一 些 高 级 特性 。 “本 
章 首先 介绍 如 何 使 用 通用 程序 设计 语言 来 访问 SQL， 这 对 于 构建 用 数据 库存 取 数 据 的 应 用 有 重要 意义 。 
我 们 将 介绍 两 种 在 数据 库 中 执行 程序 代码 的 方法 : 一 种 是 通过 扩展 SQL 语言 来 支持 程序 的 操作 ; 另 一 
种 是 在 数据 库 中 执行 程序 语言 中 定义 的 函数 。 接 下 来 本 章 将 介绍 触发 器 ， 用 于 说 明 当 特定 事件 (例如 在 
某 个 表 上 进行 元 组 插入 、 删 除 或 更 新 操作 ) 发生 时 自动 执行 的 操作 。 然 后 本 章 将 讨论 递归 查询 和 SQL 
支持 的 高 级 聚集 特性 。 最 后 ,我们 将 对 联机 分 析 处 理 ( OLAP) 系统 加 以 介绍 ， 它 可 用 于 海量 数据 的 交互 


5.1 使 用 程序 设计 语言 访问 数据 库 


SQL 提供 了 一 种 强大 的 声明 性 查询 语言 。 实 现 相同 的 查询 ， 用 SQL 写 查询 语句 比 用 通用 程序 设计 
语言 要 简单 得 多 。 然 而 ， 数 据 库 程序 员 必须 能 够 使 用 通用 程序 设计 语言 ， 原 因 至 少 有 以 下 两 点 : 
。 因为 SQL 没有 提供 通用 程序 设计 语言 那样 的 表达 能 力 ， 所 以 SQL 并 不 能 表达 所 有 查询 要 求 。 也 
就 是 说 ， 有 可 能 存在 这 样 的 查询 ， 可 以 用 C、Java 或 Cobol 编写 ， 而 用 SQL 做 不 到 。 要 写 这 样 
的 查询 ， 我 们 可 以 将 SQL 做 入 到 一 种 更 强大 的 语言 中 。 

。 非 声 明 性 的 动作 (例如 打印 一 份 报告 、 和 用 户 交互 ,或 者 把 一 次 查询 的 结果 送 到 一 个 图 形 用 户 
界面 中 ) 都 不 能 用 SQL 实现 。 一 个 应 用 程序 通常 包括 很 多 部 分 ， 查 询 或 更 新 数据 只 是 其 中 之 一 ， 
而 其 他 部 分 则 用 通用 程序 设计 语言 实现 。 对 于 集成 应 用 来 说 ， 必 须 用 某 种 方法 把 SQL 与 通用 编 
程 语言 结合 起 来 。 

可 以 通过 以 下 两 种 方法 从 通用 编程 语言 中 访问 SQL: 

。 动态 SQL: 通用 程序 设计 语言 可 以 通过 函数 (对 于 过 程式 语言 ) 或 者 方法 (对 于 面向 对 象 的 语言 ) 
来 连接 数据 库 服务 器 并 与 之 交互 。 利 用 动态 SQL 可 以 在 运行 时 以 字符 串 形式 构建 SQL 查询 ， 提 
交 查 询 ， 然 后 把 结果 存 人 程序 变量 中 ， 每 次 一 个 元 组 。 动 态 SQL 的 SQL 组 件 允 许 程序 在 运行 时 
构建 和 提交 SQL 查询 。 

在 这 一 章 中 ， 我 们 将 介绍 两 种 用 于 连接 到 SQL 数据 库 并 执行 查询 和 更 新 的 标准 。 一 种 是 

Java 语言 的 应 用 程序 接口 JDBC(5. 1. 1 节 ) 。 另 一 种 是 ODBC(5.1.2 节 )， 它 最 初 是 为 C 语言 开 
发 的 ， 后 来 扩展 到 其 他 语言 如 C++ 、C# 和 Visual Basic. 
AIÈ SQL: 与 动态 SQL 类 似 , WAR SQL 提供 了 另外 一 种 使 程序 与 数据 库 服务 器 交互 的 手 
BE. SRI, PRAT SQL 语句 必须 在 编译 时 全 部 确定 ， 并 交 给 预 处 理 器 。 预 处 理 程序 提交 SQL if 
句 到 数据 库 系统 进行 预 编译 和 优化 ， 然 后 它 把 应 用 程序 中 的 SQL 语句 替换 成 相应 的 代码 和 郴 
数 ， 最 后 调用 程序 语言 的 编译 器 进行 编译 。5. 1. 3 mK ASK SQL 的 内 容 。 

把 SQL 与 通用 程序 语言 相 结 合 的 主要 挑战 是 : 这 些 语言 处 理 数据 的 方式 互 不 兼容 。 在 SQL 中 ， 数 
据 的 主要 类 型 是 关系 。SQL 语句 在 关系 上 进行 操作 ， 并 返回 关系 作为 结果 。 程 序 设计 语言 通常 一 次 操 





O ”注意 关于 章节 的 先后 顺序 : 数据 库 设计 (第 7 章 和 第 8 章 ) 可 以 脱离 本 章 独立 学 习 。 完 全 可 以 先 学 习 数 据 库 设计 ， 
再 读本 章 内 容 。 然 而 ， 对 于 强调 编程 能 力 的 课程 而 言 ， 在 学 习 了 5. 1 节 之 后 可 以 做 更 多 的 实验 练习 ， 所 以 我 们 建 
议 在 学 习 数据 库 设计 之 前 先 掌握 这 部 分 的 内 容 。 
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作 一 个 变量 ， 这 些 变量 大 致 相当 于 关系 中 一 个 元 组 的 一 个 属性 的 值 。 因 此 ， 为 了 在 同一 应 用 中 整合 这 
两 类 语言 ， 必 须 提供 一 种 转换 机 制 ， 使 得 程序 语言 可 以 处 理 查 询 的 返回 结果 。 
5.1.1 JDBC 
JDBC 标准 定义 了 Java 程序 连接 数据 库 服 务 器 的 应 用 程序 接口 ( Application Program Interface, API) 
(JDBC 原来 是 Java 数据 库 连 接 ( Java Database Connectivity) 的 缩写 , 但 其 全 称 现在 已 经 不 用 了 ). [157] 
图 5-1 给 出 了 一 个 利用 JDBC 接口 的 Java 程序 的 例子 。 它 向 我 们 演示 了 如 何 打开 数据 库 连 接 ， 执 行 | 158 | 
语句 ， 处 理 结 果 ， 最 后 关闭 连接 。 我 们 将 在 本 节 详 细 讨论 这 个 实例 。 注 意 ，Java 程序 必须 引用 java. sql. 2 
*, EBAT JDBC 所 提供 功能 的 接口 定义 。 


public static void JDBCexample(String userid, String passwd) 
{ 


Xr 


try 
{ 
Class.forName ("oracle.jdbc.driver.OracleDriver"); 
Connection conn = DriverManager.getConnection( 
"jdbc:oracle:thin:@db.yale.edu: 1521 :univdb", 
userid, passwd); 
Statement stmt = conn.createStatement(); 
try { 
stmt.executeUpdate( 


“insert into instructor values(’77987’', 'Kim’, ‘Physics’, 98000)"); 
} catch (SQLException sqle) 
{ 


System.out.printin("Could not insert tuple. " + sqle); 


} 
ResultSet rset = stmt.executeQuery( 
“select dept name, avg (salary) "+ 
"from instructor "+ 
" group by deptname"): 
while (rset.next() { 
System.out.printin(rset.getString("dept name") + " "+ 
rset.getFloat(2)): 





} 
stmt.close(); 
conn.close(); 


catch (Exception sqle) 


System.out.printin("Exception : " + sqle); 
} 
} 


L 








图 5-1 JDBC 代码 示例 


5.1.1.1 连接 到 数据 库 
要 在 Java 程序 中 访问 数据 库 ， 首 先 要 打开 一 个 数据 库 连接 。 这 一 步 需要 选择 要 使 用 哪个 数据 库 ， 
例如 ， 可 以 是 你 的 机 器 上 的 一 个 Oracle 实例 ， 也 可 以 是 运行 在 另 一 台 机 器 上 的 一 个 PostgreSQL 数据 库 ， 
只 有 在 打开 数据 库 连 接 以 后 ，Java 程序 才能 执行 SQL 语句 。 [159] 
可 以 通过 调用 DriverManager 类 (在 java. sql 包 中 ) 的 getConnection 方法 来 打开 一 个 数据 库 连 接 。 该 
方法 有 三 个 参数 。° 
© getConnection 方法 的 第 一 个 参数 是 以 字符 串 类 型 表示 的 URL， 指 明 服 务 器 所 在 的 主机 名 称 (在 
我 们 的 例子 里 是 db. yale. edu) 以 及 可 能 包含 的 其 他 信息 ， 例 如 ， 与 数据 库 通信 所 用 的 协议 (在 
我 们 的 例子 里 是 jdbe :oracle:thin: ， 我 们 马上 就 会 看 到 为 什么 需要 它 ) ， 数 据 库 系统 用 来 通信 的 
端口 号 (在 我 们 的 例子 中 是 2000)， 还 有 服务 器 端 使 用 的 特定 数据 库 ( 在 我 们 的 例子 中 是 
univdb) 。 注 意 JDBC 只 是 指定 API 而 不 指定 通信 协议 。 一 个 JDBC 驱动 器 可 能 支持 多 种 协议 ， 








日 、 有 多 种 版 本 的 getConnection 函数 ， 它 们 所 接受 的 参数 各 不 相同 ， 我 们 只 介绍 其 中 最 常用 的 一 个 
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我 们 必须 指定 一 个 数据 库 和 驱动 器 都 支持 的 协议 。 协 议 的 详细 内 容 是 由 提供 商 设 定 的 。 

© getConnection 方法 的 第 二 个 参数 用 于 指定 一 个 数据 库 用 户 标识 ， 它 为 字符 串 类 型 。 

。 第 三 个 参数 是 密码 ， 它 也 是 字符 串 类 型 。( 注意 ， 把 密码 直接 写 在 JDBC 代码 中 会 增加 安全 性 隐 
患 ， 因 为 你 的 代码 有 可 能 会 被 某 些 未 被 授权 的 用 户 所 访问 。) 

在 图 5-1 中 的 例子 中 ， 我 们 已 经 建立 了 一 个 Connection 对 象 ， 其 句柄 是 conn, 

每 个 支持 JDBC( 大 多 数 的 数据 库 提供 商都 支持 ) 的 数据 库 产品 都 会 提供 一 个 JDBC 驱动 程序 (JDBC 
driver) ， 该 驱动 程序 必须 被 动态 加 载 才能 实现 Java 对 数据 库 的 访问 。 事 实 上 ， 必 须 在 连接 数据 库 之 前 
完成 驱动 程序 的 加 载 。 

在 图 5-1 中 程序 的 第 一 行 调 用 Class. forName 函数 完成 驱动 程序 的 加 载 ， 在 调用 时 需要 通过 参数 来 
指定 一 个 实现 了 java. sql. Driver 接口 的 实体 类 。 这 个 接口 的 功能 是 为 了 实现 不 同 层面 的 操作 之 间 的 转 
换 ， 一边 是 与 产品 类 型 无 关 的 JDBC 操作 ， 另 一 边 是 与 产品 相关 的 、 在 所 使 用 的 特定 数据 库 管 理 系 统 
中 完成 的 操作 。 图 中 的 实例 采用 了 Oracle 的 驱动 程序 ，oracle. jdbc. driver. OracleDriver ”该 驱动 程序 
包含 在 一 个 . jar 文件 里 ， 可 以 从 提供 商 的 网 站 下 载 ， 然 后 放 在 Java 的 类 路 径 (classpath ) E, JHF Java 
编译 器 访问 。 

用 来 与 数据 库 交换 信息 的 具体 协议 并 没有 在 JDBC 标准 中 定义 ， 而 是 由 所 使 用 的 驱动 程序 决定 的 。 
有 些 驱动 程序 支持 多 种 协议 ， 使 用 哪 一 种 更 合适 取决 于 所 连接 的 数据 库 支 持 什 么 协议 。 我 们 的 例子 里 ， 
在 打开 一 个 数据 库 连 接 时 ， 字 符 串 jdbc :oracle:thin: 指 定 了 Oracle 支持 的 一 个 特定 协议 。 

5.1.1.2 向 数据 库 系 统 中 传递 SQL 语句 

一 旦 打开 了 一 个 数据 库 连接 ， 程 序 就 可 以 利用 该 连接 来 向 数据 库 发 送 SQL 语句 用 于 执行 。 这 是 通 
过 Statement 类 的 一 个 实例 来 完成 的 。 一 个 Statement 对 象 并 不 代表 SQL 语句 本 身 ， 而 是 实现 了 可 以 被 
Java 程序 调用 的 一 些 方法 ， 通 过 参数 来 传递 SQL 语句 并 被 数据 库 系统 所 执行 。 我 们 的 例子 在 连接 变量 
conn 上 创建 了 一 个 Statement 句柄 (stmt ) 。 

我 们 既 可 以 使 用 executeQuery Ri% MZ AY LAJH executeUpdate 国 数 来 执行 一 条 语句 ， 这 取决 于 这 条 
SQL 语句 是 查询 语句 (如 果 是 查询 语句 ， 自 然 会 返回 一 个 结果 集 )， 还 是 像 更 新 (update) 、 插 入 
(insert), fi] BR ( delete), i) @ K (create table) 等 这 样 的 非 查 询 性 语句 。 在 我 们 的 例子 里 ， 
stmt. executeUpdate 执行 了 一 条 更 新 语句 ， 向 instructor 关系 中 插入 数据 。 它 返回 一 个 整数 ， 表 示 被 插 
人 和、 更 新 或 者 删除 的 元 组 个 数 。 对 于 DDL 语句 ， 返 回 值 是 0。try |---| catch |---| 结构 让 我 们 可 以 捕捉 
JDBC 调用 产生 的 异常 (错误 情况 )， 并 显示 给 用 户 适 当 的 出 错 信息 。 

5.1.1.3 获取 查询 结果 

示例 程序 用 stmt. executeQuery 来 执行 一 次 查询 。 它 可 以 把 结果 中 的 元 组 集合 提取 到 ResultSet 对 象 
变量 rset 中 并 每 次 取出 一 个 进行 处 理 。 结 果 集 的 next 方法 用 来 查看 在 集合 中 是 否 还 存在 至 少 一 个 尚未 
取 回 的 元 组 ， 如 果 存 在 的 话 就 取出 。next 方 法 的 返回 值 是 一 个 布尔 变量 ,表示 是 否 从 结果 集中 取 回 了 
一 个 元 组 。 可 以 通过 一 系列 的 名 字 以 get 为 前 级 的 方法 来 得 到 所 获取 元 组 的 各 个 属性 。 方 法 getString 可 
以 返回 所 有 的 基本 SQL 数据 类 型 的 属性 (被 转换 成 Java 中 的 String 类 型 的 值 ) ， 当 然 也 可 以 使 用 像 
getFloat 那样 一 些 约束 性 更 强 的 方法 。 这 些 不 同 的 get 方法 的 参数 既 可 以 是 一 个 字符 串 类 型 的 属性 名 称 ， 
又 可 以 是 一 个 整数 ， 用 来 表示 所 需 获 取 的 属性 在 元 组 中 的 位 置 。 图 5-1 给 出 了 两 种 在 元 组 中 提取 属性 
值 的 办 法 : 利用 属性 名 提取 (dept_name ) 或 者 利用 属性 位 置 提取 (2， 代 表 第 二 个 属性 ) 。 

Java 程序 结束 的 时 候 语 句 和 连接 都 将 被 关闭 。 注 意 关闭 连接 是 很 重要 的 ， 因 为 数据 库 连 接 的 个 数 
是 有 限制 的 ; 未 关闭 的 连接 可 能 导致 超过 这 一 限制 。 如 果 发 生 这 种 情况 ， 应 用 将 不 能 再 打开 任何 数据 
库 连接 。 


© 其 他 产品 的 类 似 的 驱动 名 称 如 下 : IBM DB2: com. ibm. db2. jdbc. app. DB2Driver; Microsoft SQL Server; com. 
microsoft. sqlserver. jdbc. SQLServerDriver; PostgreSQL: org. postgresql. Driver; MySQL; com. mysql. jdbc. Driver. Sun 
公司 还 提供 了 一 种 “桥接 驱动 器 "， 可 以 把 JDBC 调用 转换 成 ODBC. 该 驱动 仅 是 用 于 那些 支持 ODBC 但 不 支持 
JDBC 的 厂商 。 
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5.1.1.4 预备 语句 

我 们 也 可 以 通过 以 “?" 来 代表 以 后 再 给 出 的 实际 值 ， 而 创建 一 个 预备 语句 。 数 据 库 系统 在 准备 了 
查询 语句 的 时 候 对 它 进 行 编译 。 在 每 次 执行 该 语句 PreparedStatement pStmt = conn.prepareStatement( 
时 (用 新 值 替 换 *“?”)， 数 据 库 可 以 重用 预先 编译 的 查 | "insert into instructor values(?,?,?,?)"); 
询 的 形式 ， 应 用 新 值 进行 查询 。 图 5-2 的 代码 框架 给 。” |PStmt SetSinng 人 ,88877) 
出 了 如 何 使 用 预备 语 句 的 示例 psn siting France) 

可 以 使 用 Connection 类 的 prepareStatement 方法 | pStmt.executeUpdate(); 
HH SQL 语句 用 于 编译 。 它 返回 一 个 Prepared Set ere 
Statement 类 的 对 象 。 此 时 还 没有 执行 SQL 语句 。 执 
行 需要 PreparedStatement 类 的 两 个 方法 executeQuery 图 5-2 JDBC 代码 中 的 预备 语句 
和 executeUpdate。 但 是 在 它们 被 调用 之 前 ， 我 们 必 
须 使 用 PreparedStatement 类 的 方法 来 为 "? "参数 设 定 具 体 的 值 。setString 方法 以 及 诸如 setInt 等 用 于 其 他 
的 SQL 基本 类 型 的 其 他 类 似 的 方法 使 我 们 能 够 为 参数 指定 值 。 第 一 个 参数 用 来 确定 我 们 为 哪个 "?”" 设 
定 值 (参数 的 第 一 个 值 是 1， 区 别 于 大 多 数 的 Java 结构 的 从 0 开始 ) 。 第 二 个 参数 是 我 们 要 设 定 的 值 。 

在 图 5-2 中 的 例子 里 ， 我 们 预备 一 个 insert 语句 ， 设 定 “? ”参数 ， 并 且 调 用 executeUpdate。 例 子 中 
的 最 后 两 行 显示 ， 参 数 设 定 保持 不 变 ， 直 到 我 们 特别 地 进行 重新 设 定 。 这 样 ， 最 后 的 语句 调用 
executeUpdate， 元 组 (“88878”, “Perry”, “Finance”, 125000) 被 插入 到 数据 库 。 
在 同一 查询 编译 一 次 然后 设置 不 同 的 参数 值 执行 多 次 的 情况 下 ， 预 备 语 句 使 得 执行 更 加 高 效 。 然 而 ， 
预备 语句 有 一 个 更 加 重要 的 优势 ， 它 使 得 只 要 使 用 了 用 户 输入 值 ， 即 使 是 只 运行 一 次 ， 预 备 语句 都 是 
执行 SQL 查询 的 首选 方法 。 假 设 我 们 读 取 了 一 个 用 户 输 入 的 值 ， 然 后 使 用 Java 的 字符 串 操 作 来 构造 
SQL 语句 。 如 果 用 户 输入 了 某 些 特殊 字符 ， 例 如 一 个 单 引 号 ， 除 非 我 们 采取 额外 工作 对 用 户 输入 进行 
检查 ， 否 则 生成 的 SQL 语句 会 出 现 语法 错误 。setString 方法 为 我 们 自动 完成 检查 ， 并 插入 需要 的 转 义 
字符 ， 以 确保 语法 的 正确 性 。 

在 我 们 的 例子 中 ， 假 设 用 户 已 经 输入 了 ID, name, dept_name Fil salary 这 些 变量 的 值 ， 相 应 的 元 组 
将 被 插入 到 关系 instructor P. 假设 我 们 不 用 预备 语句 ， 而 是 使 用 如 下 的 Java 表达 式 把 字符 串 连 接 起 来 
构成 查询 : 








"insert into instructor values(’ " + ID +" °, >?" + name + " 
"+" > + dept name +" °," ” salary + ")" 


并 且 查询 通过 Statement 对 象 的 executeQuery 方法 被 直接 执行 。 现在， 如 果 用 户 在 ID 或 者 name ip aK 
人 一 个 单 引 号 ， 查 询 语句 就 会 出 现 语 法 错误 。 一 个 教员 的 名 字 很 有 可 能 带 有 引号 (例如 "0'Henry”) 。 
也 许 以 上 的 例子 会 被 认为 是 一 个 小 问题 ， 而 某 些 情况 会 比 这 糟糕 得 多 。 一 种 叫做 SQL 注入 (SQL 
injection ) 的 技术 可 以 被 恶意 黑客 用 来 窍 取 数据 或 损坏 数据 库 。 
假设 一 个 Java 程序 输入 一 个 字符 串 name， 并 且 构 建 下 面 的 查询 : 


“select” from instructor where name =°" + name + "`" 


如 果 用 户 没有 输入 一 个 名 字 ， 而 是 输入 : 


KY 
这 样 ， 产 生 的 语句 就 变 成 : 
”Select ”from instructor where name =>" + "X* or Y ="Y" + "°" 
即 
select” from instructor where name = X’ or Y = Y’ 


在 生成 的 查询 中 ，where 子 句 总 是 真 ， 所 以 查询 结果 返回 整个 instructor 关系 。 更 诡计 多 端的 恶意 用 户 
甚至 可 以 编写 输入 值 以 输出 更 多 的 数据 。 使 用 预备 语句 就 可 以 防止 这 类 问题 ， 因 为 输入 的 字符 串 将 被 
插入 转 义 字符 ， 因 此 最 后 的 查询 变 为 : 
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" select” from instructor where name = °X\ or Y\ s VYY? 


这 是 无 害 的 查询 语句 ， 返 回 结果 为 空 集 。 
比较 老 的 系统 允许 多 个 由 分 号 隔 开 的 语句 在 一 次 调用 里 被 执行 。 此 功能 正 逐 渐 被 淘汰 ， 因 为 恶意 
的 黑客 会 利用 SQL 注入 技术 插入 整个 SQL 语句 。 由 于 这 些 语句 在 Java 程序 所 有 者 的 权限 上 运行 ， 像 删 
除 表 ( drop table) 这 样 毁 灭 性 的 SQL 语句 会 被 执行 。SQL 应 用 程序 开发 者 必须 警惕 这 种 潜在 的 安全 
5.1.1.5 可 调用 语句 
JDBC 还 提供 了 CallableStatement 接口 来 允许 调用 SQL 的 存储 过 程 和 函数 ( 稍 后 在 5.2 节 描 述 )， 此 
接口 对 函数 和 过 程 所 扮演 的 角色 跟 prepareStatement 对 查询 所 扮演 的 角色 一 样 。 


CallableStatement cStmtl = conn. prepareCall(“ | ? =call some_function(?) |”); 
CallableStatement cStmt2 = conn. prepareCall(” | call some_procedure(?, ?) |”); 


函数 返回 值 和 过 程 的 对 外 参数 的 数据 类 型 必须 先 用 方法 registerOutParameter( ) 注册 ， 它 们 可 以 用 与 结果 
集 用 的 方法 类 似 的 get 方法 获取 。 请 参看 JDBC 手册 以 获得 更 细节 的 信息 。 

5.1.1.6 元 数据 特性 

正如 我 们 此 前 提 到 的 ， 一 个 Java 应 用 程序 不 包含 数据 库 中 存储 的 数据 的 声明 。 这 些 声明 是 SQL 数 
据 定义 语言 (DDL) 的 一 部 分 。 因 此 ， 使 用 JDBC 的 Java 程序 必须 要 么 将 关于 数据 库 模 式 的 假设 硬 编码 
到 程序 中 ， 要 么 直接 在 运行 时 从 数据 库 系 统 中 得 到 那些 信息 。 后 一 种 方法 更 可 取 ， 因 为 它 使 得 应 用 程 
序 可 以 更 健壮 地 处 理 数 据 库 模式 的 变化 。 

回想 一 下 ， 当 我 们 提交 一 个 使 用 executeQuery 方法 的 查询 时 ， 查 询 结果 被 封装 在 一 个 ResultSet 对 
象 中 。 接 口 ResultSet 有 一 个 getMetaData( ) 方 法 ， 它 返回 一 个 包含 结果 集 元 数据 的 ResultSetMetaData 对 
象 。ResultSetMetaData 进一步 又 包含 查找 元 数据 信息 的 方法 ， 例 如 结果 的 列 数 、 某 个 特定 列 的 名 称 ， 或 
者 某 个 特定 列 的 数据 类 型 。 这 样 ， 即 使 不 知道 结果 的 模式 ， 我 们 也 可 以 方便 地 执行 查询 。 

下 面 的 Java 代码 片段 使 用 JDBC 来 打印 出 一 个 结果 集中 所 有 列 的 名 称 和 类 型 。 代 码 中 的 变量 rs 假 
定 是 执行 查询 后 所 获得 的 一 个 ResultSet 实例 。 

ResultSetMetaData rsmd = rs. getMetaData() ; 
for(int i=1; i <= rsmd. getColumnCount() ; i++) | 
System. out. printin( rsmd. getColumnName (i) ) ; 
System. out. printin( rsmd. getColumnTypeName‘(i) ) ; 
| 
getColumnCount 方法 返回 结果 关系 的 元 数 ( 属 性 个 数 )。 这 使 得 我 们 能 够 遍历 每 个 属性 ( 请 注意 ， 和 
JDBC 的 惯例 一 致 ， 我 们 从 1 开始 )。 对 于 每 一 个 属性 ， 我 们 采用 getColumnName 和 getColumnType-Name 
两 个 方法 分 别 得 到 它 的 名 称 和 数据 类 型 。 

DatabaseMetaData 接口 提供 了 查找 数据 库 元 数据 的 机 制 。 接 口 Connection 包含 一 个 getMeta- Data 方 
法 用 于 返回 一 个 DatabaseMetaData 对 象 。 接 口 DatabaseMetaData 进一步 又 含有 大 量 的 方法 可 以 用 于 获取 
程序 所 连接 的 数据 库 和 数据 库 系统 的 元 数据 。 

例如 ， 有 些 方法 可 以 返回 数据 库 系统 的 产品 名 称 和 版 本 号 。 男 外 一 些 方 法 可 以 用 来 查询 数据 库 系 
统 所 支持 的 特性 。 

还 有 其 他 可 以 返回 数据 库 本 身 信息 的 方法 。 图 5-3 中 的 代码 显示 了 如 何 找 出 数据 库 中 的 关系 的 列 
(属性 ) 信 息 。 变 量 conn 假定 存储 了 一 个 已 经 打开 的 数据 库 连 接 。 方 法 getColumns 有 四 个 参数 : 一 个 目 
录 名 称 (null 表示 目录 名 称 被 忽略 ) 、 一 个 模式 名 称 模板 、 一 个 表 名 称 模板 ， 以 及 一 个 列 名 称 模板 。 模 
式 名称 、 表 名 称 和 列 名 称 的 模板 可 以 用 于 指定 一 个 名 字 或 一 个 模板 。 模 板 可 以 使 用 SQL 字符 串 匹配 特 
殊 字 符 如 “%” 和 “_”; 例如 模板 “% "匹配 所 有 的 名 字 。 只 有 满足 特定 名 称 或 模板 的 模式 中 的 表 的 列 被 
检索 到 。 结 果 集 中 的 每 行 包 含 一 个 列 的 信息 。 结 果 集 中 的 行 包 括 若 干 个 列 ， 如 目录 名 称 、 模 式 、 表 和 
列 、 列 的 类 型 ， 等 等 。 
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DatabaseMetaData dbmd = conn. getMetaData( ) ; 
ResultSet rs = dbmd. getColumns( null, "univdb" , "department" , "%" ) ; 
// getColumns 的 参数 :类 别 ,模式 名 , 表 名 , 列 名 
// 返回 值 :每 列 返回 一 行 ,包含 一 系列 属性 ,例如 :COLUMN_NAME, TYPE_NAME 
while( rs. next( )) | 
System. out. println( rs. getString( " COLUMN_NAME" ) , 
rs. getString( " TYPE_NAME" ) ; 











图 5-3 在 JDBC 中 使 用 rat 查找 列 信 息 


DatabaseMetaData 还 提供 了 获取 数据 库 信息 的 一 些 其 他 方法 ， 比 如 ， 可 以 用 来 获取 关系 (getTables( ) ) 、 
外 码 参 照 ( getCrossReference( ) ) 、 授 权 、 数 据 库 限制 如 最 大 连接 数 等 的 元 数据 。 

元 数据 接口 可 以 用 于 许多 不 同 的 任务 。 例 如 ， 它 们 可 以 用 于 编写 数据 库 的 浏览 器 ， 该 浏览 器 允许 
用 户 找 出 一 个 数据 库 中 的 关系 表 ， 检 查 它 们 的 模式 ， 检 查 表 中 的 行 ， 用 选择 操作 查看 想 要 的 行 ， 等 等 
元 数据 信息 可 以 用 于 使 这 些 任务 的 代码 更 通用 ; 例如 ， 用 来 显示 一 个 关系 中 的 行 的 代码 可 以 用 这 样 的 [165 | 
方法 编写 使 得 它 能 够 在 所 有 可 能 的 关系 上 工作 ， 无 论 这 些 关系 的 模式 是 什么 。 类 似 地 ， 可 以 编写 这 样 
的 代码 ， 它 获得 一 个 查询 字符 串 ， 执 行 查询 ， 然 后 把 结果 打印 成 一 个 格式 化 的 表 ; 无 论 提 交 了 的 实际 
查询 是 什么 ， 这 段 代码 都 可 以 工作 。 

5.1.1.7 其 他 特性 

JDBC 提供 了 一 些 其 他 特性 ， 如 可 更 新 的 结果 集 (updatable result sets)。 它 可 以 从 一 个 在 数据 库 关 
系 上 执行 选择 和 /或 投影 操作 的 查询 中 创建 一 个 可 更 新 的 结果 集 。 然 后 ， 一 个 对 结果 集中 的 元 组 的 更 新 
将 引起 对 数据 库 关系 中 相应 元 组 的 更 新 。 

回想 一 下 4. 3 节 ， 事 务 把 多 个 操作 封装 成 一 个 可 以 被 提交 或 者 回 滚 的 原子 单元 

默认 情况 下 ， 每 个 SQL 语句 都 被 作为 一 个 自动 提交 的 独立 的 事务 来 对 待 。JDBC 的 Connection 接口 
中 的 方法 setAutoCommit () 允许 打开 或 关闭 这 种 行为 。 因 此 ， 如 果 con 是 一 个 打开 的 连接 ， 则 
conn. setAutoCommit (false) 将 关闭 自动 提交 。 然 后 事务 必须 用 conn. commit( ) 显 式 提 交 或 用 conn. 
rollback( ) 回 深 。 自 动 提交 可 以 用 conn. setAutoCommit( true) 来 打开 

JDBC 提供 处 理 大 对 象 的 接口 而 不 要 求 在 内 存 中 创建 整个 大 对 象 。 为 了 获取 大 对 象 ，ResultSet 接口 
提供 方法 getBlob( ) 和 getClob( ) ， 它 们 与 getString( ) 方法 相似 ， 但 是 分 别 返回 类 型 为 Blob 和 Clob 的 
对 象 。 这 些 对 象 并 不 存储 整个 大 对 象 ， 而 是 存储 这 些 大 对 象 的 定位 器 ， 即 指向 数据 库 中 实际 大 对 象 的 
逻辑 指针 。 从 这 些 对 象 中 获取 数据 与 从 文件 或 者 输入 流 中 获取 数据 非常 相似 ， 可 以 采用 像 getBytes 和 
getSubString 这 样 的 方法 来 实现 。 

反 向 操作 时 ， 为 了 向 数据 库 里 存储 大 对 象 ， 可 以 用 PreparedStatement 类 的 方法 setBlob (int 
parameterIndex InputStream inputStream) 把 一 个 类 型 为 二 进 制 大 对 象 (blob) 的 数据 库 列 与 一 个 输入 流 
关联 起 来 。 当 预备 语句 被 执行 时 ， 数 据 从 输入 流 被 读 取 ， 然 后 被 写 人 数据 库 的 二 进 制 大 对 象 中 。 与 此 
相似 ， 使 用 方法 setClob 可 以 设置 字符 大 对 象 (clob) 列 ， 该 方法 的 参数 包括 该 列 的 序号 和 一 个 字符 
串 流 。 

JDBC 还 提供 了 行 集 (row set) 特性 ， 允 许 把 结果 集 打 包 起 来 发 送 给 其 他 应 用 程序 。 行 集 既 可 以 向 
后 又 可 以 向 前 扫描 ， 并 且 可 被 修改 。 行 集 一 旦 被 下 载 下 来 就 不 再 是 数据 库 本 身 的 内 容 了 ， 所 以 我 们 在 
这 里 并 不 对 其 做 详细 介绍 。 

5.1.2 ODBC 


开放 数据 库 互 连 (Open DataBase Connectivity, ODBC) 标准 定义 了 一 个 API， 应 用 程序 用 它 来 打开 
一 个 数据 库 连 接 、 发 送 查询 和 更 新 ， 以 及 获取 返回 结果 等 。 应 用 程序 (例如 图 形 界 面 、 统 计 程 序 包 或 [166 
者 电子 表格 ) 可 以 使 用 相同 的 ODBC API 来 访问 任何 一 个 支持 ODBC 标准 的 数据 库 。 

每 一 个 支持 ODBC 的 数据 库 系统 都 提供 一 个 和 客户 端 程序 相连 接 的 库 ， 当 客户 端 发 出 一 个 ODBC 
API 请 求 ， 库 中 的 代码 就 可 以 和 服务 器 通信 来 执行 被 请 求 的 动作 并 取 回 结果 。 

5-4 给 出 了 一 个 使 用 ODBC API 的 C 语言 代码 示例 。 利 用 ODBC 和 服务 器 通信 的 第 一 步 是 ， 建 立 
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一 个 和 服务 器 的 连接 。 为 了 实现 这 一 步 ， 程 序 先 分 配 一 个 SQL 的 环境 变量 ,然后 是 一 个 数据 库 连 接 句 
柄 。ODBC 定义 了 HENV、HDBC 和 RETCODE 几 种 类 型 。 程 序 随后 利用 SQLConnect 打开 和 数据 库 的 连 
接 ， 这 个 调用 有 几 个 参数 ， 包 括 数据 库 的 连接 句柄 、 要 连接 的 服务 器 、 用 户 的 身份 和 密码 等 。 常 数 
SQL_NTS 表示 前 面 参数 是 一 个 以 null 结尾 的 字符 串 。 





void ODBCexample( ) 

| 
RETCODE error; 
HENV env; / * 环境 参数 变量 * / 
HDBC conn; / * 数据 库 连 接 * / 


SQLAllocEnv(&env ) ; 
SQLAllocConnect( env, &conn) ; 
SQLConnect( conn, "db. yale. edu" , SQL_NTS, "avi" , SQL_NTS, 
" avipasswd" , SQL_NTS) ; 
| 
char deptname[ 80 | ; 
float salary ; 
int lenOut1 , lenOut2 ; 
HSTMT stmt; 


char * sqlquery =" select dept_name, sum ( salary ) 
from instructor 
group by dept_name" ; 
SQLAllocStmt( conn, &stmt) ; 
error = SQLExecDirect( stmt, sqiquery, SQL_NTS) ; 
if (error = = SQL_SUCCESS) | 
SQLBindCol( stmt, 1, SQL_C_CHAR, deptname , 80, &lenOuti ) ; 
SQLBindCol( stmt, 2, SQL_C_FLOAT, &salary, 0 , &lenOut2) ; 
while (SQLFetch( stmt) = = SQL_SUCCESS) | 
printf (" %s %g\n", deptname, salary) ; 


| 

SQLFreeStmt( stmt, SQL_DROP) ; 
| 
SQLDisconnect( conn) ; 


SQLFreeConnect( conn) ; 
SQLFreeEnv( env) ; 











图 5-4 ODBC 代码 示例 


一 日 一 个 连接 建立 了 ，C 语言 就 可 以 通过 SQLExecDirect 语句 把 命令 发 送 到 数据 库 。 因 为 C 语言 的 
变量 可 以 和 查询 结果 的 属性 绑 定 ， 所 以 当 一 个 元 组 被 SQLFetch 语句 取 回 的 时 候 ， 结 果 中 相应 的 属性 的 
值 就 可 以 放 到 对 应 的 C 变量 里 了 。SQLBindCol 做 这 项 工作 ; 在 SQLBindCol 函数 里 面 第 二 个 参数 代表 选 
择 属性 中 哪 一 个 位 置 的 值 ， 第 三 个 参数 代表 SQL 应 该 把 属性 转化 成 什么 类 型 的 C 变量 。 再 下 一 个 参数 
给 出 了 存放 变量 的 地 址 。 对 于 诸如 字符 数组 这 样 的 变 长 类 型 ， 最 后 两 个 参数 还 要 给 出 变量 的 最 大 长 度 
和 一 个 位 置 来 存放 元 组 取 回 时 的 实际 长 度 。 如 果 长 度 域 返回 一 个 负 值 ， 那 么 代表 着 这 个 值 为 空 (null) 。 
对 于 定 长 类 型 的 变量 如 整 型 或 浮 点 型 ， 最 大 长 度 的 域 被 忽略 ， 然 而 当 长 度 域 返回 一 个 负 值 时 表示 该 值 
为 空 值 。 

SQLFetch 在 while 循环 中 一 直 执 行 ， 直 到 SQLFetch 返回 一 个 非 SQL_SUCCESS Hfi, 在 每 一 次 
fetch 过 程 中 ， 程 序 把 值 存放 在 调用 SQLBindCol 所 说 明 的 C 变量 中 并 把 它们 打印 出 来 。 

在 会 话 结 束 的 时 候 ， 程序 释 放 语 句 的 句柄 ， 断 开 与 数据 库 的 连接 ， 同 时 释放 连接 和 SQL 环境 名 
柄 。 好 的 编程 风格 要 求 检 查 每 一 个 函数 的 结果 ， 确 保 它们 没有 错误 ， 为 了 简洁 ， 我 们 在 这 里 忽略 了 大 
部 分 检查 。 

可 以 创建 带 有 参数 的 SQL 语句 ， 例 如 ，insert into department values(?,?,?)。 问 号 是 为 将 来 提供 值 
的 占 位 符 。 上 面 的 语句 可 以 先 被 “准备 ”， 也 就 是 在 数据 库 中 先 编 译 ， 然 后 可 以 通过 为 占 位 符 提供 具体 
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值 来 反复 执行 一 一 在 该 例 中 ， 为 department 关系 提供 系 名 、 楼 宇 名 和 预算 数 。 

ODBC 为 各 种 不 同 的 任务 定义 了 函数 ,例如 查找 数据 库 中 所 有 的 关系 ， 以 及 查找 数据 库 中 某 个 关 
系 的 列 的 名 称 和 类 型 ， 或 者 一 个 查询 结果 的 列 的 名 称 和 类 型 。 

在 默认 情况 下 ， 每 一 个 SQL 语句 都 被 认为 是 一 个 自动 提交 的 独立 事务 。 调 用 SQLSetConnectOption 
(conn，SQL_AUTOCOMMIT,，0) 可 以 关闭 连接 conn 的 自动 提交 ,事务 必须 通过 显 式 地 调用 SQLTransact 
(conn，SQL_COMMIT) 来 提交 或 通过 显 式 地 调用 SQLTransact( comm，SQL_ROLLBACK) 来 回 滚 。 

ODBC 标准 定义 了 符合 性 级 别 (conformance level)， 用 于 指定 标准 定义 的 功能 的 子 集 。 一 个 ODBC 实 
现 可 以 仅 提 供 核心 级 特性 ， 也 可 以 提供 更 多 的 高 级 特性 (level 1 或 level 2), level 1 需要 支持 取得 目录 
的 有 关 信 息 ， 例 如 什么 关系 存在 ， 它 们 的 属性 是 什么 类 型 的 等 。level 2 需要 更 多 的 特性 ， 例 如 发 送 和 
提取 参数 值 数组 以 及 检索 有 关 目 录 的 更 详细 信息 的 能 力 。 

SQL 标准 定义 了 调用 级 接口 ( Call Level Interface, CLI), €+ ODBC 接口 类 似 。 


ADO. NET 
ADO. NET API 是 为 Visual Basic. NET 和 C# 语 言 设计 的 ， 它 提供 了 一 系列 访问 数据 的 函数 ， 与 
JDBC 在 上 层 架 构 没 有 什么 不 同 ， 只 是 在 细节 上 有 差别 。 像 JDBC 和 ODBC 一 样 ，ADO. NET API 可 以 
访问 SQL 查询 的 结果 ， 以 及 元 数据 ， 但 使 用 起 来 比 ODBC 简单 得 多 。 可 以 使 用 ADO. NET API 来 访问 
支持 ODBC 的 数据 库 ， 此 时 ，ADO. NET 调用 被 转换 成 ODBC 调用 。ADO. NET API 也 可 以 用 在 某 些 
非 关 系数 据 源 上 ， 例 如 微软 的 OLE-DB、XML( 在 第 23 章 介绍 ) ， 以 及 微软 最 近 开 发 的 实体 框架 。 有 
关 ADO. NET 的 更 多 信息 请 参考 文献 注解 。 


5.1.3 嵌入 式 SQL 

SQL MEETA SQL 到 许多 不 同 的 语言 中 ， 例 如 C, C++, Cobol, Pascal, Java, PL/I 和 
Fortran, SQL 查询 所 俯 入 的 语言 被 称 为 宿主 语言 ， 宿 主语 言 中 使 用 的 SQL 结构 被 称 为 嵌入 式 SQL。 

使 用 宿主 语言 写 出 的 程序 可 以 通过 坐 入 式 SQL 的 语法 访问 和 修改 数据 库 中 的 数据 。 一 个 使 用 内 人 
式 SQL 的 程序 在 编译 前 必须 先 由 一 个 特殊 的 预 处 理 器 进行 处 理 。 艇 入 的 SQL 请 求 被 宿主 语言 的 声明 以 
及 允许 运行 时 刻 执行 数据 库 访 问 的 过 程 调用 所 代替 。 然 后 ， 所 产生 的 程序 由 宿主 语言 编译 器 编译 。 这 
FEHR Ast SQL 与 JDBC 或 ODBC 的 主要 区 别 。 

Æ JDBC 中 ，SQL 语句 是 在 运行 时 被 解释 的 (即使 是 利用 预备 语句 特性 对 其 进行 准备 也 是 如 此 ) 。 
当 使 用 嵌入 式 SQL 时 ， 一 些 SQL 相关 的 错误 (包括 数据 类 型 错误 ) 可 以 在 编译 过 程 中 被 发 现 。 

为 使 预 处 理 器 识别 戏 和 人 式 SQL 请 求 ， 我 们 使 用 EXEC SQL 语句 ， 格 式 如 下 : 

EXEC SQL < AA SQL#4) >; 

RAR SQL 的 确切 语法 依赖 于 宿主 语言 。 例 如 ， 当 宿主 语言 是 Cobol 时 ， 语 句 中 的 分 号 用 END-EXEC 
来 代替 。 

我 们 在 应 用 程序 中 合适 的 地 方 插 和 人 SQL INCLUDE SQLCA 语句 ， 表 示 预 处 理 器 应 该 在 此 处 插入 特 
殊 变 量 以 用 于 程序 和 数据 库 系 统 间 的 通信 。 

在 执行 任何 SQL 语句 之 前 ， 程 序 必须 首先 连接 到 数据 库 。 这 是 用 下 面 语句 实现 的 : 

EXEC SQL connect to server user user-name using password ; 

这 里 server 标识 将 要 建立 连接 的 服务 器 。 

TERA BY SQL 语句 中 可 以 使 用 宿主 语言 的 变量 ， 不 过 前 面 要 加 上 冒号 ( :) 以 区 别 于 SQL 变量 。 如 
此 使 用 的 变量 必须 声明 在 一 个 DECLARE 区 段 里 ， 见 下 面 的 代码 。 不 过 声明 变量 的 语法 还 是 因 循 宿 主 
语言 的 惯例 。 

EXEC SQL BEGIN DECLARE SECTION; 


int credit_amount ; 


EXEC SQL END DECLARE SECTION; 
HA SK SQL 语句 的 格式 和 本 章 描述 的 SQL 语句 类 似 。 但 这 儿 要 指出 几 点 重要 的 不 同 之 处 。 
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为 了 表示 关系 查询 ， 我 们 使 用 声明 游标 ( declare cursor) 语句 。 然 而 这 时 并 不 计算 查询 的 结果 ， 而 
程序 必须 用 open 和 fetch 语句 (本 章 后 面 将 讨论 ) 得 到 结果 元 组 。 接 下 来 我 们 将 看 到 ， 使 用 游标 的 方法 
与 JDBC 中 对 结果 集 的 迭代 处 理 是 很 相似 的 。 

考虑 我 们 使 用 的 大 学 模式 。 假 设 我 们 有 一 个 宿主 变量 credit_amount， 声 明 方 法 如 前 所 见 ， 我 们 想 
找 出 学 分 高 于 credit_amount 的 所 有 学 生 的 名 字 。 我 们 可 写 出 查询 语句 如 下 : 


EXEC SQL 
declare c cursor for 
select ID, name 
from student 
where tot_cred > ;credit_amount ; 


上 述 表 达 式 中 的 变量 c 被 称 为 该 查询 的 游标 (cursor) 。 我 们 使 用 这 个 变量 来 标识 该 查询 ， 然 后 用 open 
语句 来 执行 查询 。 
我 们 的 例子 中 的 open 语句 如 下 : 
EXEC SQL open c; 


这 条 语句 使 得 数据 库 系 统 执 行 这 条 查询 并 把 执行 结果 存 于 一 个 临时 关系 中 。 当 open 语句 被 执行 的 时 
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fi, 1 EAE EE ( credit_amount ) 的 值 就 会 被 应 用 到 查询 中 。 








如 果 SQL 查询 出 错 ， 数 据 库 系 统 将 在 SQL 通信 区 域 (SQLCA) 的 变量 中 存储 一 个 错误 诊断 信息 。 

然后 我 们 利用 一 系列 的 fetch 语句 把 结果 元 组 的 值 赋 给 宿主 语言 的 变量 。feteh 语句 要 求 结果 关系 
的 每 一 个 属性 有 一 个 宿主 变量 相对 应 。 在 我 们 的 查询 例子 中 ， 需 要 一 个 变量 存储 ID 的 值 ， 另 一 个 变量 
存储 name 的 值 。 假 设 这 两 个 变量 分 别 是 % 和 sn, 并且 都 已 经 在 DECLARE 区 段 中 被 声明 。 那 么 以 下 
语句 : 

EXEC SQL fetch c into:si, :sn; 

产生 结果 关系 中 的 一 个 元 组 。 接 下 来 应 用 程序 就 可 以 利用 宿主 语言 的 特性 对 si 和 sn 进行 操作 了 。 

一 条 单一 的 fetch 请 求 只 能 得 到 一 个 元 组 。 如 果 我 们 想得到 所 有 的 结果 元 组 ， 程 序 中 必须 包含 对 所 
有 元 组 执行 的 一 个 循环 。 骨 入 式 SQL 为 程序 员 提 供 了 对 这 种 循环 进行 管理 的 支持 。 虽 然 关 系 在 概念 上 
是 一 个 集合 ， 查 询 结果 中 的 元 组 还 是 有 一 定 的 物理 顺序 的 。 执 行 SQL 的 open 语句 后 ， 游 标 指向 结果 的 
第 一 个 元 组 。 执 行 一 条 fetch 语句 后 ， 游 标 指向 结果 中 的 下 一 个 元 组 。 当 后 面 不 再 有 待 处 理 的 元 组 时 ， 
SQLCA 中 变量 SQLSTATE 被 置 为 "02000'( 意 指 “ 不 再 有 数据 " ) ; 访问 该 变量 的 确切 的 语法 依赖 于 所 使 
用 的 特定 数据 库 系 统 。 于 是 ， 我 们 可 以 用 一 条 while 循环 (或 其 他 类 似 循环 语句 ) 来 处 理 结果 中 的 每 一 
个 元 组 5 

我 们 必须 使 用 close 语句 来 告诉 数据 库 系 统 删 除 用 于 保存 查询 结果 的 临时 关系 。 对 于 我 们 的 例子 ， 
该 语句 格式 如 下 : 

EXEC SQL close c; 

用 于 数据 库 修 改 (update , insert 和 delete) Ai Ast SQL 表达 式 不 返回 结果 。 因 此 ， 这 种 语句 表达 

起 来 在 某 种 程度 上 相对 简单 。 数 据 库 修改 请 求 格式 如 下 : 
EXEC SQL < 4£47 4 2% update, insert 和 delete 语句 > ; 

前 面 带 冒号 的 宿主 语言 的 变量 可 以 出 现在 数据 库 修改 语句 的 表达 式 中 。 如 果 在 语句 执行 过 程 中 出 错 ， 
SQLCA 中 将 设置 错误 诊断 信息 。 

也 可 以 通过 游标 来 更 新 数据 库 关系 。 例 如 ， 要 为 音乐 系 的 每 个 老师 的 salary 属性 都 增加 100， 我 们 








一 
N 
— 


可 以 声明 这 样 一 个 游标 : 








EXEC SQL 
declare c¢ cursor for 
select * 
from instructor 
where dept_name = ‘Music’ 
for update ; 
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然后 我 们 利用 在 游标 上 的 fetch 操作 对 元 组 进行 迭代 (就 像 我 们 先前 看 到 的 例子 一 样 )， 每 取 到 一 个 元 
组 我 们 都 执行 以 下 的 代码 : 
EXEC SQL 
update instructor 


set salary = salary + 100 
where current of c; 


可 以 用 EXEC SQL COMMIT 语句 来 提交 事务 ， 或 者 用 EXEC SQL ROLLBACK 进行 回 滚 

AIÈ SQL 的 查询 一 般 是 在 编写 程序 时 被 定义 的 。 但 是 在 某 些 比较 罕见 的 情况 下 查询 需要 在 运行 
时 被 定义 。 例 如 ， 一 个 应 用 程序 接口 可 能 会 让 用 户 来 指定 某 个 关系 的 一 个 或 多 个 属性 上 的 选择 条 件 ， 
然后 在 运行 时 只 利用 用 户 做 了 选择 的 属性 的 条 件 来 构造 SQL 查询 的 where 子 句 。 此 种 情况 下 ， 可 以 使 
用 “EXEC SQL PREPARE < query-name > FROM: < variable > ”这样 格式 的 语句 ， 在 运行 时 构造 和 准备 查 
询 字符 串 ; 并 且 可 以 在 查询 名 字 上 打开 一 个 游标 。 


SQLJ 
与 其 他 的 嵌入 式 SQL 的 实现 方法 相 比 ，SQLJ(SQL KA Java 中 ) 提 供 了 相同 的 特性 ， 但 是 它 使 用 
了 一 种 不 同 的 语法 ， 更 接近 Java 的 固有 特性 ， 比 如 迭代 器 。 例如，SQLJ 使 用 句法 #sql 代替 EXEC 
SQL， 并 且 不 使 用 游标 ， 而 是 用 Java 迭代 器 接口 来 获取 查询 结果 。 因 此 执行 查询 的 结果 被 储存 在 
Java 迭代 器 里 ， 然 后 利用 Java 和 迭代 器 接口 中 的 next( ) 方 法 来 逐步 遍历 结果 元 组 ， 就 像 前 面 例子 中 对 
游标 使 用 fetch 一 样 。 必 须 对 迭代 器 的 属性 进行 声明 ， 其 类 型 应 该 与 SQL 查询 结果 中 的 各 属性 的 类 
型 保持 一 致 。 下 面 的 代码 段 演 示 了 和 迭代 器 的 使 用 方法 。 
#sql iterator deptinfolter ( String dept_name, int avgSal) ; 
deptinfolter iter = null; 


#sql iter = | select dept_name, avg( salary) 
from instructor 
group by dept_name | ; 
while (iter. next()) | 
String deptName = iter. dept_name( ) ; 
int avgSal = iter. avgSal( ) ; 
System. out. printin(deptName + " ”+ avgSal) ; 
} 
iter. close( ) ; 
IBM 的 DB2 和 Oracle 都 支持 SQLJ， 并 且 提 供 从 SQLJ 代码 到 JDBC 代码 的 转换 器 。 该 转换 器 可 以 
在 编译 时 连接 数据 库 来 检查 查询 的 语法 是 否 正确 ， 并 用 来 确保 查询 结果 的 SQL 类 型 与 所 赋值 的 Java 
变量 类 型 相 一 致 。 从 2009 年 年 初 开始 ， 其 他 的 数据 库 系统 就 不 支持 SQLJ 了 。 
我 们 在 这 里 不 详细 介绍 SQLJ， 更 多 信息 请 参看 参考 文献 。 


5.2 函数 和 过 程 


我 们 已 经 介绍 了 SQL 语言 的 几 个 内 建 函 数 。 在 本 节 中 ， 我 们 将 演示 开发 者 如 何 来 编写 他 们 自己 的 
函数 和 过 程 ， 把 它们 存储 在 数据 库 里 并 在 SQL 语句 中 调用 。 函 数 对 于 特定 的 数据 类 型 比如 图 像 和 几何 
对 象 来 说 特别 有 用 。 例 如 ， 用 在 地 图 数据 库 中 的 一 个 线段 数据 类 型 可 能 有 一 个 相关 函数 用 于 判断 两 个 
线段 是 否 交 生 ， 一 个 图 像 数 据 类 型 可 能 有 一 个 相关 函数 用 于 比较 两 幅 图 的 相似 性 。 

函数 和 过 程 允许 “业务 逻辑 "作为 存储 过 程 记录 在 数据 库 中 ， 并 在 数据 库 内 执行 。 例 如 ， 大 学 里 通 
常 有 许多 规章 制度 ， 规 定 在 一 个 学 期 里 每 个 学 生 能 选 多 少 课 ， 在 一 年 里 一 个 全 职 的 教师 至 少 要 上 多 少 
节 课 ， 一 个 学 生 最 多 可 以 在 多 少 个 专业 中 注册 ， 等 等 。 尽 管 这 样 的 业务 逻辑 能 够 被 写成 程序 设计 语言 
过 程 并 完全 存储 在 数据 库 以 外 ， 但 把 它们 定义 成 数据 库 中 的 存储 过 程 有 几 个 优点 。 例 如 ， 它 允许 多 个 
应 用 访问 这 些 过 程 ， 允 许 当 业务 规则 发 生变 化 时 进行 单个 点 的 改变 ， 而 不 必 改 变 应 用 系统 的 其 他 部 分 。 
应 用 代码 可 以 调用 存储 过 程 ， 而 不 是 直接 更 新 数据 库 关 系 。 
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SQL 允许 定义 函数 、 过 程 和 方法 。 定 义 可 以 通过 SQL 的 有 关 过 程 的 组 件 ， 也 可 以 通过 外 部 的 程序 
设计 语言 ， 例 如 Java、C 或 C++ 。 我 们 首先 查看 SQL 中 的 定义 ， 然 后 在 5. 2. 3 节 了 解 如 何 使 用 外 部 语 
言 中 的 定义 。 

我 们 在 这 里 介绍 的 是 SQL 标准 所 定义 的 语法 ， 然 而 大 多 数 数据 库 都 实现 了 它们 自己 的 非 标准 版 本 
的 语法 。 例 如 Oracle( PL/SQL) , Microsoft SQL Sever( TransactSQL ) 和 PostgreSQL( PL/pgSQL) 所 支持 的 过 
程 语言 都 与 我 们 在 这 里 描述 的 标准 语法 有 所 差别 。 我 们 将 在 后 面 用 Oracle 来 举例 说 明 某 些 不 同 之 处 。 
更 进一步 的 详细 信息 可 参见 各 自 的 系统 手册 。 尽 管 我 们 介绍 的 部 分 语法 在 这 些 系 统 上 并 不 支持 ， 但 是 
所 阐述 的 概念 在 不 同 的 实现 上 都 是 适用 的 ， 只 是 语法 上 有 所 区 别 。 


5.2.1 声明 和 调用 SQL 函数 和 过 程 








假定 我 们 想 要 这 样 一 个 函数 : 给 定 一 个 系 的 名 字 ， 返回 create function dept count(dept name varchar(20)) 
该 系 的 教师 数目 。 我 们 可 以 如 图 5-5 所 示 定 义 函 数 。 -这 个 en anteger 
函数 可 以 用 在 返 回教 师 数 大 于 12 的 所 有 系 的 名 称 和 预算 declare d_count integer; 
的 查询 中 : select count(*) into d_count 
` from instructor 
select dept_name, budget where instructor.dept_name= dept.name 
from department return d_count; 
where dept_count( dept_name) >12; end 
SQL 标准 支持 返回 关系 作为 结果 的 函数 ;这 种 函数 图 5-5 SQL 中 定义 的 函数 


称 为 表 函 数 (table functions) .= 考虑 图 5-6 中 定义 的 函数 。 该 函数 返回 一 个 包含 某 特定 系 的 所 有 教师 的 
表 。 注 意 ,使 用 函数 的 参数 时 需要 加 上 函数 名 作为 前 缀 (instructor_of. dept_name) 。 
这 种 函数 可 以 如 下 在 一 个 查询 中 使 用 : 


select * 
from table ( instructor_of ( ‘ Finance’ ) ) ; 


这 个 查询 返回 金融 ' 系 的 所 有 教师 。 在 上 面 的 简单 情况 下 直接 写 这 个 查询 而 不 用 以 表 为 值 的 函数 也 是 
很 直观 的 。 但 通常 以 表 为 值 的 函数 可 以 被 看 作 带 参数 的 视图 ( parameterized view), 它 通过 人 允许 参数 把 视 
图 的 概念 更 加 一 般 化 。 





create function instructor_of (dept -name varchar(20)) 
returns table ( 
ID varchar (5), 
name varchar (20), 
dept_name varchar (20), 
salary numeric (8,2)) 
return table 
(select 1D, name, dept_name, salary 
from instructor 
where insfructor.deptname = instructor_of.dept_name); 


图 5-6 SQL HEX KHIR KA 
SQL 也 支持 过 程 。dept_count PRAHA LAG R — Pit FE 


create procedure dept_count_proc( in dept_name varchar(20) , out d_count integer ) 
begin 
select count( © ) into d_count 
from instructor 
where instructor. dept_name = dept_count_proc. dept_name 
end 


关键 字 in 和 out 分 别 表示 待 赋值 的 参数 和 为 返回 结果 而 在 过 程 中 设置 值 的 参数 。 











予 “ 如 果 要 输入 自己 的 函数 和 过 程 ， 应 该 写 " create or replace” 而 不 是 create， 这 样 便 于 在 调试 时 编辑 代码 ( 对 旧 的 函 
数 进行 替换 ) 。 
O ”这 个 特性 最 早出 现在 SQL: 2003 中 
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可 以 从 一 个 SQL 过 程 中 或 者 从 做 人 式 SQL 中 使 用 call 语句 调用 过 程 : 
declare d_count integer ; 
call dept_count_proc( * Physics’ , d_count) ; 


过 程 和 函数 可 以 通过 动态 SQL 触发 ， 如 5. 1.1.4 节 中 JDBC 语法 所 示 ， 

SQL 人 允许 多 个 过 程 同 名 ， 只 要 同名 过 程 的 参数 个 数 不 同 。 名 称 和 参数 个 数 用 于 标识 一 个 过 程 
SQL 也 允许 多 个 函数 同名 ， 只 要 这 些 同名 的 不 同 函 数 的 参数 个 数 不 同 ,或 者 对 于 那些 有 相同 参数 个 数 
的 函数 ， 至 少 有 一 个 参数 的 类 型 不 同 ， 174 
5.2.2 支持 过 程 和 函数 的 语言 构造 

SQL 所 支持 的 构造 赋予 了 它 与 通用 程序 设计 语言 相当 的 几乎 所 有 的 功能 。SQL 标准 中 处 理 这 些 构 
造 的 部 分 称 为 持久 存储 模块 (Persistent Storage Module, PSM) . 

变量 通过 declare 语句 进行 声明 ， 可 以 是 任意 的 合法 SQL 类 型 。 使 用 set 语句 进行 赋值 。 

一 个 复合 语句 有 begin …end 的 形式 ， 在 begin 和 end 之 间 会 包含 复杂 的 SQL 语句 。 如 我 们 在 
, 5.2.1 节 中 曾 看 到 的 那样 ， 可 以 在 复合 语句 中 声明 局 部 变量 。 一 个 形 如 begin atomic…end 的 复合 语句 
可 以 确保 其 中 包含 的 所 有 语句 作为 单一 的 事务 来 执行 。 

SQL:1999 支持 while 语句 和 repeat 语句 ， 语 法 如 下 : 


while 布尔 表达 式 do 
语句 序列 ; 


- end while 





repeat 
语句 序列 ; 
until 布尔 表达 式 
end repeat 
还 有 for 循环 ， 它 允许 对 查询 的 所 有 结果 重复 执行 : 
declare n integer default 0; 
for r as 
select budget from department 
where dept_name = ‘Music’ 
do 
setn = n-r. budget 
end for 


程序 每 次 获取 查询 结果 的 一 行 ， 并 存 人 for 循环 变量 (在 上 面 例子 中 指 7) 中 。 语句 leave 可 用 来 退出 循 
环 ， 而 iterate 表示 跳 过 剩余 语句 从 循环 的 开始 进入 下 一 个 元 组 。 
SQL 支持 的 条 件 语 句 包 括 if-then-else 语句 ， 语 法 如 下 : 
if 布尔 表达 式 
then 语句 或 复合 语句 
elseif 布尔 表达 式 
then 语句 或 复合 语句 
else 语句 或 复合 语句 
end if 
SQL 也 支持 case 语句 ， 类 似 于 C/C ++ 语 言 中 的 case 语句 (加 上 我 们 在 第 3 章 看 到 的 case 表达 式 ) 。 
5-7 提供 了 一 个 有 关 SQL 的 过 程 化 结构 的 更 大 型 一 点 的 例子 。 图 中 定义 的 函数 registerStudent 首先 
确认 选课 的 学 生 数 没有 超过 该 课 所 在 教室 的 容量 ， 然 后 完成 学 生 对 该 课 的 注册 。 函 数 返 回 一 个 错误 代码 ， 
这 个 值 大 于 等 于 0 表示 成 功 ， 返 回 负 值 表示 出 错 ， 同 时 以 out 参数 的 形式 返回 消息 来 说 明 失 败 的 原因 。 
SQL 程序 语言 还 支持 发 信号 通知 异常 条 件 (exception condition) ， 以 及 声明 句柄 (handler) 来 处 理 异 
常 ， 代码 如 下 : 


declare out_of_classroom_seats condition 
declare exit handler for out_of_classroom_seats 
begin 

sequence of statements 

end 
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一 一 在 确保 教室 能 容纳 下 的 前 提 下 注册 一 个 学 生 
一 一 如 果 成 功 注 册 ， 返 回 0， 如 果 超 过 教室 容量 则 返回 -1 
create function registerStudent ( 
in s_id varchar(5) , 
in s_courseid varchar (8) , 
in s_secid varchar (8) , 
in s_semester varchar (6) , 
in s_year numeric (4, 0), 
out errorMsg varchar( 100) 
returns integer 
begin 
declare currEnro/ int; 
select count( © ) into currEnrol 
from takes 
where course_id = s_courseid and sec_id = s_secid 
and semester = s_semester and year = s_year; 
declare limit int; 
select capacity into limit 
from classroom natural join section 
where course_id = s_courseid and sec_id = s_secid 
and semester = s_semester and year = s_year; 
if (currEnrol < limit) 
begin 
insert into takes values 
(s_id, s_courseid, s_secid, s_semester, s_year, null) ; 
return(() ; 
end | 
和 否则， 已 经 达到 课程 容量 上 限 | 


set errorMsg = ` Enrollment limit reached for course > | | s_courseid 





| | ° section’ | | s_secid; 
return( —1); 
end 











图 5-7 学 生 注 册 课 程 的 过 程 


在 begin Fil end 之 间 的 语句 可 以 执行 signal out_of_classroom_seats 来 引发 一 个 异常 。 这 个 句柄 说 明 ， 如 
果 条 件 发 生 ， 将 会 采取 动作 终止 begin end 中 的 语句 。 另 一 个 可 选 的 动作 将 是 continue， 它 继续 从 引发 
异常 的 语句 的 下 一 条 语句 开始 执行 。 除 了 明确 定义 的 条 件 ， 还 有 一 些 预定 义 的 条 件 ， 比 如 


sqlexception, sqlwarning 和 not found, 


过 程 和 函数 的 非 标 准 语法 
尽管 SQL 标准 为 过 程 和 函数 定义 了 语法 ， 但 是 很 多 数据 库 并 不 严格 遵照 标准 ， 在 语法 支持 方面 
存在 很 多 变化 。 这 种 情况 的 原因 之 一 是 这 些 数据 库 通常 在 语法 标准 制定 之 前 就 已 经 引入 了 对 过 程 和 
函数 的 支持 机 制 ， 然 后 一 直 沿 用 最 初 的 语法 。 在 这 里 把 每 个 数据 库 所 支持 的 语法 罗列 出 来 并 不 现实 ， 
不 过 我 们 可 以 介绍 一 下 Oracle 的 PL/SQL 与 标准 语法 不 同 的 一 些 方 面 ， 下 面 是 图 5-5 中 的 函数 在 PL/ 


SQL 里 定义 的 一 个 版 本 。 
create or replace function dept_count( dept_name in instructor. dept_name% type ) 
return integer . 
as 
d_count integer ; 
begin 
select count( * ) into d_count 
from instructor 
where instructor. dept_name = dept_name; 
return d_count; 


第 5 章 高 级 SQL 


这 两 个 版 本 在 概念 上 相似 ， 但 还 是 存在 很 多 次 要 的 语法 上 的 区 别 ， 可 以 利用 其 中 一 些 不 同 来 作为 区 
分 两 个 函数 版 本 的 手段 。 尽 管 没有 在 这 里 展示 ， 但 是 PL/SQL 中 关于 控制 流 的 语法 与 在 这 里 所 列 出 
的 也 有 所 不 同 。 

可 以 看 到 ， 通 过 加 %iype WR, PL/SQL 允许 把 某 个 类 型 设置 为 关系 的 一 个 属性 的 类 型 。 另 一 
方面 ，PL/SQL 并 不 直接 支持 返回 一 个 表 的 功能 ， 只 能 通过 创建 表 类 型 这 样 的 间接 方法 来 实现 。 其 
他 数据 库 所 支持 的 过 程 语言 同样 含有 很 多 语法 和 语义 上 的 差别 。 更 多 信息 请 查看 相关 语言 的 参考 
资料 。 


5.2.3 外 部 语言 过 程 

尽管 对 SQL 的 过 程 化 扩展 非常 有 用 ， 然 而 可 惜 的 是 这 些 并 不 被 跨 数据 库 的 标准 的 方法 所 支持 。 即 
使 是 最 基本 的 特性 在 不 同 数据 库 产 品 中 都 可 能 有 不 同 的 语法 和 语义 。 所 以 ， 程 序 员 必 须 针 对 每 个 数据 
库 产 品 学 习 一 门 新 语言 。 还 有 另 一 种 方案 可 以 解决 语言 支持 的 问题 ， 即 在 一 种 命令 式 程序 设计 语言 
定义 过 程 ， 然 后 从 SQL 查询 和 触发 器 的 定义 中 来 调用 它 。 

SQL 允许 我 们 用 一 种 程序 设计 语言 定义 函数 ， 比 如 Java、C#、C 或 C++ 。 这 种 方式 定义 的 函数 会 
比 SQL 中 定义 的 函数 效率 更 高 ， 无 法 在 SQL 中 执行 的 计算 可 以 由 这 些 函 数 执行 。 

外 部 过 程 和 函数 可 以 这 样 指定 (注意 ， 确 切 的 语法 决定 于 所 使 用 的 特定 数据 库 系统 ) : 


create procedure dept_count_proc( in dept_name varchar( 20) , 
out count integer ) 

language C 

external name ’ /usr/avi/bin/dept_count_proc’ 


create function dept count (dept_name varchar (20) ) 

returns integer 

language C 

external name ’ /usr/avi/bin/dept_count’ 
通常 来 说 ， 外 部 语言 过 程 需要 处 理 参数 (包含 mn 和 out 参数 ) 和 返回 值 中 的 空 值 ， 还 需要 传递 操作 失 
败 / 成 功 的 状态 ， 以 方便 对 异常 进行 处 理 。 这 些 信息 可 以 通过 几 个 额外 的 参数 来 表示 : 一 个 指明 失败 / 
成 功 状态 的 sqlstate 值 、 一 个 存储 函数 返回 值 的 参数 ， 以 及 一 些 指明 每 个 参数 /函数 结果 的 值 是 否 为 空 
的 指示 器 变量 。 还 可 以 通过 其 他 机 制 来 解决 空 值 的 问题 ， 例 如 ， 可 以 传递 指针 而 不 是 值 。 具 体 采用 哪 
种 方法 取决 于 数据 库 。 不 过 ， 如 果 一 个 函数 不 关注 这 些 情况 ， 可 以 在 声明 语句 的 上 方 添加 额外 的 一 行 
parameter style general 指明 外 部 过 程 /函数 只 使 用 说 明 的 变量 并 且 不 处 理 空 值 和 异常 。 

用 程序 设计 语言 定义 并 在 数据 库 系统 之 外 编译 的 函数 可 以 由 数据 库 系统 代码 来 加 载 和 执行 。 不 过 
这 么 做 存在 危险 ， 那 就 是 程序 中 的 错误 可 能 破坏 数据 库 内 部 的 结构 ， 并 且 绕 过 数据 库 系统 的 访问 - 控 
制 功 能 。 如 果 数 据 库 系 统 关心 执行 的 效率 胜 过 安全 性 则 可 以 采用 这 种 方式 执行 过 程 。 关 心安 全 性 的 数 
据 库 系统 一 般 会 将 这 些 代码 作为 一 个 单独 进程 的 一 部 分 来 执行 ， 通 过 进程 间 通 信 ， 传 人 参数 的 值 ， 取 
回 结 果 。 然 而 ， 进 程 间 通信 的 时 间 代 价 相 当 高 ; 在 典型 的 CPU 体系 结构 中 ， 一 个 进程 通信 所 需 的 时 间 
可 以 执行 数 万 到 数 十 万 条 指令 。 

如 果 代 码 用 Java 或 C# 这 种 “安全 ” 的 语言 书写 ， 则 会 有 第 三 种 可 能 : 在 数据 库 进 程 本 身 的 沙 盒 
(sandbox) 内 执行 代码 。 沙 盒 允 许 Java 或 C# 代 码 访问 它 的 内 存 区 域 ,但 阻止 代码 直接 在 查询 执行 过 程 
的 内 存 中 做 任何 读 操作 或 者 更 新 操作 ， 或 者 访问 文件 系统 中 的 文件 。( 在 如 C 这 种 语言 中 创建 一 个 沙 
盒 是 不 可 能 的 ， 因 为 C 语言 允许 通过 指针 不 加 限制 地 访问 内 存 。) 避免 进程 间 通 信 能 够 大 大 降低 孔 数 调 
用 的 时 间 代 价 。 

当今 的 一 些 数据 库 系 统 支 持 外 部 语言 例 程 在 查询 执行 过 程 中 的 沙 盒 里 运行 。 例 如 ，Oracle 和 IBM 
DB2 允许 Java 函数 作为 数据 库 过 程 中 的 一 部 分 运行 。Microsoft SQL Server 允许 过 程 编 译 成 通用 语言 运 
行程 序 (CLR) 来 在 数据 库 过 程 中 执行 ; 这 样 的 过 程 可 以 用 C# 或 Visual Basic 编写 。PostgreSQL 允许 在 
Perl, Python 和 Tel 等 多 种 语言 中 定义 函数 。 
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5.3 触发 器 


触发 器 (trigger) 是 一 条 语句 ， 当 对 数据 库 作 修改 时 ， 它 自动 被 系统 执行 。 要 设置 触发 器 机 制 ， 必 
须 满足 两 个 要 求 

© 指明 什么 条 件 下 执行 触发 器 。 它 被 分 解 为 一 个 引起 触发 器 被 检测 的 事件 和 一 个 触发 器 执行 必须 

满足 的 条 件 。 

。 指明 触发 器 执行 时 的 动作 。 
一 旦 我 们 把 一 个 触发 器 输入 数据 库 ， 只 要 指定 的 事件 发 生 ， 相 应 的 条 件 满足 ， 数 据 库 系统 就 有 责任 去 
执行 它 。 
5.3.1 对 触发 器 的 需求 

[180 | 触发 器 可 以 用 来 实现 未 被 SQL 约束 机 制 指定 的 某 些 完整 性 约束 。 它 还 是 一 种 非常 有 用 的 机 制 ， 用 

来 当 满足 特定 条 件 时 对 用 户 发 警报 或 自动 开始 执行 某 项 任务 。 例 如 ， 我 们 可 以 设计 一 个 触发 器 ， 只 要 
有 元 组 被 插入 takes 关系 中 ， 就 更 新 student 关系 中 选课 的 学 生 所 对 应 的 元 组 ， 把 该 课 的 学 分 加 入 这 个 学 
生 的 总 学 分 中 。 作 为 另 一 个 应 用 触发 器 的 例子 ， 假 设 一 个 仓库 希望 每 种 物品 的 库存 保持 一 个 最 小 量 ; 当 
某 种 物品 的 库存 少 于 最 小 值 的 时 候 ， 自 动 发 出 一 个 订货 单 。 在 更 新 某 种 物品 的 库存 的 时 候 ， 触 发 器 会 比 
较 这 种 物品 的 当前 库存 和 它 的 最 小 库存 ， 如 果 库 存 数量 等 于 或 小 于 最 小 值 ， 就 会 生成 一 个 新 的 订单 。 

注意 ， 触 发 器 系统 通常 不 能 执行 数据 库 以 外 的 更 新 ， 因 此 ， 在 上 面 的 库存 补充 的 例子 中 ， 我 们 不 
能 用 一 个 触发 器 去 直接 在 外 部 世界 下 订单 ， 而 是 在 存放 订单 的 关系 中 添加 一 个 关系 记录 。 我 们 必须 另 
外 创建 一 个 持久 运行 的 系统 进程 来 周期 性 扫描 该 关系 并 订购 产品 。 某 些 数据 库 系统 提供 了 内 置 的 支持 ， 
可 以 使 用 上 述 方法 从 SQL 查询 和 触发 器 中 发 送 电 子 邮件 。 
5.3.2 SQL 中 的 触发 器 

现在 我 们 来 看 如 何在 SQL 中 实现 触发 器 。 我 们 在 这 里 介绍 的 是 SQL 标准 定义 的 语法 ,但 是 大 部 分 
数据 库 实现 的 是 非 标 准 版 本 的 语法 。 尽 管 这 里 所 述 的 语法 可 能 不 被 这 些 系统 支持 ,但 是 我 们 阐述 的 概 
念 对 于 不 同 的 实现 方法 都 是 适用 的 。 我 们 将 在 本 章 末 尾 讨 论 非 标准 的 触发 器 实现 。 

图 5-8 展示 了 如 何 使 用 触发 器 来 确保 关系 section 中 属性 time_slot_id 的 参照 完整 性 。 图 中 第 一 个 触 
发 器 的 定义 指明 该 触发 器 在 任何 一 次 对 关系 section 的 插入 操作 执行 之 后 被 启动 ， 以 确保 所 插入 元 组 的 
time_slot_id 字段 是 合法 的 。 一 个 SQL 插入 语句 可 以 向 关系 中 插入 多 个 元 组 ， 在 触发 器 代码 中 的 for 
each row 语句 可 以 显 式 地 在 每 一 个 被 插入 的 行 上 进行 迭代 。referencing new row as 语句 建立 了 一 个 变 
E nrow( 称 为 过 渡 变 量 (transition variable) ) ， 用 来 在 插入 完成 后 存储 所 插入 行 的 值 。 





create trigger timeslot_check| after insert on section 
referencing new row as nrow 
for each row 
when (nrow. time_slot_id not in ( 
select time_slot_id 
from time_slot) ) / * time_slot 中 不 存在 该 time_slot_id * / 
begin 
rollback 
end; 
create trigger timeslot_check2 after delete on time slot 
referencing old row as orow 
for each row 
when (orow. time_slot_id not in ( 
select time_slot_id 
from time_slot) / * {E time_slot 中 刚刚 被 删除 的 time_slot_id * / 
and orow. time_slot_id in ( 
select time_slot_id 
from section) ) / * 在 section 中 仍 含有 该 time_slot_id 的 引用 * / 


rollback 
end; 











图 5-8 使 用 触发 器 来 维护 参照 完整 性 
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when 语句 指定 一 个 条 件 。 仅 对 于 满足 条 件 的 元 组 系统 才 会 执行 触发 器 中 的 其 余部 分 。begin 
atomic ---end 语句 用 来 将 多 行 SQL 语句 集成 为 一 个 复合 语句 。 不 过 在 我 们 的 例子 中 只 有 一 条 语句 ， 它 
对 引起 触发 器 被 执行 的 事务 进行 回 滚 。 这 样 ， 所 有 违背 参照 完整 性 约束 的 事务 都 将 被 回 滚 ， 从 而 确保 
数据 库 中 的 数据 满足 约束 条 件 。 

只 检查 插 和 人 时 的 参照 完整 性 还 不 够 ， 我 们 还 需要 考虑 对 关系 section 的 更 新 ， 以 及 对 被 引用 的 表 
time_slot 的 删除 和 更 新 操作 。 图 5-8 定义 的 第 二 个 触发 器 关注 的 是 time_slot 表 的 删除 。 该 触发 器 检查 被 
删除 元 组 的 time_slot_id 要 么 还 在 time_slot 中 ， 要 么 section 里 不 存在 包含 这 个 time_slot_id 值 的 元 组 ; 5 
则 将 违背 参照 完整 性 。 

为 了 保证 参照 完整 性 ， 我 们 也 必须 为 处 理 section 和 time_slot 的 更 新 来 创建 触发 器 ; 我 们 接 下 来 将 
介绍 如 何在 更 新 时 执行 触发 器 ， 不 过 ， 该 如 何 定义 这 些 触发 器 就 留 给 读者 作为 练习 。 

对 于 更 新 来 说 ， 触 发 器 可 以 指定 哪个 属性 的 更 新 使 其 执行 ; 而 其 他 属性 的 更 新 不 会 让 它 产生 动作 
例如 ， 为 了 指定 当 更 新 关系 takes 的 属性 grade 时 执行 触发 器 ， 我 们 可 以 这 样 写 : 

after update of takes on grade 


referencing old row as 子 句 可 以 建立 一 个 变量 用 来 存储 已 经 更 新 或 删除 行 的 旧 值 。referencing new 
row as 子 句 除了 插入 还 可 以 用 于 更 新 操作 。 

如 图 5-9 所 示 ， 当 关系 takes 中 元 组 的 属性 grade 被 更 新 时 ， 需 要 用 触发 器 来 维护 student 里 元 组 的 
tot_cred 属性 ， 使 其 保持 实时 更 新 。 只 有 当 属 性 grade 从 空 值 或 者 ‘F’' 被 更 新 为 代表 课程 已 经 完成 的 具 
体 分 数 时 ， 触 发 器 才 被 激发 。 除 了 nrow 的 使 用 ，update 语句 都 属于 标准 的 SQL 语法 。 





] 
create trigger credits_earned after update of takes on (grade) | 
referencing new row as nrow 
referencing old row as orow 
for each row 
when nrow. grade < > °F’ and nrow. grade is not null 
and (orow. grade = ’ F’ or orow. grade is null) 
begin atomic 
update student 
set tot_cred = tot_cred + 
(select credits 
from course 
where course. course_id = nrow. course_id ) 
where student. id = nrow. id; 
end; 


图 5-9 使 用 触发 器 来 维护 credits_earned 值 


本 例 中 触发 器 的 更 实际 的 实现 还 可 以 解决 分 数 更 正 的 问题 ， 包 括 把 成 功 结 课 的 分 数 改 成 不 及 格 分 
数 ， 以 及 向 关系 takes 中 插入 含有 表示 成 功 结 课 的 grade 值 的 元 组 。 读 者 可 以 把 这 些 实现 作为 练习 

另 举 一 个 使 用 触发 器 的 例子 ， 当 删除 一 个 student 元 组 的 事件 发 生 时 ， 需 要 检查 关系 takes 中 是 否 存 
在 与 该 学 生 相 关 的 项 ， 如 果 有 则 删除 它 。 

许多 数据 库 系统 支持 各 种 别 的 触发 器 事件 ， 比 如 当 一 个 用 户 ( 应 用 程序 ) 登录 到 数据 库 ( 即 打开 一 
个 连接 ) 的 时 候 ， 或 者 当 系统 停止 的 时 候 ， 或 者 当 系 统 设置 改变 的 时 候 。 

触发 器 可 以 在 事件 (insert 、delete 或 update ) 之 前 激发 ， 而 不 仅 是 事件 之 后 。 在 事件 之 前 被 执行 的 
触发 器 可 以 作为 避免 非法 更 新 、 插 人 或 删除 的 额外 约束 。 为 了 避免 执行 非法 动作 而 产生 错误 ， 和 触发 器 
可 以 采取 措施 来 纠正 问题 ， 使 更 新 、 插 人 或 删除 操作 合法 化 。 例 如 ， 假 设 我 们 想 把 一 个 教师 插入 某 个 
系 ， 而 该 系 的 名 称 并 不 在 关系 department 中， 那么 触发 器 就 可 以 提前 向 关系 department 中 加 入 该 系 名 
称 ， 以 避免 在 插入 时 产生 外 码 冲 突 。 另 一 个 例子 是 ,假设 所 插入 分 数 的 值 为 空白 则 表明 该 分 数 发 生 缺 
失 。 我 们 可 以 定义 一 个 触发 器 ， 将 这 个 值 用 null 值 代替 。set 语句 可 以 用 来 执行 这 样 的 修改 。 这 种 触发 
器 的 例子 如 图 5-10 所 示 。 
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我 们 可 以 对 引起 插入 、 删 除 或 更 新 的 SQL 语句 执行 单一 动作 ， 而 不 是 对 每 个 被 影响 的 行 执 行 一 个 














人 E create trigger setnull before update of takes 

fÈ for each row 子 句 。 可 以 用 子 句 referencing old table as Pe Rb TO dinn 

或 referencing new table as 来 指向 包含 所 有 的 被 影响 的 行 row a ana 

的 临时 表 ( 称 为 过 渡 表 (transition table) ) 。 过 渡 表 不 能 用 于 aak a 

before 触发 器 ， 但 是 可 以 用 于 after 触发 器 ， 无 论 它们 是 set nrow. grade = null; 

语句 触发 器 还 是 行 触发 器 。 这 样 ， 在 过 渡 表 的 基础 上 ， 一 eod; 

人 图 5-10 使 用 set 来 更 改 插入 值 的 例 地 
非 标 准 的 触发 器 语法 


尽管 我 们 在 这 里 介绍 的 触发 器 语法 是 SQL 标准 的 一 部 分 ， 并 被 IBM DB2 所 支持 ， 但 是 大 多 数 其 
他 的 数据 库 系 统 用 非 标准 的 语法 来 说 明和 触发 器 ， 不 一 定 实现 了 SQL 标准 的 所 有 特性 。 我 们 将 在 下 面 
概述 其 中 的 一 些 不 同 ; 更 进一步 的 细节 请 参考 相关 的 系统 手册 。 

例如 ， 与 SQL 标准 语法 不 同 的 是 ，Oracle 的 语法 中 ， 在 referencing 语句 中 并 没有 关键 词 row， 
而 且 在 begin 之 后 没有 关键 词 atomic, Æ update 语句 中 嵌入 的 select 语句 对 nrow 的 引用 必须 以 冒 
号 (:) 为 前 级 ， 用 以 向 系统 说 明 变 量 now 是 在 SQL 语句 之 外 所 定义 的 。 更 不 一 样 的 是 ， 在 when 
和 间 子 名 中 不 允许 包含 子 查询 。 可 以 用 下 面 的 方法 绕 过 这 个 限制 : 把 复杂 的 谓词 从 when 子 句 移 到 
单独 的 查询 中 ， 用 本 地 变量 保存 查询 结果 ， 然 后 在 一 个 证 子 句 里 引用 该 变量 ， 并 把 触发 器 的 内 容 
移动 到 相关 的 then 子 句 里 。 更 进一步 ，Oracle 中 的 触发 器 不 允许 直接 执行 事务 回 滚 ; CR, TH 
使 用 函数 raise_application_error 来 代替 它 ， 它 在 回 滚 事务 的 同时 返回 错误 信息 给 执行 更 新 的 用 
户 / 应 用 程序 。 

另 一 个 例子 是 ， 在 Microsoft SQL Server 中 用 关键 字 on KAR after。 不 支持 referencing 7 4), t 
是 用 deleted 和 inserted 修饰 元 组 变量 来 表示 被 影响 的 行 的 旧 值 和 新 值 。 另 外 ， 语 法 中 略 去 了 for 
each row 子 句 ， 并 用 证 来 替代 when。 不 支持 before 语句 样式 ， 但 是 支持 instead of 语法 。 . 

Æ PostgreSQL 中 ， 触 发 器 的 定义 不 包含 执行 内 容 ， 而 是 对 每 一 行 调用 一 个 过 程 ， 使 用 old f new 
来 访问 包含 该 行 的 旧 值 和 新 值 的 变量 。 触 发 器 不 进行 回 滚 ， 而 是 发 出 一 个 异常 ， 该 异常 中 包含 了 相 
关 的 错误 信息 。 


触发 器 可 以 设 为 有 效 或 者 无 效 : 默认 情况 下 它们 在 创建 时 是 有 效 的 ， 但 是 可 以 通过 使 用 alter 
trigger trigger_name disable ( 某 些 数据 库 使 用 另 一 种 语法 ， 比 如 disable trigger trigger_name) 将 其 设 为 无 
效 。 设 为 无 效 的 触发 器 可 以 重新 设 为 有 效 。 通 过 使 用 命令 drop trigger irigger_name， 触 发 器 也 可 以 被 
丢弃 ， 即 将 其 永久 移 除 。 

回 到 仓库 库存 的 例子 ,假设 有 如 下 的 关系 : 

© inventory( item，level) ， 表 示 物 品 在 仓库 中 的 当前 库存 量 。 

© minlevel( item, level) ,表示 物品 应 该 保持 的 最 小 库存 量 。 

© reorder( item, amount) ,表示 当 物 品 小 于 最 小 库存 量 的 时 候 要 订购 的 数量 。 

© orders( item, amount) ,表示 物品 被 订购 的 数量 。 

注意 我 们 已 经 很 小 心地 在 仅 当 物品 库存 量 从 大 于 最 小 值 降 到 最 小 值 以 下 的 时 候 才 下 达 一 个 订单 。 
如 果 只 检查 更 新 后 的 新 数值 是 否 小 于 最 小 值 ， 就 可 能 在 物品 已 经 被 重 订购 的 时 候 错误 地 下 达 一 个 订单 。 
我 们 可 以 用 图 5-11 中 的 触发 器 来 重新 订购 物品 。 

尽管 触发 器 在 SQL:1999 之 前 并 不 是 SQL 标准 的 一 部 分 ， 但 是 它 仍 被 广泛 地 应 用 在 基于 SQL 的 数 
据 库 系统 中 。 遗 憾 的 是 ， 每 个 数据 库 系 统 都 实现 了 自己 的 触发 器 语法 ， 导 致 彼此 不 能 兼容 。 我 们 在 这 
里 用 的 是 SQL:1999 的 触发 器 语法 ， 它 与 IBM 的 DB2 以 及 Oracle 数据 库 系统 的 语法 比较 相似 ， 但 不 完 
全 一 致 。 
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| create trigger reorder after update of level on inventory 


referencing old row as orow, new row as nrow 
for each row 
when nrow. level <= (select level 
from minlevel 
where minlevel. item = orow. item) 
and orow. level > (select level 
from minlevel 
where minlevel. item = orow. item) 
begin atomic 
insert into orders 
(select item, amount 
from reorder 
where reorder. item = orow. item) ; 








end; 


—— 








图 5-11 重新 订购 物品 的 触发 器 例子 


5.3.3 何 时 不 用 触发 器 

触发 器 有 很 多 合适 的 用 途 ， 例 如 我 们 刚刚 在 5.3.2 节 中 看 到 的 那些 ， 然 而 有 一 些 场合 最 好 用 别 
的 技术 来 处 理 。 比 如 ， 我 们 可 以 用 触发 器 蔡 代 级 联 特 性 来 实现 外 码 约束 的 on delete cascade 特性 。 然 
而 这 样 不 仅 需要 完成 更 大 的 工作 量 ， 而 且 使 数据 库 中 实现 的 约束 集合 对 于 数据 库 用 户 来 说 更 加 难以 
理解 。 

举 另 外 一 个 例子 ， 可 以 用 触发 器 来 维护 物化 视图 。 例 如 ， 如 果 我 们 希望 能 够 快速 得 到 每 节 课 所 注 
册 的 学 生 总 数 ， 我 们 可 以 创建 一 个 关系 来 实现 这 个 功能 : 


section_registration( course_id, sec_id, semester, year, total_students ) 


它 由 以 下 查询 所 定义 : 
select course_id, sec_id, semester, year, count(/D) as total_students 
from takes 
group by course_id, sec_id, semester, year; 
在 对 关系 takes 进行 插入 、 删 除 或 更 新 时 ， 每 门 课 的 total_students 的 值 必须 由 触发 器 来 维护 到 最 新 状态 。 
维护 时 可 能 要 对 section_registration 做 插入 、 更 新 或 删除 ， 这 些 都 相应 地 写 在 触发 器 里 。 
然而 ， 许 多 数据 库 现在 支持 物化 视图 ， 由 数据 库 系 统 自动 维护 ( 见 4.2.3 节 )。 因 此 没 必 要 编写 代 
码 让 触发 器 来 维护 这 样 的 物化 视图 。 
触发 器 也 被 用 来 复制 或 者 备份 数据 库 ; 在 每 一 个 关系 的 插入 、 删 除 或 更 新 的 操作 上 创建 触发 器 ， 
将 改变 记录 在 称 为 change 或 delta 的 关系 上 。 一 个 单独 的 进程 将 这 些 改变 复制 到 数据 库 的 副本 。 然 而 ， 
现代 的 数据 库 系统 提供 内 置 的 数据 库 复 制 工具 ， 使 得 复制 在 大 多 数 情况 下 不 必 使 用 触发 器 。 本 书 将 在 
第 19 章 详细 讨论 复制 数据 库 。 
触发 器 的 另 一 个 问题 是 当 数 据 从 一 个 备份 的 拷贝 中 加 载 ， 或 者 一 个 站 点 上 的 数据 库 更 新 复制 到 
备份 站 点 的 时 候 ， 触 发 器 动作 的 非 故 意 执行 。 在 该 情况 下 ， 触 发 器 动作 已 经 执行 了 ， 通 常 不 应 该 再 次 
执行 。 在 加 载 数据 的 时 候 ， 触 发 器 应 当 显 式 设 为 无 效 。 对 于 要 接管 主 系统 的 备份 复制 系统 ， 触 发 顺应 
”该 一 开始 就 设 为 无 效 ， 而 在 备份 站 点 接管 了 主 系统 的 业务 后 ， 再 设 为 有 效 。 作 为 取代 的 方法 ， 一 些 数 
据 库 系统 允许 触发 器 定义 为 not for replication， 保 证 触发 器 不 会 在 数据 库 备 份 的 时 候 在 备份 站 点 执行 。 
另 一 些 数据 库 系统 提供 了 一 个 系统 变量 用 于 指明 该 数据 库 是 一 个 副本 ， 数 据 库 动作 在 其 上 是 重 放 ; 触 
发 器 会 检查 这 个 变量 ， 如 果 为 真 则 退出 执行 。 这 两 种 解决 方案 都 不 需要 显 式 地 将 触发 器 设 为 失效 或 
有 效 。 
写 触 发 器 时 ， 应 特别 小 心 ， 这 是 因为 在 运行 期 间 一 个 触发 器 错误 会 导致 引发 该 触发 器 的 动作 语句 


O 我们 将 在 第 16 章 详 细 讨 论 数据 库 备 份 和 从 故障 中 恢复 的 内 容 。 
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失败 。 而 且 ， 一 个 触发 器 的 动作 可 以 引发 另 一 个 触发 器 。 在 最 坏 的 情况 下 ， 这 甚至 会 导致 一 个 无 限 的 
触发 链 。 例 如 ， 假 设 在 一 个 关系 上 的 插入 触发 器 里 有 一 个 动作 引起 在 同一 关系 上 的 男 一 个 (新 的 ) 插 
人 ， 该 新 插入 动作 也 会 引起 男 一 个 新 插入 ， 如 此 无 穷 循 环 下 去 。 有 些 数 据 库 系统 会 限制 这 种 触发 器 链 
的 长 度 (例如 16 或 32) ， 把 超过 此 长 度 的 触发 器 链 看 作 是 一 个 错误 。 另 一 些 系统 把 引用 特定 关系 的 触 
发 器 标记 为 错误 ， 对 该 关系 的 修改 导致 了 位 于 链 首 的 触发 器 被 执行 。 

触发 器 是 很 有 用 的 工具 ， 但 是 如 果 有 其 他 候选 方法 就 最 好 别 用 触发 器 。 很 多 触发 器 的 应 用 都 可 以 
用 适当 的 存储 过 程 来 替换 ， 后 者 我 们 在 5. 2 节 已 经 介绍 过 了 。 











+34 | My ** | course id prereq.id 
5. 4 递归 查询 BIO-301 BIO-101 | 
考虑 图 5-12 中 的 例子 ， 关 系 prereg 的 实例 包含 大 学 开设 的 各 门 课程 的 信息 | BO | BOO 
以 及 每 门 课 的 先 修 条 件 -.” | cs-315 | CS-101 


假设 我 们 想 知道 某 个 特定 课程 (例如 CS-347 ) 的 直接 或 者 间接 的 先 修 课程 。 | 53319 | SS101 
也 就 是 说 ， 我 们 想 找 到 这 样 的 课 ， 要 么 是 选修 CS-347 的 直接 先决 条 件 ， 要 么 是 | EE-181 | PHY-101 
选修 CS-347 的 先 修 课程 的 先决 条 件 ， 以 此 类 推 。 图 5-12 关系 prereg 

因此 ， 如 果 CS-301 是 CS-347 的 先 修 课 程 ， 并 且 CS-201 是 CS301 的 先 修 课 
程 ， 还 有 CS-101 是 CS-201 的 先 修 课 程 ， 那 么 CS-301 、CS-201 、CS-101 都 是 CS-347 的 先 修 课程 。 

关系 prereq 的 传递 闭 包 (transitive closure) 是 一 个 包含 所 有 (cid，pre) WIA, pre 是 cid 的 一 个 直 
接 或 间接 先 修 课 程 。 有 许多 要 求 计算 与 此 类 似 的 层次 (hierarchy ) 的 传递 闭 包 的 应 用 。 例 如 ， 机 构 通常 
由 几 层 组 织 单元 构成 。 机 器 由 部 件 构成 ， 而 部 件 又 有 子 部 件 ， 如 此 类 推 ; 例如 ， 一 辆 自行 车 可 能 有 子 
部 件 如 车 轮 和 踏板 ， 它 们 又 有 子 部 件 如 轮胎 、 轮 圈 、 辐 条 。 可 以 对 这 种 层次 结构 使 用 传递 闭 包 来 找 出 ， 
例如 ， 自 行车 中 的 所 有 部 件 。 

5.4.1 用 迭代 来 计算 传递 闭 包 

一 个 写 上 述 查 询 的 方法 是 使 用 迭代 : 首先 找到 CS-347 的 那些 直接 先 修 课程 ， 然 后 是 第 一 个 集合 中 
的 所 有 课程 的 先 修 课程 ， 如 此 类 推 。 迭 代 持 续 进行 ， 直 到 某 次 循环 中 没有 新 课程 加 进来 才 停 止 。 图 
5-13 显 示 了 执行 这 项 任务 的 函数 findAllPreregs( cid); 这 个 函数 以 课程 的 course_id 为 参数 (cid) ， 计 算 该 
课程 所 有 直接 或 间接 的 先 修 课 程 并 返回 它们 组 成 的 集合 。 

过 程 中 用 到 了 三 个 临时 表 : 

© c_prereq: 存储 要 返回 的 元 组 集合 。 

© new_c_prereq: 存储 在 前 一 次 迭代 中 找到 的 课程 。 

© temp: 当 对 课程 集合 进行 操作 时 用 作 临 时 存储 。 

TER, SQL 允许 使 用 命令 create temporary table 来 创建 临时 表 ; 这 些 表 仅 在 执行 查询 的 事务 内 部 才 可 
用 ， 并 随 事务 的 完成 而 被 删除 。 而 且 ， 如 果 findAllPreregs 的 两 个 实例 同时 运行 ， 每 个 实例 都 拥有 自己 
的 临时 表 副 本 ; 假设 它们 共享 一 份 副本 ， 结 果 就 会 出 错 。 

该 过 程 在 repeat 循环 之 前 把 课程 cid 的 所 有 直接 先 修 课 程 插入 new_c_prereq Po repeat 循环 首先 把 
new_c_prereq 中 所 有 课程 加 入 c_prereq 中 。 然 后 ， 它 为 new_c_prereg 中 的 所 有 课程 计算 先 修 课 程 ， 从 结果 中 得 
选 掉 此 前 已 经 计算 出 来 是 cid 的 先 修 课 的 课程 ， 把 剩 下 的 存放 在 临时 表 temp 中 。 最 后 ， 它 把 new_c_prereg 中 
的 内 容 替 换 成 temp 中 的 内 容 。 当 找 不 到 新 的 (间接 ) 先 修 课程 时 ，repeat 循环 终止 。 

以 CS-347 为 参数 调用 以 上 过 程 ， 图 5-14 显示 了 每 次 迭代 中 找到 的 先 修 课程 。 

我 们 注意 到 在 函数 中 使 用 except 子 句 保证 即使 在 先 修 关系 中 存在 环 时 ( 非 正 常情 况 )， 函 数 也 能 工 
作 。 例 如 ， 如 果 a Ab 的 先 修 课 , b Ac 的 先 修 课 ,c 为 a 的 先 修 课 ， 则 存在 一 个 环 。 











O prereg 的 实例 与 我 们 以 前 使 用 的 有 所 不 同 ， 其 原因 当 我 们 用 它 来 解释 递归 查询 时 就 能 看 得 很 清楚 了 。 
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create function findAllPrereqs( cid varchar(8) ) 
一 一 找 出 cid 的 所 有 ( 直接 或 间接 ) 先 修 课 程 
returns table (course_id varchar(8) ) 
一 一 关系 prereq( course_id, prereq_id) 指明 哪 一 门 课程 是 另 一 门 课 的 直接 先 修 课 
begin 
create temporary table c_prereq ( course_id varchar(8) ) ; 
— 表 c_prereg 存储 将 要 返回 的 课程 集合 
create temporary table new_c_prereq (course_id varchar(8)); 
一 一 表 new_c_prereq 包含 上 一 次 迭代 中 发 现 的 课程 
create temporary table temp (course_id varchar(8) ) ; 
一 一 表 temp 用 来 存储 中 间 结 果 
insert into new_c_prereq 
select prereg_id 
from prereq 
where course_id = cid; 
repeat 
insert into c_prereg 
select course_id 
from new_c_prereq ; 
insert into temp 
(select prereg. course_id 
from new_c_prereq, prereq 
where new_c_prereq. course_id = prereq. prereq_id 
) 
except ( 
select course_id 
from c_prereq 
oF 
delete from new_c_prereg; 
insert into new_c_prereq 
select” 
from temp; 
delete from temp; 


until not exists ( select’ from new_c_prereq ) 
end repeat; 
return table c_prereq; 
end 











图 $-13 找到 某 门 课 的 所 有 先 修 课程 


尽管 在 课程 先 修 关 系 中 不 存在 环 是 不 现实 的 ， 但 循环 可 能 在 其 他 应 用 中 存在 。 例 如 ， 假 设 我 们 有 
一 个 关系 flights( to, 矿 om) 表 示 哪 个 城市 可 以 从 其 他 城市 M Tteration Number 
直接 飞 达 。 我 们 可 以 写 类 似 于 findAllPreregs 函数 的 代码 | 0 | san | 
来 找到 所 有 从 某 个 给 定 城市 出 发 通过 一 次 或 一 系列 的 飞 (CS-301), (CS-201) | 
行 可 以 到 达 的 城市 。 我 们 所 要 做 的 只 是 用 flight 代替 Peat a, ain 
prereq 并 且 替 换 相 应 的 属性 名 称 。 在 这 个 情况 下 可 能 存 (CS-301), (CS-201), (CS-101) | 
bs yee eh 但 函数 仍然 会 正确 工作 ， 因 为 它 会 ; 图 5-14 ”函数 findAllPreregs 迭代 过 程 中 
所 有 已 见 过 的 城市 去 掉 。 产生 的 CS-347 的 先 修 课程 
5.4.2 SQL 中 的 递归 

用 和 迭代 表示 传递 闭 包 是 挺 不 方便 的 。 还 有 另 一 种 方法 ， 即 使 用 递归 视图 定义 ， 这 种 方法 更 加 容易 
使 用 。 

我 们 可 以 用 递归 为 某 个 指定 课程 如 CS-347 定义 先 修 课程 集合 ， 方 法 如 下 。CS-347 的 (直接 或 间接 
的 ) 先 修 课程 是 : 

© CS-347 的 先 修 课 程 。 

© 作为 CS-347 的 (直接 或 间接 的 ) 先 修 课程 的 先 修 课 程 的 课程 。 
注意 ,第 二 条 是 递归 ， 因 为 它 用 CS-347 的 先 修 课 程 来 定义 CS-347 的 先 修 课程 。 传 递 闭 包 的 其 他 例子 








Joe w Ne 
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如 找 出 一 个 给 定 部 件 的 所 有 直接 或 间接 子 部 件 同样 可 以 类 似 地 递归 定义 。 

从 SQL:1999 开始 ，SQL 标准 中 用 with recursive 子 句 来 支持 有 限 形式 的 递归 ， 在 递归 中 一 个 视图 
(或 临时 视图 ) 用 自身 来 表达 自身 。 例 如 ， 递 归 查 询 可 以 用 于 精确 地 表达 传递 闭 包 。 回 忆 with 子 句 用 于 
定义 一 个 临时 视图 ， 该 视图 的 定义 只 对 定义 它 的 查询 可 用 。 附 加 的 关键 字 recursive 表示 该 视图 是 递 


归 的 。 
例如 ， 用 图 5-15 中 显示 的 递归 SQL 视图 ， 我 们 可 以 找到 每 一 对 (cid, pre), HP pre 是 cid 的 直接 
或 间接 的 先 修 课 程 。 


任何 递归 视图 都 必须 被 定义 为 两 个 子 查询 的 并 : 一 个 非 递 归 的 基 查 询 (base query ) 和 一 个 使 用 递归 
视图 的 递归 查询 (recursive query ) 。 在 图 5-15 所 示 的 例子 中 ， 基 查询 是 关系 prereg 上 的 选择 操作 ， 而 递 
185| 归 查 询 则 计算 prereq 和 rec_prereq 的 连接 。 








160 对 递归 视图 的 含义 最 好 的 理解 如 下 。 首 先 计 TER m 

ie wi ve rec_prereq( course_id, prereq_id) as ( 
算 基 查询 并 把 所 有 结果 元 组 添加 到 视图 关系 rec_ select course_id, prereq_id 
prereqg( 初始 时 为 空 ) 中 。 然 后 用 当前 视图 关系 的 内 „fomi prereq 
容 计算 递归 查询 ， 并 把 所 有 结果 元 组 加 回 到 视图 Pg 
关系 中 。 持 续 重 复 上 述 步骤 直至 没有 新 的 元 组 添 from prereq, rec_prereq 
加 到 视图 关系 中 为 止 。 得 到 的 视图 关系 实例 就 称 二 ee 
为 递归 视图 定义 的 一 个 不 动 点 (fixed point), (R select ` 
语 “ 不 动 ”是 指 不 会 再 有 进一步 的 改变 。) 这 样 视图 | from rec_prereg; 











关系 被 定义 为 正好 包含 处 于 不 动 点 实例 中 的 元 组 。 Æ 5-15 SOL 中 的 递归 查询 


把 上 述 逻 辑 应 用 到 我 们 的 例子 中 ,我 们 将 首先 通过 执行 基 查 询 找到 每 门 课 的 直接 先 修 课 程 。 递 归 
查询 会 在 每 次 迭代 过 程 中 增加 一 层 课程 ， 直 到 达到 课程 - 先 修 课 程 关 系 的 最 大 层次 。 在 这 时 将 不 会 再 
有 新 的 元 组 添加 到 视图 中 ， 同 时 达到 了 一 个 不 动 点 。 

为 了 找到 指定 课程 的 先 修 课 程 ， 以 CS-347 为 例 ， 我 们 可 以 加 入 where 子 句 “where rec_prereq. course 
_id =“ CS-347' "来 修改 外 层 查询 。 对 如 此 条 件 的 查询 进行 求 值 ， 方 法 之 一 是 : 先 使 用 迭代 技术 计算 rec 
_prereq 的 所 有 内 容 ， 然 后 从 结果 中 选择 course_id 为 CS-347 的 那些 元 组 。 但是， 这 样 需要 为 所 有 课程 计 
算 ( 课 程 ， 先 修 课 程 ) 对 ， 其 中 ， 除 了 涉及 CS-347 的 之 外 ， 其 他 的 都 不 相关 。 事 实 上 ， 数 据 库 系统 没有 
必要 使 用 上 述 迁 代 技术 计算 递归 查询 的 完整 结果 然后 进行 筛选 。 可 以 使 用 其 他 效率 更 高 的 技术 来 得 到 
相同 的 结果 ， 比 如 findAliPrereqs 函数 中 用 到 的 方法 看 起 来 就 更 简单 些 。 更 多 信息 请 参阅 参考 文献 。 

递归 视图 中 的 递归 查询 是 有 一 些 限制 的 ; 具体 地 说 ， 该 查询 必须 是 单调 的 ( monotonic) ， 也 就 是 
说 ， 如 果 视 图 关系 实例 V, 是 实例 V 的 超 集 的话 ， 那 么 它 在 Vi 上 的 结果 必须 是 它 在 V 上 的 结果 的 超 
集 。 直 观 上 ， 如 果 更 多 的 元 组 被 添加 到 视图 关系 ， 则 递归 查询 至 少 应 该 返回 与 以 前 相同 的 元 组 集 ， 并 

且 还 可 能 返回 另外 一 些 元 组 。 

特别 指出 ， 递 归 查 询 不 能 用 于 任何 下 列 构 造 ， 因 为 它们 会 导致 查询 非 单调 : 

。 递归 视图 上 的 聚集 。 

。 在 使 用 递归 视图 的 子 查询 上 的 not exists 语句 。 

。 右 端 使 用 递归 视图 的 集合 差 (except) 运算 。 
例如 ， 如 果 递 归 查 询 是 r -wv 的 形式 ， 其 中 " 是 递归 视图 ， 如 果 我 们 在 " 中 增加 一 个 元 组 ， 查 询 结果 可 
能 会 变 小 ; 可 见 该 查询 不 是 单调 的 。 

只 要 递归 查询 是 单调 的 ， 递 归 视 图 的 含义 就 可 以 用 迭代 过 程 来 定义 ;如 果 递 归 查 询 是 非 单调 的 ， 
则 视图 的 含义 很 难 确定 。 因 此 SQL 要 求 查询 必须 是 单调 的 。 递 归 查 询 将 在 B. 3. 6 节 Datalog 查询 语言 的 
环境 中 更 加 详细 地 讨论 。 

SQL 还 允许 使 用 create recursive view 代替 with recursive 来 创建 递归 定义 的 永久 视图 。 一 些 系统 
实现 支持 使 用 不 同 语法 的 递归 查询 ;请 参考 各 自 的 系统 手册 以 获得 更 多 细节 。 
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5.5 高 级 聚集 特性 


此 前 我 们 已 经 看 到 ，SQL 对 聚集 的 支持 是 十 分 强大 的 ， 可 以 很 便捷 地 完成 一 般 性 的 任务 。 然 而 ， 
有 些 任 务 很 难 用 基本 的 聚集 特性 来 高 效 实现 。 在 本 节 中 ， 我 们 将 研究 为 完成 这 些 任务 而 向 SQL 中 引入 
的 一 些 特性 。 
5.5.1 排名 
从 一 个 大 的 集合 中 找 出 某 值 的 位 置 是 一 个 常见 的 操作 。 例 如 ， 我 们 可 能 希望 基于 学 生 的 平均 绩 点 
(GPA ) 赋予 他 们 在 班级 中 的 名 次 : GPA 最 高 的 学 生 排 名 第 1， 次 高 分 学 生 排 名 第 2， 等 等 。 另 一 种 相关 
的 查询 类 型 是 找 某 个 值 在 一 个 (允许 重复 值 的 ) 集 合 中 所 处 的 百分点 ， 比 如 排 在 后 1/3, PE 1/3 或 是 
前 1/3。 虽 然 这 样 的 查询 可 用 构造 SQL 语句 来 完成 ,但 表达 困难 且 计 算 效 率 低 。 编 程 人 员 通 常 借助 于 
将 部 分 代码 写 在 SQL 中 ， 男 一 部 分 代码 写 在 程序 设计 语言 中 的 方式 去 实现 它 。 我 们 在 这 里 讨论 SQL 中 
如 何 对 这 类 查询 进行 直接 表达 。 
在 我 们 的 大 学 例子 中 ， 关 系 takes 存储 了 每 个 学 生 在 所 选 的 每 一 门 课程 上 所 获得 的 成 绩 。 为 了 演示 
排名 ， 我 们 假设 有 一 个 视图 student_grades( ID，GPA) ， 它 给 出 了 每 个 学 生 的 平均 绩 点 。 
排名 是 用 order by 说 明 来 实现 的 。 下 面 的 查询 给 出 了 每 个 学 生 的 名 次 。 
select /D, rank( ) over (order by (GPA) desc) as s_rank 
from student_grades ; 
注意 这 里 没有 定义 输出 中 的 元 组 顺序 ， 所 以 元 组 可 能 不 按 名 次 排序 。 需 要 使 用 一 个 附加 的 order by 子 
句 得 到 排序 的 元 组 ， 如 下 所 示 : 
select 万 ，rank( ) over ( order by (GPA) dese) as s_rank 
from student_grades 
order by s_rank; 
有 关 排 名 的 一 个 基本 问题 是 如 何 处 理 多 个 元 组 在 排序 属性 上 具有 相同 值 的 情况 。 在 我 们 的 例子 中 ， 
这 意味 着 如 果 有 两 个 GPA 相同 的 学 生 应 如 何 处 理 的 问题 。rank 函数 对 所 有 在 order by 属性 上 相等 的 
元 组 赋予 相同 的 名 次 。 例 如 ， 如 果 两 个 学 生 具 有 相同 的 最 高 CPA， 则 两 人 都 得 到 第 1 名 。 下 一 个 给 出 
的 名 次 将 是 3 而 不 是 2， 所 以 如 果 三 个 学 生得 到 了 次 高 的 GPA， 他 们 都 将 得 到 第 3 名 ， 接 下 来 的 一 个 或 
者 多 个 学 生 将 得 到 第 6 名 ， 等 等 。 另 有 一 个 dense_rank 函数 ， 它 不 在 等 级 排序 中 产生 隔断 。 在 上 面 的 
例子 中 ， 具 有 次 高 成 绩 的 元 组 都 得 到 第 2 名 ， 具 有 第 三 高 的 值 的 元 组 得 到 第 3 名 ， 等 等 。 
可 以 使 用 基本 的 SQL 聚集 函数 来 表达 上 述 查 询 ， 查 询 语 句 如 下 : 
select /D, (1 + (select count( ` ) 
from student_grades B 
where B. GPA > A. GPA) ) as s_rank 
from student_grades A 
order by s_rank; 
显然 , 正如 上 述 语句 所 描述 的 那样 ， 一 个 学 生 的 排名 就 是 那些 GPA 比 他 高 的 学 生 的 数目 再 加 1。 
然而 ,计算 每 个 学 生 的 排名 所 耗 时 间 与 关系 的 大 小 呈 线 性 增长 ， 导 致 整体 耗 时 与 关系 大 小 呈 平 方 量 级 
增长 。 对 于 大 型 关系 ， 上 述 查询 可 能 要 花 很 长 时 间 来 执行 。 相 比 之 下 ，rank 子 句 的 系统 实现 能 够 对 关 
系 进 行 排序 并 在 相当 短 的 时 间 内 计算 排名 。 
排名 可 在 数据 的 不 同 分 区 里 进行 。 例 如 ， 我 们 可 能 会 希望 按照 系 而 不 是 在 整个 学 校 范围 内 对 学 生 
排名 。 假 设 有 一 个 视图 ， 它 像 student_grades 那样 定义 ， 但 是 包含 系 名 : dept_grades( ID, dept_name, 
GPA)。 那 么 下 面 的 查询 就 给 出 了 学 生 们 在 每 个 分 区 里 的 排名 : 





O FASQL 语句 来 创建 视图 student_grades 比较 难 ， 因 为 我 们 必须 把 关系 takes 中 的 字母 评分 转换 成 数字 ， 并 且 要 根据 
课程 的 学 分 数 来 考虑 该 课 成 绩 所 占 的 权重 。 该 视图 的 定义 是 在 习题 4. 5 中 要 做 的 。 
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select ID, dept_name, 

rank ( ) over (partition by dept_name order by GPA desc) as dept_rank 
from dept_grades 
order by dept_name, dept_rank; 


外 层 的 order by 子 句 将 结果 元 组 按 系 名 排序 ， 在 各 系 内 按照 名 次 排序 。 

一 个 单独 的 select 语句 中 可 以 使 用 多 个 rank 表达 式 ， 因 此 ， 通 过 在 同一 个 select 语句 中 使 用 两 个 
rank 表达 式 的 方式 ， 我 们 可 以 得 到 总 名 次 以 及 系 内 的 名 次 。 当 排名 (可 能 带 有 分 区 ) 与 group by 子 句 
同时 出 现 的 时 候 ，group by 子 句 首先 执行 ， 分 区 和 排名 在 group by 的 结果 上 执行 。 因 此 ， 得 到 聚集 值 
之 后 可 以 用 来 做 排名 。 本 来 也 可 以 不 用 student_grades 视图 来 完成 排名 查询 ， 而 是 用 一 个 单独 的 select 
子 句 来 写 。 其 细节 留 给 读者 作为 习题 。 

利用 将 排名 查询 嵌入 外 层 查 询 中 的 方法 ， 排 名 郴 数 可 用 于 找 出 排名 最 高 的 个 元 组 ， 详 细 实 现 作 
为 习题 。 注 意 ， 查 找 排名 最 低 的 n 个 元 组 与 查找 具有 相反 排序 顺序 的 排名 最 高 的 n 个 元 组 是 一 样 的 。 
有 些 数 据 库 系 统 提 供 非 标准 SQL 扩展 直接 指定 只 需 得 到 前 n 个 结果 ， 这 样 的 扩展 不 需要 rank PRCA f 
化 了 优化 器 的 工作 。 例 如 ， 一些 数 据 库 允许 在 SQL 查询 后 面 添加 limit n 子 句 ， 用 来 指明 只 输出 前 个 
元 组 ; 这 个 子 句 可 以 与 order by 子 句 连用 以 获取 排名 最 高 的 n 个 元 组 ， 如 下 面 的 查询 所 示 ， 该 查询 以 
GPA 大 小 顺序 来 获取 前 十 个 学 生 的 ID 和 GPA: 

select /D, GPA 

from student_grades 

order by GPA 

limit 10; 
然而 ，limit 子 句 不 支持 分 区 ， 所 以 我 们 如 果 不 进行 排名 的 话 就 不 能 得 到 每 个 分 区 内 的 前 n 个 元 组 ; 更 
其 的 是 ， 如 果 多 个 学 生 有 相同 的 CPA, 很 有 可 能 其 中 某 个 学 生 被 包括 到 前 十 ， 而 另 一 个 却 不 在 其 中 。 

还 有 其 他 几 个 可 以 用 来 蔡 代 rank 的 函数 。 例 如 ， 某 个 元 组 的 percent_rank 以 分 数 的 方式 给 出 了 该 
元 组 的 名 次 。 如 果 某 个 分 区 “中 有 个 元 组 且 某 个 元 组 的 名 次 为 -， 则 该 元 组 的 百分比 名 次 定义 为 (7 - 
1)/(n-1) (如果 该 分 区 中 只 有 一 个 元 组 则 定义 为 null), Kýr cume_dist( 累积 分 布 的 简写 ) ， 对 一 个 元 
组 定义 为 p/n， 其 中 p 是 分 区 中 排序 值 小 于 或 等 于 该 元 组 排序 值 的 元 组 数 ，n AK PTCA. R 
row_number 对 行进 行 排序 ， 并 且 按 行 在 排序 顺序 中 所 处 位 置 给 每 行 一 个 唯一 行 号 ， 具有 相同 排序 值 
的 不 同 的 行将 按照 非 确定 的 方式 得 到 不 同 的 行 号 。 

最 后 ， 对 于 一 个 给 定 的 常数 n， 排 名 函数 ntile(z) 按 照 给 定 的 顺序 取得 每 个 分 区 中 的 元 组 ， 并 把 它 
们 分 成 n 个 具有 相同 元 组 数目 的 桶 。? 对 每 个 元 组 ，ntile(n) 给 出 它 所 在 的 桶 号 ( 从 1 开始 计数 ) 。 该 函 
数 对 构造 基于 百分比 的 直方 图 特别 有 用 。 我 们 可 以 用 下 面 的 查询 来 演示 根据 GPA 把 学 生 分 为 四 个 
等 级 : 

select /D, ntile(4) over (order by (GPA desc) ) as quartile 
from student_grades ; 


空 值 的 存在 可 能 使 排名 的 定义 复杂 化 ， 这 是 因为 我 们 不 清楚 空 值 应 该 出 现在 排序 顺序 的 什么 位 置 。 
SQL 人 允许 用 户 通过 使 用 nulls first 或 nulls last 以 指定 它们 出 现 的 位 置 ， 例 如 : 
select /D, rank( ) over (order by GPA desc nulls last) as s_rank 
from student_grades ; 
5. 5.2 分 窗 
窗口 查询 用 来 对 于 一 定 范围 内 的 元 组 计算 聚集 函数 。 这 个 特性 很 有 用 ， 比 如 计算 一 个 固定 时 间 区 
间 的 聚集 值 ; 这 个 时 间 区 间 被 称 为 一 个 窗口 。 窗 口 可 以 重合 ,这 种 情况 下 一 个 元 组 可 能 对 多 个 窗口 都 
有 贡献 。 这 与 此 前 我 们 看 到 的 分 区 是 不 一 样 的 ， 因 为 分 区 查询 中 一 个 元 组 只 对 一 个 分 区 有 贡献 。 





O ”如果 没 有 使 用 显 式 的 分 区 ， 则 全 部 集合 看 成 一 个 单独 的 分 区 。 
O ”如果 一 个 分 区 中 的 所 有 元 组 的 数量 不 能 被 ”整除 ， 则 每 个 桶 中 的 元 组 数 最 多 相差 1。 为 了 使 每 个 桶 中 的 元 组 数量 
相同 ， 具 有 同样 排序 属性 值 的 元 组 可 能 不 确定 地 赋予 不 同 的 桶 。 
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趋势 分 析 是 分 窗 的 应 用 案例 之 一 ， 这 里 考虑 我 们 前 面 讲 的 销售 货物 的 例子 。 由 于 天 气 等 原因 ， 销 
售 量 可 能 会 一 天 天 很 大 幅度 地 变化 (例如 暴风 雪 、 洪 水 、 飓 风 、 地 震 在 一 段 时 间 内 一 般 会 降低 销售 
量 ) 。 然 而 ， 经 历 足 够 长 的 一 段 时 间 ， 影 响 就 会 较 小 (继续 前 面 的 例子 ， 由 于 天 气 原因 造成 的 销售 量 下 
降 可 能 会 “ 赶 上 去 ” ) 。 另 一 个 使 用 分 窗 查 询 的 例子 是 股票 市 场 的 趋势 分 析 。 我 们 在 交易 和 投资 的 网 站 
上 可 以 看 到 各 种 各 样 的 “移动 平均 线 ”。 

要 写 查 询 来 计算 一 个 窗口 的 聚集 值 ， 用 我 们 已 经 学 到 的 那些 特性 是 相对 简单 的 ， 例 如 计算 一 个 固 
定 的 三 天 时 间 区 间 的 销售 量 。 但 是 ， 如 果 我 们 想 对 每 个 三 天 时 间 区 间 都 如 此 计算 ,那么 查询 就 变 得 棘 
Ts 

SQL 提供 了 分 窗 特 性 用 于 支持 这 样 的 查询 。 假 设 我 们 有 一 个 视图 tot_credits( year, num_credits) ， 它 
记录 了 每 年 学 生 选 课 的 总 学 分 。” 注意 ， 在 这 个 关系 中 对 于 每 个 年 份 最 多 有 一 个 元 组 。 考 虑 如 下 查询 : [195] 

select year, avg(num_credits ) 
over (order by year rows 3 preceding ) 


as avg_total_credits 
from tot_credits ; 


这 个 查询 计算 指定 顺序 下 的 前 三 个 元 组 的 均值 。 因 此 ， 对 于 2009 年 ， 如 果 关 系 tot_credits 中 含有 2008 
年 和 2007 年 分 别 唯一 对 应 的 元 组 ， 该 窗口 定义 所 求 的 结果 就 是 2007 年 、2008 年 和 2009 年 的 值 的 平均 
数 。 每 年 的 均值 也 可 以 通过 类 似 的 方法 来 计算 。 对 于 关系 tot_credits 中 最 早 的 一 年 ， 均 值 的 计算 就 只 包 
含 该 年 本 身 ， 然 而 对 于 第 二 年 来 说 ， 需 要 对 两 年 的 值 来 求 平均 。 注 意 ， 如 果 关 系 tot_credits 在 某 个 特定 
年 份 有 不 止 一 个 元 组 ， 那 么 元 组 按 年 份 来 排序 就 有 多 种 可 能 。 在 这 种 情况 下 ， 前 序 元 组 是 基于 排列 顺 
序 而 定义 的 ， 该 顺序 取决 于 具体 实现 方法 ， 就 不 是 唯一 定义 的 了 。 

假设 我 们 并 不 想 回溯 固定 数量 的 元 组 ， 而 是 把 前 面 所 有 年 份 都 包含 在 窗口 内 。 这 意味 着 要 关注 的 
前 面 的 年 数 并 不 恒定 。 我 们 编写 下 面 的 代码 来 得 到 前 面 所 有 年 的 平均 总 学 分 : 


select year, avg( num_credits) 
over (order by year rows unbounded preceding) 
as avg_total_credits 

from tot_credits ; 


也 可 以 用 关键 字 following 来 蔡 换 preceding。 如 果 我 们 在 例子 中 这 样 做 ，year 值 就 表示 窗口 的 起 始 
年 份 ， 而 不 是 结束 年 份 。 类 似 地 ， 我 们 可 以 指定 一 个 窗口 ， 它 在 当前 元 组 之 前 开始 、 在 其 之 后 结束 : 


select year, avg( num_credits ) 
Over (order by year rows between 3 preceding and 2 following) 
as avg_total_credits 

from tot_credits ; 


我 们 还 可 以 用 order by 属性 上 值 的 范围 而 不 是 用 行 的 数目 来 指定 窗口 。 为 了 得 到 一 个 包含 当前 年 
以 及 前 面 四 年 的 范围 ， 我 们 可 以 这 样 写 : [196 | 


select year, avg( num_credits ) 
over (order by year range between year —4 and year) 
as avg_total_credits 

from tot_credits ; 


一 定 要 注意 上 例 中 的 关键 字 range 的 使 用 。 对 于 2010 年 ， 从 2006 年 到 2010 年 (包括 边界 ) 的 数据 都 将 
被 返回 ， 不 管 该 范围 内 实际 有 多 少 元 组 。 

在 我 们 的 例子 里 ， 所 有 元 组 都 是 针对 整个 学 校 而 言 的 。 假 如 不 是 这 样 ， 而 是 把 每 个 系 的 学 分 数据 
用 视图 tot_credits_dept( dept_name, year, num_credits) REX, 它 记 录 了 学 生 在 指定 年 份 中 选 某 个 系 开 设 
的 课程 的 所 有 学 分 数 。( 我 们 仍旧 把 对 该 视图 的 定义 留 给 读者 作为 练习 -) 我 们 编写 如 下 的 分 窗 查 询 ， 
按照 dept_name 分 区 ， 对 每 个 系 分 别 计算 : 








O 按照 本 书 中 大 学 的 例子 来 定义 这 个 视图 ， 我 们 把 这 个 作为 练习 留 给 读者 
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select dept_name, year, avg( num_credits ) 
over (partition by dept_name 


order by year rows between 3 preceding and current row) 


as avg_total_credits 
from tot_credits_dept ; 


5.6 OLAP” 


联机 分 析 处 理 (OLAP) 系统 是 一 个 交互 式 系统 ， 它 允许 
分 析 人 员 查 看 多 维 数据 的 不 同 种 类 的 汇总 数据 。 联 机 一 词 表 
示 分 析 人 员 必 须 能 够 提出 新 的 汇总 数据 的 请 求 ， 几 秒 钟 之 内 
在 线 得 到 响应 ， 无 需 为 了 看 到 查询 结果 而 被 迫 等 待 很 长 的 
时 间 。 

有 很 多 可 用 的 OLAP 产品 ， 其 中 有 些 随 Microsoft SQL 
Server 和 Oracle 等 数据 库 产 品 绑 定 ， 另 一 些 是 独立 的 工 
具 。 许 多 OLAP 工具 的 最 初版 本 以 数据 驻 留 在 内 存 中 为 前 
提 。 小 规模 数据 可 以 用 电子 表格 进行 分 析 ， 例 如 Excel, 
然而 ， 对 于 超大 规模 数据 的 OLAP， 需 要 把 数据 存储 在 数 
据 库 中 ， 并 通过 数据 库 的 支持 来 高 效 地 完成 数据 预 处 理 和 
在 线 查 询 处 理 。 在 本 节 中 ， 我 们 将 研究 SQL 支持 上 述 任 
务 的 扩展 特性 。 


5.6.1 联机 分 析 处 理 

考虑 这 样 一 个 应 用 ， 某 商店 想 要 找 出 流行 的 服装 款式 。 
我 们 假设 衣服 的 特性 包括 商品 名 、 颜 色 和 尺寸 ， 并 且 我 们 有 
一 个 关系 sales ， 它 的 模式 是 

sales( item name, color, clothes_size, quantity) 

假设 item_name 可 以 取 的 值 为 skirt、dress 、shirt 、pants; color 
可 以 取 的 值 为 dark 、pastel white; clothes_size 可 以 取 的 值 为 
small, medium, large; quantity 是 一 个 整数 值 ， 表 示 一 个 给 
ESE | item_name, color, clothes_size| 的 商品 数量 。 关 系 sales 
的 一 个 实例 如 图 5-16 所 示 。 

统计 分 析 通 常 需要 对 多 个 属性 进行 分 组 。 给 出 一 个 用 于 


数据 分 析 的 关系 ， 我 们 可 以 把 它 的 某 些 属性 看 作 度 量 属性 ( measure attribute) ， 因 为 这 些 属性 度量 了 某 
个 值 ， 而 且 可 以 在 其 上 进行 聚集 操作 。 例 如 ， 关 系 sales 的 属性 quantity 就 是 一 个 度量 属性 ， 因 为 它 
度量 了 卖 出 商品 的 数量 。 关 系 的 其 他 属性 中 的 某 些 ( 或 所 有 ) 属 性 可 看 作 是 维 属 性 ( dimension 
attribute) ， 因 为 它们 定义 了 度量 属性 以 及 度量 属性 的 汇总 可 以 在 其 上 进行 观察 的 各 个 维度 。 在 关系 
sales 中 ，item_name color 和 clothes_size 是 维 属性 。( 关系 sales 的 更 真实 的 版 本 还 包括 另 一 些 维 属性 ， 





























例如 时 间 和 销售 地 点 ， 以 及 其 他 的 度量 属性 ， 例 如 该 次 销售 的 货币 值 。) 
能 够 模式 化 为 维 属性 和 度量 属性 的 数据 统称 为 多 维 数据 (multidimensional data) 。 


为 了 分 析 多 维 数据 ， 管 理 者 可 能 需要 查看 如 图 5-17 所 示 那 样 显 示 的 数据 。 该 表 显 示 了 item_ 
name 和 color 值 之 间 不 同 组 合 情 况 下 的 商品 数目 。clothes_size 的 值 指定 为 al， 意味 着 表 中 显示 的 数 
值 是 在 所 有 的 size 值 上 的 数据 汇总 (也 就 是 说 ,我 们 把 “small”、“ medium” 和 “large” 的 商品 都 汇总 


到 一 个 组 里 ) o 


skirt dark | small | 2 
skirt dark medium | 5 
skirt dark | large 1 
skirt pastel | small | 11 
skirt pastel | medium 9 
skirt pastel | large 15 
skirt white | small 2 
skirt white | medium 5 
skirt white | large 3 
dress dark small 2 
dress dark medium 6 
dress dark | large 12 
dress pastel | small 4 
dress pastel | medium 3 
dress pastel | large 8i 
dress white | small 2 
dress white | medium 3 | 
dress white | large 0 
shirt dark small 2 
shirt dark | medium 6 
shirt | dark | large 6 
shirt pastel | small 4 
shirt pastel | medium 1 
shirt pastel | large 2 
shirt white | small 17 
shirt white | medium 1 
shirt white | large 10 
pants dark | small 14 
pants | dark | medium 6 
pants | dark | large 0 
pants pastel | small 1 
pants pastel | medium 0 
pants pastel | large 1 
pants white | small 3 
Pants white | medium 0 
| pants white | large 2 
5-16 关系 sales 的 例子 
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clothes_size 


= Ree ae 
ttem_name | @ 





fe abe te 
FA 5-17 关系 sales 的 关于 item_name 和 color 的 交叉 表 


图 5-17 所 示 的 表 是 一 个 交叉 表 ( cross-tabulation 或 简写 为 cross-tab ) 的 例子 ， 也 可 称 之 为 转轴 表 
( pivot-table) 。 一 般 说 来 ， 一 个 交叉 表 是 从 一 个 关系 (如 RR) 导 出 来 的 ， 由 关系 尺 的 一 个 属性 (如 4) 的 值 
构成 其 行 表 头 ， 关 系 R 的 另 一 个 属性 (如 B) 的 值 构 成 其 列表 头 。 例 如 ， 在 图 5-17 中 ， 属 性 item_name 
对 应 4A( 属 性 值 为 “skirt”、“ dress”、“shirt” 和 “pants”) ， 而 属性 color 对 应 B( 取 值 * dark”、“ pastel” 和 
“white” ) 。 

每 个 单元 可 记 为 (a,, b), EP a 代表 4 的 一 个 取 值 ，b, REB 的 一 个 取 值 。 转 轴 表 中 不 同 单元 的 
值 按 照 如 下 方法 从 关系 尺 推 导出 来 : 如 果 对 于 任何 (a;，b,) 值 ， 最 多 只 存在 一 个 元 组 具有 该 值 ， 则 该 
单元 中 的 值 由 那个 元 组 得 到 (如 果 存 在 那个 元 组 的 话 ) 。 例 如 ， 它 可 以 是 该 元 组 中 一 个 或 多 个 其 他 属性 
的 值 。 如 果 对 于 一 个 (a;, b,) 值 ， 可 能 存在 多 个 元 组 具有 该 值 ， 则 该 单元 中 的 值 必 须 由 这 些 元 组 上 的 聚 
集 得 到 。 在 我 们 的 例子 中 ， 所 用 的 聚集 是 所 有 不 同 clothes_size 上 的 quantity 属性 值 之 和 ， 如 图 5-17 交 
叉 表 上 方 的 "clothes_size: all” 所 表明 的 那样 。 这 样 ， 单 元 ( skirt，pastel) 的 值 就 是 35 ， 因 为 关系 sales 有 
三 个 元 组 满足 该 条 件 ， 它 们 的 值 分 别 为 11、9 和 15。 

在 我 们 的 例子 中 ， 交 叉 表 还 另 有 一 列 和 一 行 ， 用 来 存储 一 行 / 列 中 所 有 单元 的 总 和 。 大 多 数 的 交叉 
表 中 都 有 这 样 的 汇总 行 和 汇总 列 。 

将 二 维 的 交叉 表 推 广 到 n 维 ， 可 视 作 一 个 n 维 立 方 体 ， 称 为 数据 立方 体 ( data cube), R 5-18 表示 
一 个 在 sales 关系 上 的 数据 立方 体 。 该 数据 立方 体 有 三 个 维 ， 即 item_name、color 和 clothes_size， 其 度量 
属性 是 quantity， 每 个 单元 由 这 三 个 维 的 值 确定 。 正 如 交叉 表 一 样 ， 数 据 立 方 体 中 的 每 个 单元 包含 了 一 
个 值 。 在 图 5-18 中 ， 一 个 单元 包含 的 值 显示 在 该 单元 的 一 个 面 上 ; 该 单元 其 他 可 见 的 面 显示 为 空白 。 
所 有 的 单元 都 包含 值 ， 即 使 它们 并 不 可 见 。 某 一 维 的 取 值 可 以 是 al， 此 时 就 如 交叉 表 显 示 的 情形 一 
样 ， 该 单元 包含 了 该 维 上 所 有 值 的 汇总 数据 。 

将 元 组 分 组 做 聚集 的 不 同方 式 有 很 多 。 在 图 
5-18 的 例子 中 ， 有 三 种 颜色 、 四 类 商品 以 及 三 种 
尺码 ， 从 而 立方 体 的 大 小 为 3 x4 x3 =36。 要 是 把 
汇总 值 也 包括 进来 ， 我 们 就 得 到 一 个 4 x5 x4 的 立 dark 
方 体 ， 其 大 小 为 80。 事 实 上 ， 对 于 一 个 n 维 的 表 ， 
BY EH n SHE 的 2" 个 子 集 上 进行 分 组 并 执行 聚 
集 操 作 。 white 

在 OLAP 系统 中 ， 数 据 分 析 人 员 可 以 交互 地 选 at 
择 交 叉 表 的 属性 ， 从 而 能 够 在 相同 的 数据 上 查看 
不 同 内 容 的 交叉 表 。 每 个 交叉 表 是 一 个 多 维 数据 REAS 
立方 体 上 的 二 维 视图 。 例 如 ， 数 据 分 析 人 员 可 以 L re 
选择 一 个 在 item _name 和 clothes_size 上 的 交叉 表 ， FAR SRR 
也 可 以 选择 一 个 在 color 和 clothes_size 上 的 交叉 表 。 改 变 交叉 表 中 的 维 的 操作 叫做 转轴 ( pivoting) 。 


color 


pastel 








skirt dress shirt pants all 


日 ”在 所 有 的 nn 个 维 的 集合 上 分 组 只 有 在 该 表 含 有 重复 数据 的 情况 下 才 是 有 意义 的 。 
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OLAP 系统 允许 分 析 人 员 对 于 一 个 固定 的 clothes_size 值 ( 比如 large 而 不 是 所 有 size 的 总 和 ) 来 查看 
一 个 在 item_name 和 color 上 的 交叉 表 。 这 样 的 操作 称 为 切片 (slicing) ， 因 为 它 可 以 看 作 是 查看 一 个 数 
据 立 方 体 的 某 一 片 。 该 操作 有 时 也 叫做 切 块 (dicing) ， 特 别 是 当 有 多 个 维 的 值 是 固定 的 时 候 。 

当 一 个 交叉 表 用 于 观察 一 个 数据 立方 体 时 ， 不 属于 交叉 表 部 分 的 维 属性 的 值 显 示 在 交叉 表 的 上 方 。 
如 图 5-17 所 示 ， 这 样 的 属性 值 可 以 是 al， 表 示 交 叉 表 中 的 数据 是 该 属性 所 有 值 的 汇总 。 切 片 / 切 块 仅 
由 这 些 属 性 所 选 的 特定 值 构成 ， 这 些 值 显示 在 交叉 表 的 上 方 。 

OLAP 系统 允许 用 户 按照 期 望 的 粒度 级 别 观 察 数据 。 从 较 细 粒 度数 据 转 到 较 粗 粒度 (通过 聚集 ) 的 
操作 叫做 上 卷 (rollup) 。 在 我 们 的 例子 中 ， 从 表 sales 上 的 数据 立方 体 出 发 ， 在 属性 clothes_size 上 执行 上 
卷 操作 得 到 我 们 例子 中 的 交叉 表 。 相 反 的 操作 ， 也 就 是 将 较 粗 粒度 数据 转化 为 较 细 粒 度数 据 ， 称 作 下 
钻 ( drill down) 。 显 然 ， 较 细 粒 度数 据 不 可 能 由 较 粗 粒度 数据 产生 ; 它们 必须 由 原始 数据 产生 ， 或 者 由 
更 细 粒 度 的 汇总 数据 产生 。 

分 析 人 员 可 能 希望 从 不 同 的 细节 层 Year 
次 观察 某 一 个 维 。 例如， 类 型 为 
datetime 的 属性 包括 一 天 的 日 期 和 时 间 。 i 
对 于 一 个 只 对 粗略 时 间 感 兴趣 的 分 析 人 
员 来 说 ,使 用 精确 到 秒 (或 者 更 小 ) 的 时 PARER 
间 可 能 是 无 意义 的 ， 因 为 他 可 能 只 查看 | i 
tio -AA RRR O e oi 
况 感 兴趣 的 分 析 人 员 可 能 会 将 日 期 映射 kt / | 
到 一 周 的 某 天 并 只 查看 映射 后 的 信息 。 Datefime City 
还 有 的 分 析 人 员 可 能 会 对 一 个 月 、 一 
季度 或 一 年 的 聚集 数据 感 兴趣 。 iiaii aiai 

一 个 属性 的 不 同 细节 层次 可 以 组 织 图 5-19 不 同 的 维 上 的 层次 结构 
成 一 个 层次 结构 (hierarchy ) 。 图 5-19a 显 
示 了 一 个 在 datetime 属性 上 的 层次 结构 。 作 为 另 一 个 例子 ， 图 5-19b 显示 了 地 理 位 置 的 层次 结构 : city 
在 层次 结构 的 最 底层 ，state 在 它 上 层 ，country 在 更 上 一 层 ，region 在 最 顶层 。 在 前 面 的 例子 中 ， 衣 服 
可 以 按 类 别 分 组 (例如 ， 男 装 或 女装 ) ， 这 样 ， 在 关于 衣服 的 层次 结构 中 ，category 将 在 item_name 之 
上 。 在 实际 值 层 面 上 ， 裙 子 和 女 服 在 女装 类 别 下 面 ， 短 裤 和 衬衫 在 男装 类 别 下 面 。 

分 析 人 员 可 能 对 查看 区 分 为 男装 和 女装 tines. size: 

的 衣服 销售 情况 感 兴趣 ， 而 对 单个 值 不 感 兴 category item_name color 
趣 。 Cd [一 一 


查看 单个 值 。 hiep tonei et eade 28 25 下 
pns E 49 
27 


分 析 人 员 也 可 能 沿 层次 结构 上 卷 以 便 查看 较 
一 


粗 层 次 上 的 聚集 值 。 两 种 层次 可 以 显示 在 同 
一 个 交叉 表 中 ， 如 图 5-20 所 示 。 
5.6.2 交叉 表 与 关系 表 图 $-20 Xt sales 在 属性 item_name 上 分 层 后 的 交叉 表 
交叉 表 与 通常 存储 在 数据 库 中 的 关系 表 
是 不 同 的 ， 这 是 因为 交叉 表 中 的 列 的 数目 依赖 于 实际 的 数据 。 数 据 值 的 变化 可 能 导致 增加 更 多 的 列 ， 
这 对 于 数据 存储 来 说 是 不 期 望 见 到 的 。 然 而 ， 作 为 向 用 户 做 的 展现 ， 交 叉 表 是 比较 令 人 满意 的 。 对 于 
没有 汇总 值 的 交叉 表 ， 可 以 把 它 直接 表示 为 具有 固定 列 数 的 关系 形式 。 对 于 有 汇总 行 / 列 的 交叉 表 ， 可 
以 通过 引入 一 个 特殊 值 all 以 表示 子 汇总 值 ， 如 图 5-21 示 。 实 际 上 ，SQL 标准 使 用 null 值 代替 all, 但 
是 ,为 了 避免 与 通常 的 null 值 混 淆 ， 我 们 将 继续 沿用 all, 
考虑 元 组 ( skirt，all，all，53 ) 和 (dress，all，all，35 ) 。 这 两 个 元 组 是 这 样 得 到 的 : 我 们 消除 在 
color 和 clothes_size 上 具有 不 同 值 的 各 个 元 组 ， 然 后 将 quantity 的 值 蔡 换 成 一 个 聚集 值 ( 即 数量 的 和 )， 


Region 
Day of week Month | 
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这 样 就 得 到 了 这 两 个 元 组 。 值 al 可 以 被 看 作 是 代表 一 个 属性 的 所 有 值 的 集合 。 在 color Fil clothes_size 这 
两 个 维 上 具有 all 值 的 元 组 可 以 通过 在 关系 sales 的 列 item_ | itemname | color | clothes.size | quantity | 














name 上 进行 group by 操作 之 后 进行 聚集 得 到 。 类 似 地 ， 在 | skirt 


color, clothes_size 上 进行 group by 可 用 于 得 到 在 item_name | me Less e = 
上 取 all 值 的 元 组 ， 不 带 任何 属性 的 group by( 在 SQL 中 直 | Skit all z ` 
接 将 其 省 略 ) 可 用 于 得 到 在 item_name, color 和 clothes_size 上 | dress pastel all 10 
HO all 值 的 元 组 。 fase fal a 5 
也 可 以 用 关系 来 表示 层次 结构 。 例 如 , 裙子 和 女 服 属于 | shirt | dark | al | H 
女装 类 ， 短裤 和 衬衫 属于 男装 类 ， 这 样 的 层次 可 以 用 关系 Shirt Pastel al 
itemcategory( item_name，category ) 来 表示 。 可 以 把 该 关系 与 © shirt | all all 49 
KA sales 连接 ， 得 到 一 个 包含 各 个 商品 所 属 类 别 的 关系 。 PO 
在 该 连接 关系 上 进行 聚集 操作 ， 我 们 就 可 以 得 到 带 有 层次 结 pons white all 5| 
构 的 交叉 表 。 另 一 个 例子 是 ， 城 市 的 层次 结构 可 以 用 单个 关 | Pas all | al | =| 
系 city_hierarchy( ID city, state, country, region) RIR, th | all | pastel all 54 | 
可 以 用 多 个 关系 表示 ， 每 个 关系 把 结构 中 的 某 层 的 值 映射 到 S| aes 





其 下 一 层 。 我 们 在 这 里 假设 城市 有 唯一 的 标识 符 ， 它 存储 在 
属性 ID 中 ,用 来 避免 当 两 个 城市 名 称 相 同时 发 生 混淆 ， 比 
如 ， 在 美国 的 伊利 诺 斯 州 和 密苏里 州都 有 叫做 Springfield 的 城市 。 


图 5-21 图 5-17 中 数据 的 关系 表达 


OLAP 的 实现 

最 早 的 OLAP 系统 使 用 内 存 中 的 多 维 数组 存储 数据 立方 体 ， 称 作 多 维 OLAP ( multidimentional 
OLAP, MOLAP) 系统 。 后 来 ，OLAP 工具 集成 到 关系 系统 中 ， 数 据 存储 到 关系 数据 库 里 ， 这 样 的 系 
统称 为 关系 OLAP( relational OLAP, ROLAP) 系统 。 复 合 系统 将 一 些 汇总 数据 存在 内 存 中 ， 基 表 数 据 
和 另 一 些 汇总 数据 存在 关系 数据 库 中 ， 称 之 为 混合 OLAP(hybrid OLAP, HOLAP) 系统 。 

许多 OLAP 系统 实现 为 客户 -服务 器 系统 。 服 务 器 端 包含 关系 数据 库 和 任何 MOLAP 数据 立方 
体 ， 客 户 端 系统 通过 与 服务 器 通信 获得 数据 的 视图 。 

在 一 个 关系 上 计算 整个 数据 立方 体 ( 所 有 的 分 组 ) 的 一 种 朴素 方法 是 使 用 任何 一 种 标准 算法 来 计算 
聚集 操作 ， 一 次 计算 一 个 分 组 。 朴 素 算 法 需要 对 关系 进行 大 量 的 扫描 操作 。 有 一 种 简单 的 优化 是 从 聚 
集 (item_name， color, clothes_size) 中 ， 而 不 是 从 原始 关系 中 计算 聚集 (item_mame，color) 。 

对 于 标准 的 SQL 聚集 函数 ， 我 们 可 以 用 一 个 按 属性 集 B 分 组 的 聚集 来 计算 按 属性 集 4 进行 分 组 
的 聚集 ( 若 4CB)。 读 者 可 以 以 此 作为 练习 (见习 题 5:24)， 但 是 要 注意 计算 avg 时 ， 我们 还 需要 
count 值 。( 对 于 一 些 非 标准 的 聚集 函数 ， 比 如 median, 不 能 像 上 面 那样 计算 聚集 ， 这 里 所 说 的 优化 
不 能 应 用 于 这 样 的 非 可 分 解 的 聚集 函数 。) 从 另 一 个 聚集 而 不 是 从 原始 关系 中 计算 聚集 可 以 大 大 减少 
所 读 的 数据 量 。 更 进一步 的 改进 也 是 有 可 能 的 ， 例 如 ， 通 过 一 遍 数 据 扫描 计算 多 个 分 组 。 

早期 的 OLAP 实现 预先 计算 并 存储 整个 数据 立方 体 ， 即 对 维 属 性 的 所 有 子 集 进 行 分 组 。 预 先 计 
算 可 以 使 OLAP 查询 在 几 秒 钟 内 得 出 结果 ， 即 使 数据 集 可 能 包含 数 百 万 的 元 组 ， 总 计 达 上 G 的 数据 。 
然而 ， 对 于 nn 维 属 性 ， 有 2" 个 分 组 ， 属 性 上 的 层次 更 增多 了 这 个 数量 。 这 导致 整个 数据 立方 体 通 常 
大 于 形成 数据 立方 体 的 原始 关系 ， 而 且 在 许多 情况 下 存储 整个 数据 立方 体 是 不 可 行 的 。 

作为 对 预先 计算 并 存储 所 有 可 能 的 分 组 的 替代 方案 ， 预 先 计 算 并 存储 某 些 分 组 ， 按 需 计 算 其 他 
分 组 是 有 意义 的 。 从 原始 关系 中 计算 查询 可 能 需要 相当 长 的 时 间 ， 取 而 代 之 的 做 法 是 从 其 他 预先 计 
算 的 查询 中 计算 这 些 查 询 。 例 如 ， 假 设 某 个 查询 要 求 接 (item_name,， color) 进 行 分 组 ， 它 没有 预先 计 
算 。 该 查询 的 结果 可 以 基于 (item_name，color，cl5ties_size) 上 的 汇总 计算 得 出 ， 假设 这 是 我 们 预先 计 
算 了 的 。 对 于 在 考虑 用 于 存储 预计 算 结 果 的 可 用 存储 限制 的 条 件 下 如 何 选择 一 个 好 的 用 于 预先 计算 
的 分 组 集 ， 请 查看 相关 文献 注解 。 


| dark | all | 8 | 
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5.6.3 SQL 中 的 OLAP 


有 些 SQL 实现 ， 例 如 Microsoft SQL Server 和 Oracle， 支 持 在 SQL 中 使 用 pivot 子 句 ， 用 于 创建 交叉 
表 。 对 于 图 5-16 中 的 关系 sales， 使 用 如 下 查询 : 
select ` 
from sales 
pivot ( 
sum ( quantity ) 
for color in (’ dark’ ,’ pastel’ ,’ white’ ) 
ae by item_name; 
可 以 返回 图 5-22 所 示 的 交叉 表 。 注 意 ，pivot 子 句 中 的 for 子 句 用 来 指定 属性 color 的 哪些 值 应 该 在 转 
轴 的 结果 中 作为 属性 名 出 现 。 属 性 color 本 身 从 结果 中 被 去 除 ， 然 而 其 他 所 有 属性 都 被 保留 ， 另 外 ， 新 
产生 的 属性 的 值 被 设 定 为 来 自 于 属性 quantity。 在 多 个 元 组 对 给 定单 元 有 贡献 的 情况 下，Ppivot 子 句 中 
的 聚集 操作 指定 了 把 这 些 值 进行 汇总 的 方法 。 在 上 面 的 例子 中 ， 对 quantity 值 求 和 。 
EE, pivot 子 句 本 身 并 不 计算 我 们 在 图 5-17 所 示 的 转轴 表 中 所 看 到 的 部 分 和 。 但 是 ， 可 以 首先 像 
我 们 马上 就 要 讲 的 那样 生成 图 5-21 所 示 的 关系 表达 ， 然 后 对 这 个 表达 应 用 pivot 子 句 ， 以 得 到 同样 的 
结果 。 这 种 情况 下 ，all 值 必须 也 被 列 在 for 子 句 中 ， 并 且 order by 子 句 需要 做 调整 使 得 al 被 排 在 
最 后 。 
单个 SQL 查询 使 用 基本 的 group by 结构 生成 不 了 数 [i othes size | dark | past 
据 立 方 体 中 的 数据 ， 因 为 聚集 是 对 维 属性 的 若干 个 不 同 | skirt small 2) 1 




















2 
分 组 来 计算 的 。 由 于 这 个 原因 ，SQL 包含 了 一 些 函数 , 用 3 We” | 1 3 3 
来 生成 OLAP 所 需 的 分 组 。 下 面 我 们 讨论 这 些 特性 。 cae | ell | 1E ie | 
SQL 支持 group by 结构 的 泛 化 形式 用 于 进行 cabe 和 | des | large | 12) 3 0 
rollup 操作 。group by 子 句 中 的 cube 和 rollup 结构 允许 | shit | small | 2 4 17 
在 单个 查询 中 运行 多 个 group by 查询 ， 结 果 以 单个 关系 | Shit | large | 46 | 2| 10 | 
的 形式 返回 ， 其 样式 类 似 于 图 5-21 中 的 关系 。 Sey oe | 6| ol ol 
再 次 以 零售 商店 为 例 ， 关 系 是 pants large DE 1 2 | 
sales (item_name, color, clothes_size, quantity) 图 5-22 ”对 图 5-16 中 的 关系 sales 进行 
我 们 可 以 编写 简单 的 group by 查询 来 得 到 每 个 商品 名 所 SQL pivot 操作 的 结果 


对 应 商品 的 销售 量 : 

select item_name, sum( quantity ) 

from sales 

group by item_name; 
这 个 查询 的 结果 如 图 5-23 所 示 。 注 意 ， 这 和 图 5-17 的 最 后 一 列 (或 者 同样 可 以 说 ， 图 5-18 所 示 立 方 体 
的 第 一 行 ) 表 达 的 是 同一 组 数据 。 





类 似 地 ， 我 们 可 以 得 到 每 种 颜色 的 商品 的 销售 量 ， 等 等 。 在 group by FE | Gemmname | quantit 

中 用 多 个 属性 ， 我 们 就 能 知道 在 某 个 参数 集合 条 件 下 每 类 商品 卖 出 了 多 少 。 例 rad = 

Wn, 我们 可 以 编写 下 面 的 代码 通过 商品 名 和 颜色 来 拆 分 关系 sales; shirt 49 
select item_name, color, sum( quantity) pants 经 | 

from sales 图 5-23 查询 结果 


group by item_name, color; 
图 5-24 给 出 了 上 述 查 询 的 结果 。 注 意 ， 这 和 图 5-17 的 前 四 行 和 前 四 列 (或 者 同样 可 以 说 ， 图 5-18 
所 示 的 立方 体 的 前 四 行 和 前 四 列 ) 表达 的 是 同一 组 数据 。 
但 是 ， 如 果 想 用 这 种 方式 生成 整个 数据 立方 体 ， 我 们 就 不 得 不 为 以 下 每 个 属性 集 写 一 个 独立 的 


205 查询 : 


206 
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| (item_name, color, clothes_size) , (item_name, color) , (item_name, clothes_size) , 
(color, clothes_size) , (item_name) , (color) , (clothes_size), () | 


( ) 表 示 空 的 group by 列表 。 





























cube 结构 使 我 们 能 在 一 个 查询 中 完成 这 些 任务 : | itemname | color | quantity | 
select item_name, color, clothes_size, sum( quantity) skirt dark 8 
from sales skirt pastel 35 

group by cube( item_name, color, clothes_size) ; | rice | —_ : > | 

上 述 查 询 产 生 了 一 个 模式 如 下 的 关系 : dress pastel 10 | 
dress | white 5 
(item_name, color, clothes_size, sum( quantity) ) | shirt | dark 14 

5 = | shirt pastel F 

这 样 ， 该 查询 结果 实际 上 是 一 个 关系 ,对 于 在 特定 分 组 中 不 出 现 的 属 shirt | white 28 | 
性 ， 在 结果 元 组 中 包含 null 作为 其 值 。 例如 ， 在 clothes_size 上 进行 分 组 = a 20 

所 产生 的 元 组 模式 是 (clothes_size，sum ( quantity) ) ， 通 过 在 属性 item_ | pants | white 5 | 

name 和 color 上 加 入 null， 它 们 被 转换 成 (item_name,， color, clothes _size , 图 5-24 ”查询 结果 


sum (quantity) ) 上 的 元 组 。 

数据 立方 体 关系 经 常 相当 庞大 。 上 面 的 cube Ai], A 3 种 可 能 的 颜色 、4 种 可 能 的 商品 名 和 3 种 
尺寸 ， 共有 80 个 元 组 。 图 5-21 的 关系 是 由 item_name 和 color 上 的 分 组 操作 所 生成 的 。 它 也 用 al 来 替 
代 空 值 ， 这 样 更 容易 被 一 般 用 户 读 懂 。 为 了 在 SQL 中 生成 该 关系 ， 我 们 设法 把 null FHA all, ify: 


select item_name, color, sum( quantity ) [207 | 
from sales 
group by cube( item_name, color) ; 


生成 图 5-21 中 的 关系 ， 含 有 null。 使 用 SQL 的 decode 和 grouping 函数 可 以 实现 all 的 替换 。decode 也 
数 概念 简单 但 是 语法 有 些 难以 读 懂 。 细 节 请 查看 下 面 的 文本 框 中 的 内 容 。 


DECODE 函数 
decode 函数 用 来 对 元 组 中 的 属性 进行 值 的 替换 。decode 的 大 体形 式 是 : 
decode( value, match-1, replacement-1, match-2, replacement-2, ，…， 
match-N , replacement-N , default-replacement) ; 

它 把 值 (ualue) 与 匹配 (matoji) 值 进行 比较 ， 如 果 发 现 匹 配 ， 就 把 属性 值 用 相应 的 替代 值 来 替换 。 如 
果 未 匹配 成 功 ， 那 么 属性 值 被 替换 成 默认 的 替代 值 (default-replacement) 。 

decode 函数 并 不 像 我 们 期 望 的 那样 对 null 值 进 行 处 理 ， 这 是 因为 ， 正 如 我 们 在 3.6 节 所 看 到 的 
那样 ，null 上 的 谓词 等 价 于 unknown， 最终 被 转换 成 false。 为 了 解决 这 个 问题 ， 我 们 应 用 grouping 
Hs, AKE cube A rollup 产生 的 null 值 时 它 返回 1， 否 则 返回 0。 于 是 ， 图 5-21 中 的 关系 可 以 
用 下 面 的 查询 来 计算 ，mal 替换 成 al 了: 


~ select decode( grouping(item_name),1, ‘all’, item_name) as item_name 
decode( grouping( color), 1, ‘all’ , color) as color 
sum (quantity) as quantity 
from sales 
group by cube(item_name, color) ; 


rollup 结构 与 cube 结构 基本 一 样 ， 只 有 一 点 不 同 ， 就 是 rollup 产生 的 group by 查询 较 少 一 些 。 我 
们 看 到 ，group by cube (item_name, color，clothes_size) 生 成 使 用 部 分 属性 (或 者 全 部 属性 ， 或 者 不 用 任 
何 属性 ) 可 以 产生 的 全 部 8 种 实现 group by 查询 的 方法 。 而 在 下 面 的 查询 中 : 


select item_name, color, clothes_size, sum( quantity ) 
from sales 
group by rollup( item_name, color, clothes_size ) ; 


group by rollup(item_name, color, clothes_size) 只 产生 四 个 分 组 : 


| 


| (item-name, color, clothes_size) , (item_name, color) , (item_name), () | 
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注意 ，rollup 中 的 属性 按照 顺序 不 同 有 所 区 分 ; 最 后 一 个 属性 (在 我 们 例子 中 是 clothes_size) 只 在 

一 个 分 组 中 出 现 , 倒数 第 二 个 属性 出 现在 两 个 分 组 中 ， 以 此 类 推 , 第 一 个 属性 出 现在 (除了 空 分 组 之 外 
208] 的 ) 所 有 组 中 。 

我 们 用 rollup 产生 的 特定 分 组 有 什么 用 ?这 些 组 对 于 层次 结构 (例如 图 5-19 所 示 ) 具 有 频繁 的 实用 
价值 。 对 于 位 置 的 层次 结构 ( Region，Country，State，City) ， 我 们 可 能 希望 用 Region 来 分 组 ， 以 得 到 不 
同 区 域 的 销售 情况 。 之 后 我 们 可 能 希望 “下 钻 " 到 区 域内 部 的 国家 层面 ， 也 就 是 说 我 们 将 以 Region 和 
Country 来 分 组 。 继 续 下 钻 ， 我 们 希望 以 Region, Country 和 State 分 组 ， 然 后 以 Region, Country, State 
和 City 来 分 组 。rollup 结构 允许 我 们 为 求 更 深层 的 细节 而 设 定 这 样 下 钻 的 序列 。 

多 个 rollup 和 cube 可 以 在 一 个 单独 的 group by 子 句 中 使 用 。 例 如 ， 下 面 的 查询 


select item_name, color, clothes_size, Sum( quantity ) 
from sales 
group by rollup( item_name), rollup( color, clothes_size) ; 


产生 了 以 下 分 组 : 
| (item_name, color, clothes_size), (item_name, color), (item_name), 
(color, clothes_size), (color), () | 
为 了 理解 其 原因 ， 我 们 注意 到 rollup( item_name) 产生 了 两 个 分 组 : | (item_name), () | rollup 
(color, clothes_size) 产生 了 三 个 分 组 : | (color, clothes_size), (color), () |. 这 两 部 分 的 币 卡 儿 积 得 到 
上 面 显示 的 六 个 分 组 。 


rollup 和 cube 子 句 都 不 能 完全 控制 分 组 的 产生 。 例 如 ， 我 们 不 能 指定 让 它们 只 生成 分 组 | (color, 
clothes_size) ，( clothes_size ,item_name) | 。 我 们 可 以 用 在 having 子 句 中 使 用 grouping 结构 的 方法 去 产生 
这 类 限制 条 件 的 分 组 ， 实 现 细节 作为 习题 留 给 读者 。 


5.7 总 结 


© SQL 查询 可 以 从 宿主 语言 通过 内 人 和 动态 SQL HR. ODBC 和 JDBC 标准 给 C, Java 等 语言 的 应 用 程 

序 定义 接 入 SQL 数据 库 的 应 用 程序 接口 。 程 序 员 越 来 越 多 地 通过 这 些 API 来 访问 数据 库 。 

函数 和 过 程 可 以 用 SQL 提供 的 过 程 扩展 来 定义 ， 它 允许 和 迭代 和 条 件 ( 让 then-else) 语 句 。 

触发 器 定义 了 当 某 个 事件 发 生 而 且 满 足 相应 条 件 时 自动 执行 的 动作 。 触 发 器 有 很 多 用 处 ， 例 如 实现 

业务 规则 、 审 计 日 志 ， 甚 至 执行 数据 库 系统 外 的 操作 。 虽 然 触发 器 只 是 在 不 久 前 作为 SQL:1999 的 一 

部 分 加 入 SQL 标准 的 ， 但 是 大 多 数 数据 库 系 统 已 经 支持 触发 器 很 久 了 。 

一 些 查询 ， 如 传递 闭 包 ， 或 者 可 以 用 迭代 表示 ,或 者 可 以 用 递归 SQL 查询 表示 。 递 归 可 以 用 递归 视 

图 ， 或 者 用 递归 的 with 子 句 定义 。 

SQL 支持 一 些 高 级 的 聚集 特性 ， 包 括 排 名 和 分 窗 查 询 ， 这 些 特 性 简化 了 一 些 聚 集 操 作 的 表达 方式 ， 

并 提供 了 更 高 效 的 求 值 方法 。 

联机 分 析 处 理 (OLAP) 工 具 帮 助 分析 人 员 用 不 同 的 方式 查看 汇总 数据 ， 使 他 们 能 够 洞察 一 个 组 织 的 

运行 。 

1. OLAP 工具 工作 在 以 维 属性 和 度量 属性 为 特性 的 多 维 数据 之 上 。 

2. 数据 立方 体 由 以 不 同方 式 汇总 的 多 维 数据 构成 。 预 先 计算 数据 立方 体 有 助 于 提高 汇总 数据 的 查询 
速度 。 

3. 交叉 表 的 显示 人 允许 用 户 一 次 查看 多 维 数据 的 两 个 维 及 其 汇总 数据 。 

4. 下 钼 、 上 卷 、 切 片 和 切 块 是 用 户 使 用 OLAP 工具 时 执行 的 一 些 操作 。 

© 从 SQL:1999 标准 开始 ，SQL 提供 了 一 系列 的 用 于 数据 分 析 的 操作 符 ， 其 中 包括 cube 和 rollup 操作 。 
有 些 系统 还 支持 pivot 子 句 ， 可 以 很 方便 地 生成 交叉 表 。 


术语 回顾 


è JDBC . 预备 语句 。 SQL 注入 
e ODBC e 访问 元 数据 © HAT SQL 


è 
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。 游标 。 过渡 变量 和 过 湾 表 。 多 维 数据 
。 可 更 新 的 游标 。 递归 查询 口 度量 属性 
e 动态 SQL 。 单调 查询 口 维 属性 
© SQL 函数 。 排名 函数 口 转轴 
。 存储 过 程 Rank 口 数据 立方 体 
。 过 程 化 结构 口 Dense rank 口 切片 和 切 块 
。 外 部 语言 例 程 口 Partition by 口上 卷 和 下 钻 
© 触发 器 © 分 窗 。 交叉 表 
e before 和 after 触发 器 © 联机 分 析 处 理 (OLAP) 

实践 习题 


5.1 描述 何 种 情况 下 你 会 选择 使 用 嵌入 式 SQL， 而 不 是 仅仅 使 用 SQL 或 某 种 通用 程序 设计 语言 。 
5.2 写 一 个 使 用 JDBC 元 数据 特性 的 Java 函数 ， 该 函数 用 ResultSet 作为 输入 参数 ， 并 把 结果 输出 为 用 合适 
的 名 字 作为 列 名 的 表格 形式 。 
5.3 写 一 个 使 用 IDBC 元 数据 特性 的 Java 函数 ， 该 函数 输出 数据 库 中 的 所 有 关系 列表 ， 为 每 个 关系 显示 它 
的 属性 的 名 称 和 类 型 。 
5.4 ”说 明 如 何 用 触发 器 来 保证 约束 “一 位 教师 不 可 能 在 一 个 学 期 的 同一 时 间 段 在 不 同 的 教室 里 教 课 ”"。( 要 
知道 ， 对 关系 teaches 或 section 的 改变 都 可 能 使 该 约束 被 破坏 。) 
5.5 写 一 个 触发 器 ， 用 于 当 section 和 time_slot 更 新 时 维护 从 section 到 time_slot 的 参照 完整 性 约束 。 注 意 ， 
我 们 在 图 5-8 中 写 的 触发 器 不 包含 更 新 操作 。 
5.6 为 了 维护 关系 student 的 tot_cred 属性 ， 完 成 下 列 任务 : 
a 修改 定义 在 takes 更 新 时 的 触发 器 ， 使 其 对 于 能 影响 tot_cred 值 的 所 有 更 新 都 有 效 。 
b. 写 一 个 能 与 关系 takes 的 插 和 人 操作 相关 的 触发 器 。 
c. 在 什么 前 提 下 ， 关 系 course 上 不 创建 触发 器 是 有 道理 的 ? 
5.7 考虑 图 5-25 中 的 银行 数据 库 。 视 图 branch_cust 定义 如 下 : 
create view branch_cust as 
select branch_name, customer_name 
from depositor, account 
where depositor. account_number = account. account_number 
假设 视图 被 物化 ， 也 就 是 ， 这 个 视图 被 计算 且 存储 。 写 触发 器 来 维护 这 个 视图 ， 也 就 是 ， 该 视图 在 对 [210 
关系 depositor 或 account 的 插入 和 删除 时 保持 最 新 。 不 必 管 更 新 操作 。 网 








branch( branch_name , branch_city, assets) 
customer ( customer_name , customer_street , cust_omer_city ) 
loan (loan_number , branch_name, amount ) 
borrower ( customer_name , loan_number ) 
account ( account_number, branch_name, balance ) 
depositor ( customer_name , account_number ) 


图 5-25 385.7, 385.8 和 习题 5.28 中 用 到 的 银行 数据 库 


5.8 ”考虑 图 5-25 中 的 银行 数据 库 。 写 一 个 SQL 触发 器 来 执行 下 列 动作 : 在 对 账户 执行 delete 操作 时 ， 对 账 
户 的 每 一 个 拥有 者 ， 检 查 他 是 否 有 其 他 账户 ， 如 果 没 有 ， 把 他 从 depositor 关系 中 删除 。 

5.9 说明 如 何 使 用 rollup 表达 group by cube(a, b, c, d); 答案 只 允许 含有 一 个 group by 子 句 。 

5. 10 ”对 于 给 定 的 一 个 关系 S(student， subject, marks) ， 写 一 个 查询 ， 利 用 排名 操作 找 出 总 分 数 排 在 前 n 位 的 
学 生 。 

5.11 考虑 5.6 节 中 的 关系 sales ， 写 一 个 SQL 查询 ， 计 算 该 关系 上 的 立方 体 ( cube) 操 作 ， 给 出 图 5-21 中 的 
关系 。 不 要 使 用 cube 结构 。 
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212 
l 
213 


习题 


5. 12 考虑 有 如 下 关系 的 雇员 数据 库 : 


n wm 


13 


14 
15 


. 16 
-17 


® emp(ename, dname, salary) 

© mgr(ename, mname) 

和 图 5-26 中 的 Java 代码 ， 该 代码 使 用 JDBC 应 用 程序 接口 。 假 设 用 户 id、 密 码 、 主 机 名 等 都 正确 。 
请 用 简洁 的 语言 描述 一 下 Java 程序 都 做 了 什么 。( 也 就 是 说 ， 用 类 似 于 “查找 玩具 部 门 的 经 理 " 这 样 的 


. 话 来 表达 ， 而 不 是 一 行 一 行 地 对 Java 语句 进行 解释 ,) 





import java.sql.*; 
public class Mystery { 
public static void main(String[] args) | 
try { 

Connection con=null; 

Class.forName(“oracle.jdbc.driver.OracleDriver"); 

con=DriverManager.getConnection( 
"jdbc:oracle:thin:star/X@//edgar.cse.lehigh.edu:1521/XE"); 

Statement s=con.createStatement(); 

String q; 

String empName = "dog"; 

boolean more; 

ResultSet result; 

do { 
q = “select mname from mgr where ename =°" + empName + "'"; 
result = s.executeQuery(q); 
more = result.next(); 
if (more) { 

empName = result.getString("mname"); 
System.out.printin (empName); 


} while (more); 
s.close(); 
con.close(); 
} catch(Exception e){e.printStackTrace();} }} 











5-26 3# 5.12 AY Java 代码 


假设 你 要 在 Java 中 定义 一 个 MetaDisplay 类 ， 它 包含 方法 static void printTable( String r); 该 方法 以 关 
系 7 为 输入 参数 ， 执 行 查询 ”select ”from ””， 然 后 以 合适 的 表格 来 显示 输出 结果 ， 表 头 代表 每 一 列 的 
属性 名 。 
a. 要 想 以 指定 的 表格 形式 输入 结果 ， 你 需要 知道 关系 r 的 哪些 信息 ? 
b. JDBC 的 哪个 ( 些 ) 函数 能 帮 你 获取 所 需 的 信息 ? 
c. 用 JDBC 应 用 程序 接口 来 编写 方法 printTable( String r) 。 
用 ODBC 重新 做 习题 5. 13 ， 定 义 函 数 void printTable( char“r) 来 代 蔡 原 题 的 方法 。 
考虑 有 两 个 关系 的 雇员 数据 库 

employee( employee_name, street, city) 

works( employee_name, company_name, salary) 
这 里 主 码 用 下 划 线 标 出 。 写 出 一 个 查询 找 出 这 样 的 公司 ， 它 的 雇员 的 平均 工资 比 ”First Bank 
Corporation” 的 平均 工资 要 高 。 
a. 使 用 合适 的 SQL 函数 。 
b. 不 使 用 SQL 函数 。 
使 用 with 子 句 而 不 是 函数 调用 来 重 写 5. 2. 1 节 的 查询 , 返回 教师 数 大 于 12 的 系 的 名 称 和 预算 。 
把 使 用 嵌入 式 SQL 与 在 SQL 中 使 用 定义 在 一 个 通用 程序 设计 语言 中 的 函数 这 两 种 情况 进行 比较 。 在 
什么 情况 下 你 会 考虑 用 哪个 特性 ? 
修改 图 5-15 中 的 递归 查询 来 定义 一 个 关系 

prereq_depth (course_id, prereq_id, depth) 


wn 


. 26 
eee 


ua 


un 


.28 


工具 
大 部 分 数据 库 销 售 商 把 OLAP 工具 当 作 他 们 数据 库 系统 的 一 部 分 或 作为 附加 应 用 程序 来 提供 。 这 些 工具 
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这 里 属性 depth 表示 在 课程 和 先 修 课程 之 间 存 在 多 少 层 中 间 的 先 修 关系 。 直 接 的 先 修 课程 的 深度 
为 0。 
考虑 关系 模式 

part( part_id, name, cost) 

subpart( part_id, subpart_id, count) 
关系 subpart 中 的 一 个 元 组 (p,, pr, 3) 表示 部 件 编号 为 户 的 部 件 是 部 件 编号 为 p 的 部 件 的 直接 子 部 
件 ， 并 且 户 中 包含 3 个 p,。 注 意 ps, 本身 可 能 有 自己 的 子 部 件 。 写 一 个 递归 SQL 查询 输出 编号 为 “P- 
100” 的 部 件 的 所 有 子 部 件 。 
再 一 次 考虑 习题 5. 19 中 的 关系 模式 。 用 非 递归 SQL 写 一 个 JDBC 函数 来 找 出 “ P-100" 的 总 成 本 ， 包 括 
它 的 所 有 子 部 件 的 成 本 。 注 意 考虑 一 个 部 件 可 能 有 重复 出 现 多 次 的 同一 个 子 部 件 的 情况 5 如 果 需 要 ， 
可 以 在 Java 中 使 用 递归 。 
假设 有 两 个 关系 r 和 s,r 的 外 码 B 参照 ; 的 主 码 4。 描 述 如 何 用 触发 器 实现 从 * 中 删除 元 组 时 的 on 
delete cascade 选项 。 
一 个 触发 器 的 执行 可 能 会 引发 另 一 个 被 触发 的 动作 。 大 多 数 数据 库 系 统 都 设置 了 藤 套 的 深度 限制 。 解 
释 为 什么 它们 要 设置 这 样 的 限制 。 
考虑 图 5-27 中 的 关系 r。 请 给 出 下 面 查询 的 结果 。 


select building, room_number , time_slot_id, count( * ) 
from r 
group by rollup (building, room_number , time_slot_id) 


building | roomnumber | timeslotid | courseid | secid | 



















Garfield | 359 BIO-101 | 1 
Garfield | 359 BIO-101 | 2 
| Saucon | 651 | CS-101 2 | 
| Saucon | 550 CS-319 1 
| Painter | 705 | | MU-199 | 1 
| Painter | 403 |D | FIN-201 | 1 





图 5-27 习题 5.23 中 的 关系 


对 SQL 聚集 函数 sum, count, min 和 max 中 的 每 一 个 ， 说 明 在 给 定 多 重 集合 S 和 5, 上 的 聚集 值 的 
条 件 下 ， 如 何 计算 多 重 集 合 S U S 上 的 聚集 值 。 

在 上 述 的 基础 之 上 ， 在 给 定 属性 72S 上 的 分 组 聚集 值 的 条 件 下 ， 对 下 面 的 聚集 函数 ， 给 出 计算 关系 
r(A, B, C, D, EE) 的 属性 的 子 集 5 上 的 分 组 聚集 值 的 表达 式 。 

a. sum, count, min 和 max, 

b. avg. 

c. 标准 差 。 

在 5.5.1 节 中 ,我 们 使 用 习题 4. 5 中 的 视图 student_grades 来 写 基于 绩 点 平均 值 对 学 生 排 名 次 的 查询 。 
修改 这 个 查询 ， 只 显示 前 十 名 的 学 生 ( 也 就 是 说 ， 从 第 一 名 到 第 十 名 的 那些 学 生 ) 。 

给 出 一 个 具有 两 个 分 组 的 例子 ， 它 不 能 使 用 带 有 cube 和 rollup 的 单个 group by 子 句 表达 。 

对 于 给 定 的 一 个 关系 r(a, b, c) ， 说 明 如 何 使 用 扩展 SQL 特性 产生 一 个 c 对 a 的 直方 图 。 将 a 分 成 20 
个 等 分 的 区 ( 即 每 个 区 含有 7 中 5% 的 元 组 ， 并 按 a 排序 ) 。 

考虑 图 5-25 中 的 银行 数据 库 ， 以 及 关系 account 的 balance 属性 。 写 一 个 SQL 查询 ， 计 算 balance 值 的 
直方 图 ， 从 0 到 目前 最 大 账户 余额 的 范围 分 成 三 个 相等 的 区 域 。 


包括 微软 公司 的 OLAP TH, Oracle Express 和 Informix Metacube。 有 些 工具 被 整合 到 大 型 “商业 智能 ”产品 
中 ,例如 IBM Cognos。 很 多 公司 还 提供 面向 特定 应 用 (比如 客户 关系 管理 ) 的 分 析 工 具 ， 例 如 Oracle 
Siebel CRM. 
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文献 注解 


对 于 SQL 标准 和 有 关 SQL 的 书籍 请 参考 第 3 章 的 文献 注解 。 

java. sun. com/docs/books/tutorial 是 一 个 极 好 的 了 解 更 多 最 新 Java 和 JDBC 技术 资源 的 站 点 ， 有 关 Java 
(包括 JDBC) 的 书籍 也 可 以 在 该 URL HREJ ODBC 的 API 在 Microsoft[ 1997 ] 和 Sanders[ 1998 | 中 描述 过 。 
Melton 和 Eisenberg[ 2000 ] 提供 了 SQLJ, JDBC 和 相关 技术 的 入 门 向 导 。 更 多 关于 ODBC, ADO 和 ADO. NET 
的 信息 能 在 msdn. microsoft. com/ data 上 找到 。 

对 于 SQL 中 函数 和 过 程 的 章节 ， 许 多 数据 库 产 品 支 持 标准 说 明 以 外 的 一 些 特性 ， 而 有 些 则 不 支持 某 些 
标准 内 的 特性 。 关 于 这 些 特 性 的 更 多 信息 可 在 各 产品 的 SQL 用 户 手册 中 找到 。 

最 初 有 关 断 言 和 触发 器 的 SQL 提议 在 Astrahan 等 [1976 ] Chamberlin 等 | 1976 ] 及 Chamberlin 等 [ 1981 | 
中 作 了 讨论 。Melton 和 Simon[ 2001 ] 、Melton[ 2002], ， 以 及 Eisenberg 和 Melton[ 1999 ] 提供 了 涵盖 SQL:1999 
的 教科 书 ， 该 版 本 的 SQL 标准 中 首次 包含 了 触发 器 。 

递归 查询 处 理 最 早 是 在 一 种 叫做 Datalog 的 查询 语言 中 详细 研究 的 ， 该 语言 基于 数学 逻辑 ， 沿 袭 了 逻辑 
程序 设计 语言 Prolog 的 语法 。Ramakrishnan 和 Ullman[ 1995 ] 对 该 领域 的 研究 结果 做 了 综述 ， 其 中 涵盖 了 从 递 
归 定 义 的 视图 中 查询 元 组 的 子 集 的 优化 技术 。 

Gray 等 [1995 ] 和 Gray 等 [1997 ] 描 述 了 数据 立方 体操 作 符 。 用 于 计算 数据 立方 体 的 高 效 算法 在 Agarwal 
等 [1996 ] 、Harinarayan 等 [1996 ] 、Ross 和 Srivastava[ 1997 ] 中 有 描述 。SQL:1999 中 对 扩展 聚集 支持 的 描述 
可 在 数据 库 系统 ( 比如 Oracle 和 IBM DB2 ) 的 产品 手册 中 找到 。 

目前 有 大 量 关 于 如 何 高 效 执行 “top-k” 查 询 ( 即 只 返回 排名 为 前 的 结果 ) 的 研究 。llyas 等 [2008 | 对 这 方 

面 工作 做 了 综述 。 
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形式 化 关系 查询 语言 


从 第 2 章 ~ 第 5 章 , 我 们 介绍 了 关系 模型 ， 并 详细 讲述 了 SQL。 在 本 章 中 我 们 将 介绍 SQL 所 基于 
的 形式 化 模型 ， 同 时 它 也 是 其 他 关系 查询 语言 的 基础 。 

本 章 内 容 包括 三 种 形式 化 语言 。 我 们 首先 介绍 关系 代数 ， 它 为 广泛 应 用 的 SQL 查询 语言 打下 了 基 
础 。 然 后 我 们 学 习 元 组 关系 演算 和 域 关 系 演算 ， 它 们 都 是 基于 数学 逻辑 的 声明 式 查询 语言 。 


6.1 关系 代数 


关系 代数 是 一 种 过 程 化 查询 语言 。 它 包括 一 个 运算 的 集合 ， 这 些 运算 以 一 个 或 两 个 关系 为 输入 ， 
产生 一 个 新 的 关系 作为 结果 。 关 系 代数 基本 运算 有 : 选择 、 投 影 、 并 、 集 合 差 、 笛 卡 儿 积 和 更 名 。 在 
基本 运算 以 外 ， 还 有 一 些 其 他 运算 ， 即 集合 交 、 自 然 连 接 和 赋值 。 我 们 将 用 基本 运算 来 定义 这 些 运算 。 





























6. 1.1 基本 运算 
选择 、 投 影 和 更 名 运算 称 为 一 元 运算 ， 因 为 它们 对 一 个 关系 进行 运算 。 另 外 三 个 运算 对 两 个 关系 
进行 运算 ， 因 而 称 为 二 元 运算 。 
6.1.1.1 选择 运算 
选择 (selelet) 运算 选 出 满足 给 定 谓词 的 元 组 . 我 们 用 Gp name dee | lay 
小 写 希 腊 字 母 sigma(o ) 来 表示 选择 ， 而 将 谓词 写作 o 的 10101 | Srinivasan 1 | Comp. Sci. | 65000 
下 标 。 参 数 关系 在 e 后 的 插 号 中 。 因 此 ,为 了 选择 关系 | 12121 | Wu Finance 90000 
; “ SAR 一 15151 | Mozart Music 40000 
instructor 中 属于 “物理 ( Physics)" 系 的 那些 元 组 ， 我 们 应 | 395) | Mozart | Mu | 95000 
写作 : 32343 | ElSaid History 60000 
(i tor) 33456 | Gold Physics 87000 
C depi name =" Physics" \ INSErUCLOT | 45565 | Katz Comp. Sci. | 75000 
如 果 instructor 关系 如 图 6-1 所 示 ， 则 从 上 述 查 询 产 生 os roe aa ie 
= 6 in inance 
的 关系 如 图 6-2 所 示 。 | 76766 | Crick Biology | 72000 
通过 书写 : | 83821 | Brandt Comp. Sci. | 92000 
; 98345 | Kim Elec. Eng. | 80000 
Ø salary >90 000 ( Instructor ) 一 一 二 一 一 —— 
图 6-1 3% instructor 


我 们 可 以 找到 工资 额 大 于 90 000 美元 的 所 有 元 组 。 








22222 | 
33456 | Gold 


95000 
87000 


Einstein 





Physics 
Physics 


| 
| 





图 6 et 2 O dept_name 


通常 ,我们 允许 在 选择 谓词 中 进行 比较 ,使 用 的 是 = ， 关 ，<， 
or( V ) 和 mot( 一 ) 将 多 个 谓词 合并 为 一 个 较 大 的 谓词 。 因 此 ， 为 了 找到 物理 系 中 工资 额 


连词 and( A), 
大 于 90 000 美元 的 教师 ， 我 们 需要 书写 : 


O dept_name =" Physics" A salary >90 000 ( instructor) 


physics ( instructor ) 的 结果 


<, 5SM 


另外 ， 我 们 可 以 用 


选择 谓词 中 可 以 包括 两 个 属性 的 比较 。 我 们 以 关系 department 为 例 说 明 。 为 了 找 出 那些 系 名 与 楼 


名 相同 的 系 ， 我 们 可 以 这 样 写 : 
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© Jap name = building ( department ) 


SQL 与 关系 代数 
关系 代数 中 的 术语 选择 (select) 与 我 们 在 SQL 中 所 使 用 的 关键 词 select 具有 不 一 样 的 含义 ， 这 是 
历史 原因 造成 的 。 在 关系 代数 中 ， 术 语 select 对 应 于 我 们 在 SQL 中 使 用 的 where。 我 们 在 这 里 强调 二 
者 含义 的 区 别 ， 以 减少 可 能 出 现 的 混淆 。 


6.1.1.2 投影 运算 

假设 我 们 想 要 列 出 所 有 教师 的 ID. name 和 salary， 而 不 关心 dept_name。 投 影 ( project ) 运算 使 得 我 
们 可 以 产生 这 样 的 关系 。 投 影 运算 是 一 元 运算 ， 它 返回 作为 参数 的 关系 ， 但 把 某 些 属 性 排除 在 外 。 由 
于 关系 是 一 个 集合 ， 所 以 所 有 重复 行 均 被 去 除 。 投 影 用 大 写 希 腊 字 母 pi( II ) 表 示 ， 列 举 所 有 我 们 希望 
在 结果 中 出 现 的 属性 作为 各 的 下 标 ， 作 为 参数 的 关系 在 跟随 各 后 的 括号 中 。 因 此 ， 我 们 可 以 写 如 下 的 
查询 来 得 到 上 述 的 教师 列表 : 

TI io name salary ( instructor ) 

图 6-3 显示 了 此 查询 产生 的 关系 。 

6.1.1.3 关系 运算 的 组 合 ID | name | salary 

关系 运算 的 结果 自身 也 是 一 个 关系 ， 这 一 事实 是 非常 重要 的 。 | 10101 | Srinivasan | 65000 | 


12121 | Wu 90000 


考虑 一 个 更 复杂 的 查询 “ 找 出 物理 系 的 所 有 教师 的 名 字 ”， 我们 写作 :| 15151 | Mozart 40000 | 


| 


22222 | Einstein 95000 | 








T name (Oop name =" Physics” ( instructor ) ) 32343 | ElSaid | 60000 
请 注意 ， 对 投影 运算 而 言 ， 我 们 没有 给 出 一 个 关系 的 名 字 来 作为 其 aoe a she 
参数 ， 而 是 用 一 个 对 关系 进行 求 值 的 表达 式 来 作为 参数 。 58583 | Califieri 62000 


一 般 地 说 ， 由 于 关系 代数 运算 的 结果 同 其 输入 的 类 型 一 样 , 仍 7808 | Singh 
为 关系 ， 所 以 我 们 可 以 把 多 个 关系 代数 运算 组 合成 一 个 关系 代数 表 。 | S3821 | Brandt | 92000 
达 式 (relational-algebra expression ) 。 将 关系 代数 运算 组 合成 关系 代 = 
数 表达 式 如 同 将 算术 运算 (如 + 、- 和 := ) 组 合成 算术 表达 式 一 样 。 图 6-3 Mav seme stan (instructor) 
我 们 将 在 6. 1. 2 节 给 出 关系 代数 表达 式 的 形式 化 定义 。 的 结果 

6. 1.1.4 并 运算 

假设 有 一 个 查询 ， 要 找 出 开设 在 2009 年 秋季 学 期 或 者 2010 年 春季 学 期 或 者 这 二 者 皆 开 的 所 有 课 
程 的 集合 。 关 系 section( 图 6-4) 中 包含 这 些 信息 。 为 了 找到 2009 年 秋季 学 期 开设 的 所 有 课程 的 集合 ， 
我 们 可 以 这 样 写 : 

















T course id ( O semester =" Fall" A year =2009 ( Section ) ) 
为 了 找 出 在 2010 年 春季 学 期 开设 的 课程 ， 我 们 可 以 这 样 写 : 
| (O 2 “Spring” A year =2010 (section ) ) 

为 了 实现 该 查询 ， 我 们 需要 将 这 两 个 集合 并 (union ) 起 来 ; 即 我 们 需要 出 现在 这 两 个 集合 之 一 的 或 
同时 出 现在 这 两 个 集合 中 的 所 有 课程 段 的 ID 。 我 们 通过 二 元 运算 “并 "来 获得 这 些 数 据 ,“ 并 "运算 像 集 
合 论 中 一 样 用 U 表 示 。 于 是 ， 所 需 表 达 式 为 : 

TT course ia ( O sementer = *Fall” A year=2009 ( Section) ) U TT course id ( O semester = "Spring" Ayear=2010 ( Section ) ) 

此 查询 产生 的 关系 如 图 6-5 所 示 。 需 要 注意 的 是 ， 尽 管 有 3 门 课 在 2009 年 秋季 开设 ,6 门 课 在 
2010 年 春季 开设 ,但 是 在 结果 中 共有 8 个 元 组 。 由 于 关系 是 集合 ， 所 以 像 CS-101 这 样 在 两 个 学 期 都 开 
设 的 重复 值 只 留 下 了 单个 元 组 。 

可 以 看 到 ， 在 我 们 的 例子 中 ， 做 并 运算 的 两 个 集合 都 由 course_id 值 构成 。 概 括 地 说 ， 我 们 必须 保 
证 做 并 运算 的 关系 是 相 容 的 。 例 如 ， 将 instructor 关系 和 student 关系 做 并 运算 就 没有 意义 。 尽 管 两 个 关 
系 都 包含 4 个 属性 ， 但 是 二 者 在 salary 和 tot_cred 的 域 上 是 不 同 的 。 在 大 多 数 情况 下 这 两 个 属性 的 并 集 
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courseid | secid | semester | year | building | roomnumber | timeslotid | 
BIO-101 1 Summer | 2009 | Painter 514 B 
BIO-301 1 Summer | 2010 | Painter 514 A 
CS-101 1 Fall 2009 | Packard 101 H 
CS-101 1 Spring 2010 | Packard 101 F 
CS-190 1 Spring 2009 | Taylor 3128 E 
CS-190 2 Spring 2009 | Taylor 3128 A 
CS-315 1 Spring 2010 | Watson 120 D 
CS-319 1 Spring 2010 | Watson 100 B 
CS-319 2 Spring 2010 | Taylor 3128 起 
CS-347 1 Fall 2009 | Taylor 3128 A 
EE-181 1 Spring 2009 | Taylor | 3128 C 
FIN-201 1 Spring 2010 | Packard 101 B 
HIS-351 1 Spring 2010 | Painter 514 Cc 
MU-199 1 Spring 2010 | Packard 101 D 
PHY-101 | 1 | Fall 2009 | Watson 100 A 




















图 6-4 关系 section 
是 没有 意义 的 。 因 此 ， 要 使 并 运算 rUs 有 意义 ,我 们 要 求 以 下 两 个 条 件 同时 成 立 : 





1. 关系 r+ 和 s 必须 是 同 元 的 ， 即 它们 的 属性 数目 必须 相同 。 comrseid 

2. 对 所 有 的 i, r 的 第 i 个 属性 的 域 必 须 和 ;的 第 i 个 属性 的 CS-101 

CS-315 

域 相 同 。 CS-319 
请 注意 > 和 * 可 以 是 数据 库 关系 或 者 作为 关系 代数 表达 式 结果 的 临时 an | 
关系 。 HIS-351 | 
6.1.1.5 kožni | ma | 








用 -表示 的 集合 差 (set-difference ) 运算 使 得 我 们 可 以 找 出 在 一 个 
关系 中 而 不 在 另 一 个 关系 中 的 那些 元 组 。 表 达 式 -s 的 结果 即 一 个 包 
含 所 有 在 r 中 而 不 在 s 中 的 元 组 的 关系 。 

我 们 可 以 通过 书写 如 下 表达 式 来 找 出 所 有 开设 在 2009 年 秋季 学 
期 但 是 在 2010 年 春季 学 期 不 开 的 课程 : 


了 © semester =" Fall” A year =2009 ( section) ) 一 ig pees, Gees "Spring" A year = 2010 (section) ) 


该 查询 产生 的 关系 如 图 6-6 所 示 。 


图 6-5 2009 年 秋季 学 期 或 
2010 年 春季 学 期 或 者 这 两 个 
学 期 都 开设 的 课程 


[course 3d") 
CS-347 
_PHY-101 


6-6 TE 2009 年 秋季 学 期 开设 但 在 2010 年 春季 学 期 不 开 的 课程 


就 像 并 运算 一 样 ， 我 们 必须 保证 集合 差 运算 在 相 容 的 关系 间 进 行 。 因 此 ， 为 使 集合 差 运算 -s 有 意 


义 ， 我 们 要 求 关系 r 和 s 是 同 元 的 ， 且 对 于 所 有 的 i, r 的 第 i 个 属性 的 域 与 的 第 i 个 属性 的 域 都 相同 。 
6.1.1.6 FILZAH 


用 x 表 示 的 笛 卡 儿 积 ( Cartesian-product ) 运算 使 得 我 们 可 以 将 任意 两 个 关系 的 信息 组 合 在 一 起 。 我 


们 将 关系 六 和 Ta 的 笛 卡 儿 积 写作 Ti X20 


回忆 一 下 ， 关 系 定义 为 一 组 域 上 的 笛 卡 儿 积 的 子 集 。 从 这 个 定义 ,我 们 应 该 已 经 对 笛 卡 儿 积 运算 
的 定义 有 了 直观 的 认识 。 但 是 ， 由 于 相同 的 属性 名 可 能 同时 出 现在 m” 和 中 , 我们 需要 提出 一 个 命名 
机 制 来 区 别 这 些 属性 。 我 们 这 里 采用 的 方式 是 找到 属性 所 来 自 的 关系 ， 把 关系 名 称 附 加 到 该 属性 上 。 


例如 ，r = instructor x teaches 的 关系 模式 为 : 


(instructor. ID , instructor. name , instructor. dept_name , instructor. salary 
teaches. ID , teaches. course_id, teaches. sec_id, teaches. semester, teaches. year) 


用 这 样 的 模式 ， 我 们 可 以 区 别 instructor. ID 和 teaches. ID。 对 那些 只 在 两 个 关系 模式 之 一 中 出 现 的 属性 ， 


我 们 通常 省 略 其 关系 名 前 级 。 这 样 的 简化 不 会 导致 任何 歧义 。 这 样 ， 我 们 就 可 以 将 7 的 关系 模式 写作 : 
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(instructor. ID, name, dept_name, salary 
teaches. ID , course_id, sec_id, semester, year) 

















这 个 命名 规则 规定 作为 笛 卡 儿 积 运算 参数 的 关系 名 字 必 须 p T course id ] sec.id | semester year | 
不 同 。 这 一 规定 有 时 会 带 来 一 些 问题 ， 例 如 当 某 个 关系 需 | 10101 | CS-101 | 1 | Fal | 2009 
要 与 自身 做 笛 卡 儿 积 时 。 当 我 们 在 笛 卡 儿 积 中 使 用 关系 代 |1001 | C3315 | 1 | Spring 2010 
数 表达 式 的 结果 时 也 会 产生 类 似 问题 ， 因 为 我 们 必须 给 关 12121 | FIN-201 | 1 | Spring | 2010 
系 一 个 名 字 以 引用 其 属性 。 在 6.1.1.7 节 中 , 我 们 将 学 习 | PBI | MUI | 1 | BEng |2010 
如 何 通过 更 名 运算 来 避免 这 些 问 题 。 | 32343 | HIS-351 | 1 | Spring | 2010 

我 们 已 经 知道 = instructor x teaches 的 关系 模式 ， 那 么 SAS CIO) | 1 Spring | ao 
到 底 哪些 元 组 会 出 现在 r 中 呢 ? 或 许 你 已 经 想到 了 ， 如 下 76766 | BIO-101 | 1 | Summer | 2009 
所 述 每 一 个 可 能 的 元 组 对 都 形成 的 一 个 元 组 ， 元 组 对 中 8982 C890 | 1] | Se 200 
一 个 来 自 关系 ptnutor( 图 6-1) 而 另 一 个 来 自 关系 teaches B321 CSI | 2 Spring, | 200 
(图 6-7) 。 因 此 ， 正 如 你 可 以 从 图 6-8 看 到 的 那样 ,r 是 一 98345 | FEE181 | 1 | Spring | 2009 











个 很 大 的 关系 ， 而 该 图 只 显示 了 构成 7 的 部 分 元 组 。- MET 关系 teaches 


























inst.ID|name  |dept-name |: 
10101 {Srinivasan [CompSci. |65000| 10101 [CS-101 | 1 | Fall 2009 | 
10101 | Srinivasan |CompSei. |65000| 10101 |Cs-315 | 1 | Spring | 2010) 
10101 | Srinivasan |CompSci. |65000} 10101 | CS-347 | 1 | Fall 2009 | 
10101 | Srinivasan |CompSeci. | 65000} 12121 | FIN-201 1 [Spring 2010| 
10101 | Srinivasan |CompSei. | 65000) 15151 |MU-199 | 1 |Spring |2010, 
10101 | Srinivasan |CompSei | 65000 | 22222 |PHY-101| 1 |Fall 2009 
12121 Wu Finance | 90000| 10101 |cs-101 | 1 |Fall |2009| 
12121 | Wu Finance | 90000| 10101 | cs-315 | 1 |Spring |2010 
12121 | Wu Finance | 90000} 10101 jcs-347 | 1 |Fall |2009 
12121 | Wu Finance |90000| 12121 | FIN-201 ，1 |Spring |2010 
12121 | Wu Finance | 90000| 15151 |MU-199 | 1 |Spring |2010, 
12121 | Wu Finance “| 90000| 22222 |PHY-101| 1 |Fall 2009 | 
tie fs sae po e wee ass | | 
15151 | Mozart Music 40000} 10101 |CS-101 | 1 | Fall 2009 
15151 | Mozart Music 40000) 10101 | Cs-315 1 |Spring | 2010 
15151 | Mozart Music 40000 | 10101 | CS-347 | 1 | Fall 2009 
15151 | Mozart Music 40000} 12121 | FIN-201 | 1 |Spring | 2010! 
15151 Mozart Music 40000} 15151 |MU-199 | 1 [Spring |2010 
15151 | Mozart [Musie |40000| 22222 |PHY-101| 1 |Fall (2009| 
22222 | Einstein |Physics |95000| 10101 (Cs-101 | 1 |Fall | 2009 
22222 | Einstein |Physics {95000} 10101 |CS-315 | 1 |Spring | 2010) 
22222 | Einstein Physics |95000| 10101 | CS-347 | 1 ‘| Fall 2009 
22222 Einstein | Physics (95000 10101 | FIN-201 | 1 |Spring | 2010) 
22222 | Einstein {Physics |95000) 15151 |MU-199 | 1 |Spring | 2010) 
22222 | Einstein | Physics | 95000 22222 |PHY-101|! 1 | Fall 2009 | 
用 有 




















图 6-8 instructor x teaches 的 结果 


假设 instructor 中 有 n, NICH, teaches 中 有 n, 个 元 组 。 那 么 我 们 可 以 有 n xn, 种 方式 来 选择 元 组 
对 一 一 每 个 关系 中 选 出 一 个 元 组 ; Alt r PA n, xn, 个 元 组 。 特别 地 ， 请 注意 对 7 中 的 某 些 元 组 1 来 
说 ， 可 能 it[ instructor. ID] #t[ teaches. ID | 。 

一 般 地 说 ， 如 果 有 关系 7,(R,) 和 7,(R,)， 则 关系 7, xr, 的 模式 是 R 和 R, 串 接 而 成 的 。 关 系 尺 中 包含 
所 有 满足 以 下 条 件 的 元 组 t: T; 中 存在 元 组 t, Hi 中 存在 元 组 t,， 使 得 1[ R, | =1,[R, ] 有 Hi[R,] =t[R,]. 


O 注意 ,在 图 6-8 和 图 6-9 中 ， 为 了 减 小 表格 的 宽度 ， 我 们 把 instructor. ID 重 命名 为 inst. ID. 


第 6 章 形式 化 关系 查询 语言 


假设 我 们 希望 找 出 物理 系 的 所 有 教师 ， 以 及 他 们 教授 的 所 有 课程 。 为 了 实现 这 一 要 求 ， 我 们 同时 
需要 关系 instructor 和 关系 teaches 中 的 信息 。 如 果 我 们 写 : 
Oop name = "Physics" ( ÎNStructor X teaches) 
则 其 结果 就 是 图 6-9 所 示 关 系 。 
| inst.1D 
22222 | Einstein | Physics Se 10101 | CS-437 











1 
22222 | Einstein | Physics |95000| 10101 | CS-315 1 
22222 | Einstein | Physics |95000| 12121 | FIN-201 1 

22222 | Einstein | Physics |95000| 15151 |MU-199 | 1 |Spring |2010 
22222 | Einstein | Physics |95000| 22222 |PHY-101| 1 
1 











22222 | Einstein | Physics |95000| 32343 |HIS-351 Spring |2010 | 

33456 | Gold Physics |87000| 10101 | CS-437 1 | Fall 2009 | 

33456 | Gold Physics |87000) 10101 | CS-315 1 | Spring |2010 | 

33456 | Gold Physics |87000) 12121 |FIN-201 | 1 | Spring | 2010 

33456 | Gold Physics |87000| 15151 |MU-199 | 1 |Spring | 2010 

33456 | Gold Physics |87000|} 22222 |PHY-101} 1 | Fall 2009 
1 


33456 | Gold Physics | 87000} 32343 | HIS-351 Spring | 2010 


























图 6-9 Odp name = "Physics (instructor x teaches) 的 结果 


这 里 我 们 得 到 的 关系 中 只 包含 物理 系 的 教师 。 然 而 ，course_id 列 却 可 能 包含 并 非 这 些 教师 所 教授 
的 课程 。( 如 果 你 不 明白 为 什么 会 发 生 这 种 情况 ， 请 不 要 忘 了 笛 卡 儿 积 中 保留 了 所 有 可 能 的 由 一 个 来 自 
instructor 的 元 组 和 一 个 来 自 teaches 的 元 组 构成 的 元 组 对 。) 

由 于 笛 卡 儿 积 运算 将 instructor 中 的 每 个 元 组 同 teaches 中 的 每 个 元 组 进行 联系 ， 所 以 我 们 可 以 
确定 ， 如 果 一 名 教师 来 自 于 物理 系 并 教授 某 门 课程 (在 关系 teaches 中 有 对 应 的 元 组 )， 那么 
au name = "Physics" (instructor x teaches) 中 必定 存在 某 个 元 组 ， 它 包含 该 教师 的 名 字 ， 并 且 满 足 instructor. ID = 
teaches. ID。 因 此 ， 如 果 我 们 用 : 

© instructor. ID = teaches: ID ( O depe_name = "Physica" (instructor X teaches) ) 
就 可 以 得 到 在 instructor x teaches 中 那些 只 与 物理 系 教师 以 及 他 们 所 教 课 程 相关 的 元 组 。 
最 后 ， 由 于 我 们 只 需要 物理 系 教 师 的 名 字 ， 以 及 他 们 所 教 课程 的 course_id, 我们 进行 投影 : 
TT name course id ( O instructor, 1D = teaches. ID (O dept_rame="Physica” (instructor x teaches ) ) ) 
此 表达 式 的 结果 如 图 6-10 所 示 ， 这 就 是 我 们 的 查询 的 正确 答案 。 可 以 看 到 ， 虽 然 Cold 属于 物理 系 ， 但 
是 (从 关系 teaches 可 知 ) 他 不 教 课 ， 因 此 未 出 现在 结果 中 。 


| name courseid 
| Einstein | PHY-101 








图 6-10 TI name, course id ( O instructor. 1D = teaches. ID È O depi name = "Physics ( instructor X teaches) )) 的 结果 


需要 注意 ， 用 关系 代数 表达 查询 的 方法 并 不 唯一 。 考 虑 如 下 查询 : 
TT ame co ja (O insira: 1 = teaches. iD ( CO iep rome "Physica ( instructor ) ) x teaches) ) 

注意 这 两 个 查询 的 细微 差别 : 上 面 的 查询 是 对 instructor 进行 选择 运算 ， 把 dept_name 限制 为 Physics， 
之 后 再 进行 笛 卡 儿 积 ; 相 比 之 下 ， 在 前 面 介绍 的 查询 中 ， 在 选择 运算 之 前 先 计算 笛 卡 儿 积 。 然 而 这 两 
种 查询 是 等 价 的 (equivalent) ， 也 就 是 说 ， 在 任何 数据 库 上 它们 都 能 得 到 相同 的 结果 。 

6.1.1.7 #BieR 

关系 代数 表达 式 的 结果 没有 可 供 我 们 引用 的 名 字 ， 这 一 点 与 数据 库 中 的 关系 有 所 不 同 。 如 果 能 给 
它们 赋 上 名 字 那 将 是 十 分 有 用 的 ; 我 们 可 以 通过 小 写 希腊 字母 rtho(p) 表 示 的 更 名 (rename) 运 算 来 完成 
这 一 任务 。 对 给 定 关系 代数 表达 式 EE， 表达 式 
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p:(E) 

返回 表达 式 WAR, FHA x RATE. 

对 于 一 个 关系 + 来 说 ,， 它 自身 被 认为 是 一 个 (平凡 的 ) 关 系 代数 表达 式 。 因 此 ， 我 们 也 可 以 将 更 名 
运算 运用 于 关系 r， 这 样 可 得 到 具有 新 名 字 的 一 个 相同 的 关系 。 

更 名 运算 的 另 一 形式 如 下 。 假 设 关 系 代数 表达 式 E 是 nn 元 的 ， 则 表达 式 

Patana) È E) 

返回 表达 式 的 结果 ， 并 赋 给 它 名 字 x， 同 时 将 各 属性 更 名 为 4 ，A, ，…，4,。 

我 们 以 查询 “ 找 出 大 学 里 的 最 高 工资 ”作为 例子 来 演示 关系 的 更 名 运算 。 我 们 的 策略 是 : 首先 计算 
出 一 个 由 非 最 高 工资 组 成 的 临时 关系 ， 然 后 计算 关系 和 ,ww (instructor) 和 刚才 算出 的 临时 关系 之 间 的 集 
合 差 ， 从 而 得 到 结果 。 


1. 步骤 1: 为 了 计算 该 临时 关系 ,我 们 需要 比较 所 有 工资 的 值 。 “salary 

要 做 这 样 的 比较 ， 可 以 通过 计算 笛 卡 儿 积 instructor x instructor 并 构 | on | 

造 一 个 选择 来 比较 任意 两 个 出 现在 同一 元 组 中 的 工资 。 我 们 的 首要 40000 | 
任务 是 设计 一 种 机 制 来 区 别 两 个 salary 属性 。 我 们 将 使 用 更 名 运算 | cae 

来 改变 其 中 一 个 对 教师 关系 进行 引用 的 名 字 ; 这 样 我 们 就 可 以 无 歧 | 75000 

义 地 两 次 引用 这 个 关系 。 62000 
现在 可 以 把 非 最 高 工资 构成 的 临时 关系 写作 : | 





TT instructor. salary ( O instructor. salary < d. salary ( instructor X p; (instructor) ) ) 
通过 这 一 表达 式 可 以 得 到 instructor 中 满足 如 下 条 件 的 那些 工资 : 在 图 6-11 FRAR T nune salary 
关系 instructor( 更 名 为 4) 中 还 存在 比 它 更 高 的 工资 。 结 果 中 包含 了 wee alon estan (instructor x 
除 最 高 工资 以 外 的 所 有 工资 。 图 6-11 表示 这 个 关系 。 pa (instructor) ) ) 的 结果 

2. 步骤 2: 查找 大 学 里 最 高 工资 的 查询 可 写作 : 


I ( instructor) — TT instructor. salary ( O instructor salary < d. satar ( instructor X pa ( instructor ) ) ) 


该 查询 的 结果 如 图 6-12 所 示 。 


95000 
图 6-12 大 学 里 的 最 高 工资 


更 名 运算 不 是 必需 的 ， 因 为 可 以 对 属性 使 用 位 置 标记 。 我 们 可 以 用 位 置 标记 隐 含 地 作为 关系 的 属 
性 名 ， 用 $1、$2、… 指 代 第 一 个 属性 、 第 二 个 属性 ， 以 此 类 推 。 位 置 标记 也 适用 于 关系 代数 表达 式 
运算 的 结果 。 下 面 的 关系 代数 表达 式 演 示 了 位 置 标记 的 用 法 ， 我 们 用 它 来 写 先前 介绍 的 计算 非 最 高 工 
资 的 表达 式 : 


Tes (Ty .ss ( instructor x instructor ) ) 


注意 ， 笛 卡 儿 积 把 两 个 关系 的 属性 串 接 起 来 。 因 此 ,在 笛 卡 儿 积 (instructor x teaches) 中 $4 代表 第 一 个 
instructor 的 属性 salary， 而 $8 代表 第 二 个 instructor 的 属性 salary。 如 果 一 个 二 元 运算 需要 在 作为 其 运算 
对 象 的 两 个 关系 之 间 进 行 区 分 ， 类 似 的 位 置 标记 也 可 以 用 来 作为 关系 名 称 。 例 如 ，$ RI 可 以 指 代 第 一 
个 作为 运算 对 象 的 关系 ， 而 $R2 可 以 指 代 第 二 个 关系 。 然 而 ,位 置 标记 对 人 而 言 不 够 方便 ， 因 为 属性 
的 位 置 是 一 个 数字 ,不 像 属 性 名 那样 易于 记忆 。 所 以 在 这 本 书 里 我 们 不 采用 位 置 标记 。 
6. 1.2 关系 代数 的 形式 化 定义 

6.1.1 节 中 的 运算 使 我 们 能 够 给 出 关系 代数 中 表达 式 的 完整 定义 。 关 系 代数 中 基本 的 表达 式 是 如 
下 二 者 之 一 : 

。 数据 库 中 的 一 个 关系 。 

。 一 个 常数 关系 。 
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常数 关系 可 以 用 在 | | 内 列 出 它 的 元 组 来 表示 ， 例 如 | (22222, Einstein, Physics, 95000) , (76543, Singh, 
Finance, 80000) | 。 

关系 代数 中 一 般 的 表达 式 是 由 更 小 的 子 表达 式 构成 的 。 设 E, M E, 是 关系 代数 表达 式 ， 则 以 下 这 
些 都 是 关系 代数 表达 式 ， 

e E VE,, 

e E -E,. 

e E xE, 

eE) , EF P EE, 的 属性 上 的 谓词 。 

。 TIE), HP SHE, 中 某 些 属性 的 列表 。 

e p(k), HP r BE, 结果 的 新 名 字 。 
6. 1.3 附加 的 关系 代数 运算 

关系 代数 的 基本 运算 足以 表达 任何 关系 代数 查询 。 但 是 ， 如 果 我 们 把 自己 局 限于 基本 运算 ， 某 些 
常用 查询 表达 出 来 会 显得 宛 长 。 因 此 ， 我 们 定义 附加 的 一 些 运算 ， 它 们 不 能 增强 关系 代数 的 表达 能 力 ， 
却 可 以 简化 一 些 常 用 的 查询 。 对 每 个 新 运算 ， 我 们 给 出 一 个 只 采用 基本 运算 的 等 价 表达 式 。 

6.1.3.1 集合 交 运 算 

我 们 要 定义 的 第 一 个 附加 的 关系 代数 运算 是 集合 交 (intersection) (N); 假设 我 们 希望 找 出 在 2009 
年 秋季 和 2010 年 春季 都 开设 的 课程 。 使 用 集合 交 运 算 ， 我 们 可 以 写 为 

seat ( O semester =" Fall” A year = 2009 ( section) ) N Wnt © semester =" Spring" A year =2010 ( section) ) 

此 查询 产生 的 关系 如 图 6-13 所 示 。 
| courseid | 
CS-101 


图 6-13 在 2009 年 秋季 学 期 和 2010 年 春季 学 期 都 开设 的 课程 


请 注意 ， 任 何 使 用 了 集合 交 的 关系 代数 表达 式 ， 我 们 都 可 以 通过 用 一 对 集合 差 运算 替代 集合 交 运 
AKES, W FÉR: 

















rNs=r-(r-s) 
因此 ， 集 合 交 不 是 基本 运算 ， 不 能 增强 关系 代数 的 表达 能 力 。 只 不 过 写 rn s ES r -(r - *) 要 方便 。 
6.1.3.2 自然 连接 运算 

对 某 些 要 用 到 笛 卡 儿 积 的 查询 进行 简化 常常 是 我 们 需要 的 。 通 常情 况 下 ， 涉 及 笛 卡 儿 积 的 查询 中 
会 包含 一 个 对 笛 卡 儿 积 结果 进行 选择 的 运算 。 该 选择 运算 大 多 数 情况 下 会 要 求 进 行 笛 卡 儿 积 的 两 个 关 
系 在 所 有 相同 属性 上 的 值 相 一 致 。 

6.1.1.6 中 的 例子 把 表 instructor 和 teaches 的 信息 相 结 合 ， 匹 配 条 件 是 要 满足 instructor. ID 和 
teaches. ID 相等 。 在 这 两 个 关系 中 只 有 它们 有 相同 的 属性 名 。 

二 元 运算 自然 连接 使 得 我 们 可 以 将 某 些 选择 和 笛 卡 儿 积 运算 合并 为 一 个 运算 。 我 们 用 连接 (join ) 
符号 来 表示 它 。 自 然 连 接 运 算 首先 形成 它 的 两 个 参数 的 笛 卡 儿 积 ， 然 后 基于 两 个 关系 模式 中 都 出 现 
的 属性 上 的 相等 性 进行 选择 ， 最 后 还 要 去 除 重复 属性 。 回 到 关系 instructor 和 teaches 的 例子 中 ， 计 算 
instructor 和 teaches 的 自然 连接 时 ， 只 考虑 由 instructor 和 teaches 中 在 相同 属性 ID 上 有 相同 值 的 元 组 组 成 
的 元 组 对 。 结 果 关 系 如 图 6-14 所 示 ， 只 包含 13 个 元 组 ， 每 个 元 组 记录 了 某 个 教师 及 其 实际 教授 的 一 
门 课程 的 信息 。 注 意 ， 我 们 并 不 重复 记录 那些 在 两 个 关系 的 模式 中 都 出 现 的 属性 。 还 要 注意 所 列 出 的 
属性 的 顺序 : 排 在 最 前 面 的 是 两 个 关系 模式 的 相同 属性 ， 其 次 是 只 属于 第 一 个 关系 模式 的 属性 ， 最 后 
是 只 属于 第 二 个 关系 模式 的 属性 。 

尽管 自然 连接 的 定义 很 复杂 ， 这 种 运算 使 用 起 来 却 很 方便 。 举 例 来 说 ， 考 虑 一 下 查询 “ 找 出 所 有 教 
师 的 姓名 ， 连 同 他 们 教 的 所 有 课程 的 course_id”。 用 自然 连接 我 们 可 以 将 此 查询 表述 如 下 : 


TT name course ig ( instructor M teaches ) 
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ID |name ldeptname | salary | Course_id | secid| semester | year 
10101 | Srinivasan | Comp. Sci. ]65000/CS-101 | 1 {Fall 12009 | 
| 10101 | Srinivasan | Comp. Sci. | 65000 | CS-315 1 |Spring |2010| 
| 10101 | Srinivasan | Comp. Sci.| 65000 Cs-347 ， 1 |Fall 2009 | 
12121 | Wu Finance |90000 FIN-201 1 |Spring 2010 
15151 | Mozart Music 40000 | MU-199 | 1 |Spring |2010 
22222 | Einstein | Physics 95000 | PHY-101 1 |Fall 2009 | 
| 32343 | El Said History 60000 | HIS-351 1 [Spring 2010| 
| 45565 | Katz Comp. Sci. | 75000 | CS-101 1 [Spring 2010 
45565 | Katz Comp. Sci. | 75000 | CS-319 1 |Spring |2010) 
76766 | Crick Biology “|72000| BIO-101 | 1 |Summer |2009 
76766 | Crick Biology |72000 | B1O-301 | 1 |Summer 2010 
| 83821 | Brandt Comp. Sci. | 92000 CS-190 1 |Spring 2009 | 
83821 | Brandt Comp. Sci. | 92000 | CS-190 2 |Spring 2009| 
83821 | Brandt Comp. Sci. | 92000 | Cs-319 2 |Spring |2010 | 
98345|Kim _| Elec. Eng. [80000 EF-181 | 1 [Spring |2009] 




















图 6-14 关系 instructor 同 teaches 进行 自然 连接 的 结果 


由 于 instructor 和 teaches 的 模式 中 具有 相同 属性 ID, ARERR ASE ID 上 值 相同 的 元 组 对 。 它 
将 每 个 这 样 的 元 组 对 合并 为 单一 的 元 组 ， 其 模式 为 两 个 模式 的 并 ,， 即 (1D, name,， dept_name，salary， 








course_id) 。 在 执行 投影 后 ， 我 们 得 到 的 关系 如 图 6-15 所 示 。 name courseid 
考虑 两 个 关系 模式 尺 和 5， 当然， 它们 都 是 属性 名 的 一 个 列表 。 Srinivasan | CS-101 | 
如 果 我 们 认为 模式 是 集合 而 不 是 列表 ， 我 们 可 以 用 Rn $ 表示 同时 | Srinivasan) 53-315 
出 现在 尺 和 S 中 的 那些 属性 名 ， 用 RUS 表示 出 现在 尺 中 或 5 中 或 We INGOT 
在 二 者 中 都 出 现 的 那些 属性 名 。 类 似 地 ， 出 现在 R 中 而 不 出 现在 5 | Einstein | PHY-101 
PER HR -S 表示 ， 出 现在 5 中 而 不 出 现在 R 中 的 属性 名 用 hoe, [ieee 
$ -有 R 表 示 。 请 注意 这 里 的 并 、 交 、 差 运算 都 是 属性 的 集合 上 的 ， | Katz cs319 
而 不 是 关系 上 的 。 eeo 
我 们 现在 就 可 以 给 出 自然 连接 的 形式 化 定义 。 设 r(R) 和 s(5) Brandt | cs-190 
是 两 个 关系 。r 和 s 的 自然 连接 ( natural join) 表示 为 + As, ER R Sigal bi 











U S 上 的 一 个 关系 ， 其 形式 化 定义 如 下 : 
r` s= Dts CF aa EE E E ET E T O SA 9 xs)) 
HP RAS= |A, 4, 0, Ato 
请 注意 如 果 关 系 r(R) 和 s(5) 不 含有 任何 相同 属性 , BRNA S = 名 ,那么 r+ Ms=rxs。 
这 里 再 给 出 一 个 使 用 自然 连接 的 例子 ， 写 查询 “ 找 出 计算 机 系 (Comp. Sci. ) 的 所 有 教师 ， 以 及 他 们 
教授 的 所 有 课程 的 名 称 ”。 
TT name tiste ( O dept. name = "Comp. sei» ( instructor MW teaches D course) ) 
此 查询 的 结果 关系 如 图 6-16 所 示 。 
| name | title 


AHE Meni 
(instructor M teaches) 的 结果 

















Brandt Game Design 
Brandt Image Processing 
Katz Image Processing 
Katz | Intro. to Computer Science 
Srinivasan | Intro. to Computer Science 
Srinivasan | Robotics 

| Srinivasan | Database System Concepts 





FH 6-16 TI name titie ( O dept name = "Comp. Sei" ( instructor DI teaches course)) 的 结果 
注意 上 式 中 我 们 在 instructor X teaches M course 中 没有 加 入 括号 来 表明 自然 连接 在 这 三 个 关系 间 执 行 
的 顺序 。 上 述 情况 下 有 两 种 可 能 : 


(instructor MK teaches) MK course 
instructor M ( teaches course) 
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我 们 没有 说 明 我 们 希望 的 是 哪个 表达 式 ， 因 为 二 者 是 等 价 的 。 也 就 是 说 ， 自 然 连 接 是 可 结合 的 
(associative ) 。 

theta 连接 是 自然 连接 的 扩展 ， 它 使 得 我 们 可 以 把 一 个 选择 运算 和 一 个 笛 卡 儿 积 运算 合并 为 单独 的 
一 个 运算 。 考 虑 关系 r(R) Al s(S), Fik 9 是 模式 R U S 的 属性 上 的 谓词 ， 则 theta 连接 ( theta join) iz 
算 r Xes 定义 如 下 : 


res = oo(rxs) 


6.1.3.3 赋值 运算 
有 时 通过 给 临时 关系 变量 赋值 的 方法 来 写 关系 代数 表达 式 会 很 方便 。 赋 值 ( assignment ) 运算 用 一 表 
示 ， 与 程序 语言 中 的 赋值 类 似 。 为 了 说 明 这 个 运算 ， 我 们 来 看 自然 连接 运算 的 定义 。 我 们 可 以 把 > 多， 
写作 : 
templ*—RxS 
tempO, A sr 4, Nr hss hh Ardsr a,(templ) 
result = [lrus (temp2) 


赋值 的 执行 不 会 使 得 把 某 个 关系 显示 给 用 户 看 ， 而 是 将 一 右 侧 的 表达 式 的 结果 赋 给 一 左 侧 的 关系 变量 。 
该 关系 变量 可 以 在 后 续 的 表达 式 中 使 用 。 

使 用 赋值 运算 ， 我 们 可 以 把 查询 表达 为 一 个 顺序 程序 ， 该 程序 由 一 系列 赋值 加 上 一 个 其 值 被 作为 
查询 结果 显示 的 表达 式 组 成 。 对 关系 代数 查询 而 言 ， 赋 值 必须 是 赋 给 一 个 临时 关系 变量 。 对 永久 关系 
的 赋值 形成 了 对 数据 库 的 修改 。 请 注意 ， 赋 值 运 算 不 能 增强 关系 代数 的 表达 能 力 ， 但 是 可 以 使 复杂 查 
询 的 表达 变 得 简单 。 

6. 1.3.4 外 连接 运算 

外 连接 (outer-join) 运 算是 连接 运算 的 扩展 ， 可 以 处 理 缺 失 的 信息 。 假 设 有 一 些 教师 不 教 课 。 那 么 
关系 instructor( 图 6-1) 中 这 些 教师 对 应 的 元 组 将 不 满足 与 关系 teaches( 图 6-7) 进 行 自然 连接 的 条 件 ， 所 
以 在 图 6-14 所 示 的 自然 连接 的 结果 中 找 不 到 他 们 的 数据 。 以 教师 Califieri, Cold 和 Singh 为 例 ， 因 为 他 
们 不 教 课 ， 所 以 就 不 会 出 现在 自然 连接 的 结果 中 。 

更 一 般 地 ， 参 加 连接 的 一 个 或 两 个 关系 中 的 某 些 元 组 可 能 会 这 样 地 “丢失 ” 。 外 连接 ( outer join) iZ 
算 与 前 面 学 过 的 自然 连接 运算 比较 类 似 ， 不同 之 处 在 于 它 在 结果 中 创建 带 空 值 的 元 组 ， 以 此 来 保留 在 
连接 中 丢失 的 那些 元 组 。 

我 们 可 以 用 外 连接 运算 来 避免 上 述 的 信息 丢失 。 外 连接 运算 有 三 种 形式 : Ahti, HAKER; 右 外 
iti, ERR; 全 外 连接 ， 用 了 DC 表示 。 这 三 种 形式 的 外 连接 都 要 计算 连接 ， 然 后 在 连接 结果 中 添加 额外 
的 元 组 。 例 如 ， 表 达 式 instructor IX teaches 和 teaches XC instructor 的 结果 分 别 如 图 6-17 和 图 6-18 所 示 。 

1D [name [dept- name |salary|courseid|secid | semester | year | 


10101 | Srinivasan | Comp. Sci.[65000/CS-101 | 1 [Fall 12009) 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-315 1 {Spring |2010 
10101 | Srinivasan | Comp. Sci. | 65000 | CS-347 1 ‘| Fall 2009 
12121 | Wu Finance |90000 | FIN-201 | 1 [Spring |2010| 

1 

1 

1 











15151 | Mozart Music 40000 | MU-199 Spring |2010 
22222 | Einstein | Physics |95000 | PHY-101 Fall 2009 





32343 |El Said | History | 60000 | HIS-351 Spring |2010 
33456 | Gold Physics 87000 | null null | null null 
45565 | Katz Comp. Sci. | 75000 | CS-101 1 |Spring |2010 
45565 | Katz Comp. Sci. | 75000 | CS-319 1 |Spring |2010| 
58583 | Califieri | History 62000 | null null | null null | 
76543 | Singh Finance =| 80000 null null | null null | 
76766 | Crick Biology 72000 | BIO-101 | 1 | Summer | 2009 | 
76766 | Crick Biology —_| 72000 | BIO-301 Summer |2010 | 


1 

83821 | Brandt |Comp. Sci. | 92000 |Cs-190 | 1 |Spring |2009 
83821 | Brandt Comp. Sci. (92000 | CS-190 | 2 |Spring |2009 
83821 | Brandt Comp. Sci. | 92000 | CS-319 2 |Spring |2010 
98345 | Kim Elec. Eng. |80000 | EE-181 1 |Spring |2009] 





























图 6-17 instructor DX teaches 的 结果 
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234 





| ID | course i semester | year | name me- | salary | 
Fall 2009 | Srinivasan | Comp. Sci. | 65000 
Spring |2010 | Srinivasan | Comp. Sci. | 65000 











1 

1 
10101 |cs-347 | 1 |Fall  |2009) Srinivasan | Comp. Sci. | 65000 | 
12121 | FIN-201 1 |Spring |2010| Wu Finance 90000 | 
15151|MU-199 | 1 (Spring | 2010) Mozart Music | 40000 | 
22222 | PHY-101| 1 | Fall 2009 | Einstein | Physics | 95000 
32343 | HIS-351 1 |Spring |2010|ElSaid |History | 60000 
33456 | null null | null null | Gold |Physics | 87000 
45565 | CS-101 1 |Spring | 2010) Katz Comp. Sci. | 75000 
45565)CS-319 | 1 Spring | 2010 | Katz Comp. Sci. | 75000 
58583 | null | null | null null |Califieri | History | 62000 
76543 | null null | null null | Singh Finance =| 80000 
76766 |BIO-101 | 1 {Summer |2009 | Crick Biology 72000 | 


1 [Summer | 2010 | Crick Biology | 72000 
1 |Spring |2009 Brandt  |Comp. Sci. 92000 
83821 | Cs-190 2 |Spring | 2009 | Brandt Comp. Sci. | 92000 
2 |Spring | 2010) Brandt Comp. Sci. | 92000 | 
1 [Spring | 2009| Kim | Elec. Eng. 80000 | 























图 6-18 teaches XL instructor 的 结果 


左 外 连接 (left outer join) (TX) 取出 左 侧 关 系 中 所 有 与 右 侧 关系 的 任 一 元 组 都 不 匹配 的 元 组 ， 用 空 
值 填充 所 有 来 自 右 侧 关系 的 属性 ， 再 把 产生 的 元 组 加 到 自然 连接 的 结果 中 。 图 6-17 中 ， 元 组 (58583 ， 
Califieri, History, 62000, null, null, null, null) 即 是 这 样 的 元 组 。 所 有 来 自 左 侧 关 系 的 信息 在 左 外 连 
接 结果 中 都 得 到 保留 。 

右 外 连接 ( right outer join) (XC) 与 左 外 连接 相对 称 : 用 空 值 填充 来 自 右 侧 关 系 的 所 有 与 左 侧 关系 的 
任 一 元 组 都 不 匹配 的 元 组 ， 将 结果 加 到 自然 连接 的 结果 中 。 图 6- 18 H, (58583, null, null, null, 
null, Califieri, History, 62000) 即 是 这 样 的 元 组 。 因 此 ， 所 有 来 自 右 侧 关 系 的 信息 在 右 外 连接 结果 中 都 
得 到 保留 。 

全 外 连接 (full outer join) ( JC) 既 做 左 外 连接 又 做 右 外 连接 ， 既 填充 左 侧 关 系 中 与 右 侧 关系 的 任 一 
元 组 都 不 匹配 的 元 组 ， 又 填充 右 侧 关系 中 与 左 侧 关 系 的 任 一 元 组 都 不 匹配 的 元 组 ， 并 把 结果 都 加 到 连 
接 的 结果 中 。 

注意 ， 从 左 外 连接 的 例子 到 右 外 连接 的 例子 , 我 们 交换 了 运算 对 象 的 顺序 。 这 样 它们 都 保留 了 
instructor 的 元 组 ， 因 此 包含 相同 的 内 容 。 对 于 我 们 的 示例 关系 ，teaches 的 元 组 在 instructor 中 总 能 找到 与 
之 对 应 的 元 组 ， 所 以 teaches DX instructor 与 teaches instructor 产生 的 结果 是 一 样 的 。 如 果 在 teaches 中 有 元 
组 在 instructor 中 找 不 到 对 应 元 组 ， 该 元 组 将 会 出 现在 teaches D4 instructor 的 结果 以 及 teaches DE instructor 
的 结果 中 ， 所 默认 的 部 分 用 空 值 填充 。 外 连接 的 更 多 例子 (以 SQL 语法 表达 ) 请 参考 4. 1.2 节 。 

由 于 外 连接 可 能 产生 含有 空 值 的 结果 ， 我 们 需要 了 解 不 同 的 关系 代数 运算 是 如 何 处 理 空 值 的 。3. 6 
节 涉 及 SQL 环境 中 的 这 个 问题 。 相 同 的 概念 也 适用 于 关系 代数 的 情况 ， 我 们 在 这 里 不 再 缆 述 。 

请 注意 ， 很 有 趣 的 是 外 连接 运算 可 以 用 基本 关系 代数 运算 表示 。 例 如 ， 左 连接 运算 r Xs 可 以 写成 : 

(r™s)U(r - ICrMs) ) x { (null, ---, null) | 

其 中 常数 关系 | (null, +, null) | 的 模式 是 5S -RR。 
6.1.4 扩展 的 关系 代数 运算 

我 们 现在 来 介绍 另外 几 个 关系 代数 运算 ， 它 们 可 以 实现 一 些 不 能 用 基本 的 关系 代数 运算 来 表达 的 
查询 。 这 些 运算 被 称 为 扩展 的 关系 代数 ( extended relational- algebra ) 运算 。 

6.1.4.1 广义 投影 

第 一 个 运算 是 广义 投影 ( generalized- projection) ， 它 通过 允许 在 投影 列表 中 使 用 算术 运算 和 字符 串 
函数 等 来 对 投影 进行 扩展 。 广 义 投 影 运 算 形式 为 : 

Mrr (E) 

其 中 E ERFEXRRARAA, MF, FL. 0, F, 中 的 每 一 个 都 是 涉及 常量 以 及 五 的 模式 中 属性 的 算 
术 表 达 式 。 最 基本 的 情况 下 算术 表达 式 可 以 仅仅 是 一 个 属性 或 常量 。 通 常 来 说 ， 在 表达 式 中 可 以 使 用 
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对 数值 属性 或 者 产生 数值 结果 的 表达 式 的 + 、- 、* 、/ 等 代数 运算 。 广 义 投影 还 允许 其 他 数据 类 型 上 
的 运算 ， 比 如 对 字符 串 的 串 接 。 

例如 ， 表 达 式 : 

机 二 instructor ) 

可 以 得 到 每 个 教师 的 ID, name, dept_name 以 及 每 月 的 工资 。 

6.1.4.2 聚集 

第 二 个 扩展 的 关系 代数 运算 是 聚集 运算 9 ， 可 以 用 来 对 值 的 集合 使 用 聚集 函数 ， 例 如 计算 最 小 值 
或 者 求 平均 值 。 

聚集 函数 (aggregate function) 输 入 值 的 一 个 汇集 ， 将 单一 值 作 为 结果 返回 。 例 如 ， 聚 集 函 数 sum 输 
入 值 的 一 个 汇集 ， 返 回 这 些 值 的 和 。 因 此 ,将 函数 sum 用 于 汇集 

i], 1; 3,-4,-4,, 114 


E, (RA 24, RRM avg B EAF, KAFERE, EAS, RHPA count 返回 汇集 
中 元 素 的 个 数 ， 对 上 述 汇集 将 返回 6。 除 此 之 外 ， 常 用 聚集 函数 还 有 min 和 max， 人 它们 分 别 返回 汇集 
中 的 最 小 值 和 最 大 值 ， 对 上 面 的 汇集 分 别 返 回 1 和 11。 

使 用 聚集 函数 对 其 进行 操作 的 汇集 中 ， 一 个 值 可 以 出 现 多 次 ， 值 出 现 的 顺序 是 无 关 紧 要 的 。 这 样 
的 汇集 称 为 多 重 集 ( multiset) 。 集 合 (set) 是 多 重 集 的 特例 ， 其 中 每 个 值 都 只 出 现 一 次 。 

我 们 用 关系 instructor 来 说 明 聚 集 的 概念 。 假 设 我 们 希望 找 出 所 有 教师 的 工资 总 和 ， 这 一 查询 的 关 
系 代 数 表达 式 为 : 

Gia. (salary) ( instructor ) 

符号 9 是 字母 G 的 书法 体 ; 读 作 “ 书 法 体 G”。 关 系 代数 运算 9 表示 聚集 将 被 应 用 ， 它 的 下 标 说 明 采 用 
的 聚集 运算 。 上 述 表达 式 的 结果 是 一 个 单一 属性 的 关系 ， 且 只 包含 单独 的 一 行 ， 其 值 表示 所 有 教师 的 
工资 总 和 。 

有 时 ， 在 计算 取 集 函数 前 我 们 必须 去 除 重复 值 。 如 果 我 们 想 去 除 重复 ,我 们 仍然 使 用 前 面 的 函数 
名 ,但 用 连 字 符 将 “distinet” 附加 在 函数 名 后 (如 count-distinct) 。 以 查询 “ 找 出 在 2010 年 春季 学 期 教 课 
的 教师 数 ” 为 例 。 在 这 里 ， 每 名 教师 只 应 计算 一 次 ， 而 不 管 他 教 了 几 门 课程 。 关 系 teaches 包含 了 所 需 
































的 信息 ， 所 以 我 们 把 此 查询 表达 如 下 : [1D | mame dept name | salary 
SR h 76766 | Crick Biology 72000 | 

Gm. ninat 0) (Fee = "spag Aur amo ( teaches) ) 45565 | Katz | Comp. Sci. | 75000 

count-distinct 可 以 | 立 教 | i cee 10101 | Srinivasan | Comp. Sci. | 65000 

FEAR AL . 确保 : 即使 某 位 教师 授课 多 于 83821 | Brandt Comp. Sci，| 92000 

门 ， 在 结果 中 也 只 对 他 计数 一 次 。 98345 | Kim Elec. Eng. | 80000 

有 时 候 我 们 希望 对 一 组 元 组 集合 而 不 是 单个 元 组 集合 执 aoe Singh ate ny 

行 聚 集 函数 。 作 为 示例 ， 考 虑 查询 " 求 出 每 个 系 的 平均 工资 " 。 [37313 | ElSaid | History | 60000 

y ` 3 58583 | Califieri History 62000 

我 们 把 此 查询 表达 如 下 ; 15151 | Mozart Music | 40000 

dep name F average satery) ( instructor ) 33456 | Gold Physics 87000 

22222 | Einstein Physics 95000 

















图 6-19 显示 了 通过 dept_name 属性 对 关系 instructor 进行 
分 组 得 到 的 元 组 ， 这 是 计算 查询 结果 的 第 一 步 。 然 后 对 每 个 ”四 6 1” LAHE depne AK 
组 执行 指定 的 聚集 ， 查 询 结果 如 图 6-20 所 示 。 instructor 分 组 后 的 元 组 
| dept_name | salary | 


Biology 72000 
Comp. Sci. | 77333 
Elec. Eng. | 80000 
Finance 85000 
History 61000 
Music 40000 
Physics | 91000 


图 6-20 查询 “ 求 出 每 个 系 的 平均 工资 "的 结果 关系 
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作为 对 比 ， 对 于 查询 * 求 出 所 有 教师 的 平均 工资 "， 我 们 可 以 如 下 表达 : 
Gnn alan) ( instructor ) 


此 时 ， 从 运算 符 G 的 左边 去 掉 了 属性 dept_name， 这 样 一 来 整个 关系 就 被 当 作 单 个 组 来 执行 聚集 。 


多 重 集 关系 代数 

与 关系 代数 不 同 的 是 ，SQL 允许 在 输入 关系 以 及 查询 结果 中 存在 元 组 的 多 重 拷贝 。SQL 标准 做 
了 如 下 定义 : 在 一 个 查询 的 输出 结果 中 每 个 元 组 有 多 少 个 拷贝 取决 于 所 对 应 的 元 组 在 输入 关系 中 的 
拷贝 个 数 。 

为 了 映射 SQL 的 这 种 模式 ， 我 们 定义 了 一 种 被 称 为 多 重 集 关 系 代数 ( multiset relational algebra) 
的 关系 代数 版 本 来 对 多 重 集 ( 即 存在 重复 的 集合 ) 进行 操 作 。 多 重 集 关 系 代 数 的 基本 运算 有 如 下 
定义 : 

1. 如 果 在 六 中 元 组 三 有 el MEN, HEt 满足 选择 ou， 那么 在 ov(m ) 中 元 组 ti Ac, HR, 

2. 对 于 六 中 元 组 ti 的 每 份 拷 贝 ， AML.) 中 都 有 一 个 与 之 对 应 的 IJ ( 二 )，IT, (三 ) 表 示 单 个 元 
Ht, 的 投影 。 

3. wREr, 中 元 组 ti Ae, PHN, Ar, PAM Ae, PHN, MALE xr, 中 就 有 元 组 4. 1 
的 ci *c, PHM, 

例如 ， 假 设 关系 ri RARA, B), n 的 模式 是 (C)， 它 们 是 如 下 的 多 重 集 : 

r={(1, a), (2, a)}, n=1(2), (3), (3)} 
那么 IMC) 就 得 到 | (a), (a)}, 而 Maln) xr, HARE 
{(a, 2), (a, 2), (a, 3), (a, 3), (a, 3), (a, 3)} 

按照 SQL 中 的 相应 含义 ( 见 3.5 节 )， 我 们 还 可 以 用 相似 的 方法 来 定义 多 重 集 的 并 、 交 以 及 集合 

差 运算 。 而 对 于 聚集 运算 来 说 ， 在 多 重 集 下 的 定义 并 没有 什么 变化 。 


聚集 运算 (aggregation operation )G 通 常 的 形式 如 下 : 
6.65, 6,9 FA) FA) rana (E) 
其 中 五 是 任意 关系 代数 表达 式 ，C, ，G6,，…，G, 是 用 于 分 组 的 一 系列 属性 ; BPP ARERR, 
每 个 A 是 一 个 属性 名 。 运 算 的 含义 如 下 ， 表 达 式 E 的 结果 中 元 组 以 如 下 方式 被 分 成 若干 组 : 
1. 同一 组 中 所 有 元 组 在 6, ，G,，…，G, 上 的 值 相同 。 
236 2. 不 同 组 中 元 组 在 C ，G,，…，G, 上 的 值 不 同 。 
aan 因此 ,各 组 可 以 用 属性 Cl CG, +, G, 上 的 值 来 唯一 标识 。 对 每 个 组 (g, ，g;，…，g&, ) 来 说 ， 结 果 中 
有 一 个 元 组 (8 ，g, ，…，&g,，aQ1，Q;，*…，a。) ， 其 中 对 每 个 i，a; 是 将 聚集 函数 F, 作用 于 该 组 的 属性 
A, 上 的 多 重 值 集 所 得 到 的 结果 。 
作为 聚集 运算 的 特例 ， 属 性 列 G, G, =, C 可 以 是 空 的 ， 在 这 种 情况 下 ， 会 有 唯一 一 组 包含 关 
系 中 所 有 的 元 组 。 这 相当 于 没有 分 组 。 


SQL 与 关系 代数 
通过 关系 代数 运算 和 SQL 运算 的 比较 ， 可 以 清楚 地 看 到 二 者 之 间 联 系 紧 密 。 典 型 的 SQL 查询 样 
式 如 下 : 
select A,, A,, =, A, 
from r,, r,, +t, Tn 
where P 
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BA, 表示 一 个 属性 ， 每 个 六 代表 一 个 关系 。 已 表示 一 个 谓词 。 这 个 查询 等 价 于 多 重 集 关 系 代 数 表 
KKK: 
Maau Ce Xr, X Xr,,)) 
如 果 省 略 掉 where 子 句 ， 那 么 谓词 尸 就 是 true, 
更 复杂 的 SQL 查询 也 可 以 用 关系 代数 来 重 写 。 例 如 ， 查 询 : 
select A, , A,, sum(A, ) 
from r,,7,,..- 47 
where P 
group by A, , A, 


等 价 于 : 

4a Gassing ( Haasa foe xm x…Xxrn))) 
from 子 句 中 的 连接 表达 式 可 以 用 关系 代数 中 与 之 等 价 的 连接 表达 式 来 写 ; 我 们 把 详细 内 容留 给 读者 
作为 练习 。 然 而 where 或 者 select 子 句 中 的 子 查询 却 不 能 像 这 样 直接 用 关系 代数 来 重 写 ， 这 是 因为 
默认 与 子 查询 结构 等 价 的 关系 代数 运算 。 为 了 解决 这 个 问题 ， 有 人 提出 了 对 关系 代数 的 扩展 ， 但 是 
这 些 内 容 不 在 本 书 讨论 范围 之 内 。 


6.2 元 组 关系 演算 


当 书 写 关 系 代 数 表达 式 时 ， 提 供 了 产生 查询 结果 的 过 程序 列 ， 这 个 序列 能 生成 查询 的 答案 。 与 之 
相 比 ， 元 组 关系 演算 是 非 过 程 化 的 (nonprocedural) 查询 语言 。 它 只 描述 所 需 信 息 ， 而 不 给 出 获得 该 信 
息 的 具体 过 程 。 

元 组 关系 演算 中 的 查询 表达 为 : 

{zl P(2)! [2391 
也 就 是 说 ， 它 是 所 有 使 谓词 P 为 真 的 元 组 t 的 集合 。 和 前 面 的 记 法 一 样 ， 我 们 用 A) 表示 元 组 i 在 属 
性 4 上 的 值 ， 并 用 ter 表示 元 组 i 在 关系 7 中。 
在 给 出 元 组 关系 演算 的 形式 化 定义 之 前 ,我 们 先 回头 看 几 个 在 6. 1.1 节 中 我 们 用 关系 代数 表达 式 
书写 过 的 查询 。 
6.2.1 查询 示例 
我 们 和 希望 找 出 所 有 工资 在 80 000 美元 以 上 的 教师 的 ID. name, dept_name 和 salary ; 
lil te instructor À t| salary] > 80000} 


假设 我 们 只 需要 ID 属性 ， 而 不 是 关系 instructor 的 所 有 属性 。 为 了 用 元 组 关系 演算 来 书写 这 个 查 

W, 我们 需要 为 模式 (1D) 上 的 关系 写 一 个 表达 式 。 我 们 需要 ( 1D) 上 在 instructor 中 对 应 元 组 的 属性 

salary > 80 000 的 那些 元 组 。 为 了 表述 这 样 的 要 求 ， 我 们 需要 引入 数理 逻辑 中 的 "存在 "这 一 结构 。 记 法 
Jt e r(Q)) 


表示 “关系 r 中 存在 元 组 i 使 谓词 0(1) 为 真 ”。 
用 这 种 记 法 ， 我 们 可 以 将 查询 “ 找 出 工资 大 于 80 000 美元 的 所 有 教师 的 万" 表述 为 : 
{tl ds e instructor(t{[ ID] = s[ID] A s[ salary] > 80000)} 


我 们 可 以 这 样 来 读 上 述 表 达 式 :“ 它 是 所 有 满足 如 下 条 件 的 元 组 上 的 集合 : 在 关系 instructor 中 存在 元 组 
s 使 :和 ;在 属性 ID 上 的 值 相等 ， 且 ;在 属性 salary 上 的 值 大 于 80 000 美元 ”。 

元 组 变量 上 只 定义 在 ID 属性 上 ,因为 这 一 属性 是 对 上 进行 限制 的 条 件 所 涉及 的 唯一 属性 。 因 此 ， 
ARISE OD) 上 的 关系 。 

考虑 查询 “ 找 出 位 置 在 Watson 楼 的 系 中 的 所 有 教师 姓名 ”。 这 个 查询 比 前 一 个 稍微 复杂 一 些 ， 因 为 
它 涉及 instructor 和 department 两 个 关系 。 但 是 ， 正 如 我 们 将 看 到 的 一 样 ， 所 需 的 只 不 过 是 在 元 组 关系 
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演算 表达 式 中 使 用 两 个 “存在 " 子 句 ， 并 通过 and( 和 ) 把 它们 连接 起 来 。 我 们 将 此 查询 表述 如 下 : 


{tl Js e instructor(t[name| = s| name | 
A Ju e department( u| depi_name]} = s[ dept_name | 
240 A ul building] =" Watson" ) ) | 


元 组 变量 v 保证 该 系 位 于 Watson 楼 ， 元 组 变量 s 被 限制 到 与 v 的 dept_name 相同 。 查 询 产生 的 结果 如 
图 6-21 所 示 。 























为 了 找 出 在 2009 年 秋季 学 期 或 者 2010 年 春季 学 期 或 者 这 两 个 学 name 
期 都 开设 的 所 有 课程 的 集合 ， 我 们 在 关系 代数 中 使 用 了 并 运算 。 在 元 | 
组 关系 演算 中 ， 我 们 将 用 到 用 or( V ) 连 接 的 两 个 “存在 " 子 句 : | God | 
{tl ds e section(t{ course_id] = s{ course_id] ) ae 
A s[ semester] ="Fall” A s[ year] = 2009) 图 6-21 位 置 在 Watson 
V du e section( u| course_id] = t| course_id} ) 楼 的 系 中 的 所 
A ul semester] ="Spring" A ul year] = 2010) } 有 教师 姓名 
此 表达 式 给 出 所 有 至 少 满足 下 面 两 个 条 件 之 一 的 course_id 元 组 的 


集合 : 

e 在 关系 section 中 满足 semeter = Fall H. year =2009 的 某 个 元 组 包含 该 course_id。 

© 在 关系 section 中 满足 semeter = Spring H. year =2010 的 某 个 元 组 包含 该 course_id。 

如 果 同 一 门 课 在 2009 年 秋季 和 2010 年 春季 学 期 都 开课 ， 那 么 它 的 course_id 在 结果 中 也 只 出 现 一 
次 ， 因 为 集合 的 数学 定义 不 允许 重复 成 员 。 此 查询 的 结果 已 在 前 面 的 图 6-5 中 展示 。 

假设 我 们 现在 只 想 找到 那些 在 2009 年 秋季 和 2010 年 春季 学 期 都 开设 的 课程 的 course_id， 所 需 做 的 
只 不 过 是 把 上 述 表 达 式 中 的 or( V ) 用 and( A) 替代 。 


{tl ds e section(t[ course_id] = s[ course_id | ) 
A s[ semester] ="Fall” A s[ year] = 2009) 
A du e section( ul course_id| = t[ course_id] ) 
A ul semester] =" Spring" A u[ year] = 2010) | 


此 查询 结果 如 图 6-13 所 示 。 
现在 考虑 查询 “ 找 出 2009 年 秋季 学 期 开设 而 2010 年 春季 学 期 不 开 的 所 有 课程 ”。 这 一 查询 的 元 组 
关系 演算 表达 式 同上 面 的 表达 式 类 似 ， 只 是 使 用 了 nt 符号 ; 


{tl 4s e section( t| course_id] = s[course_id]) 

A s[semester] ="Fall" A s[year] = 2009) 
A7 Ju e section(ul course_id| = t| course_id | ) 

A ul semester] ="Spring" A u[ year] = 2010) | 


这 个 元 组 关系 演算 表达 式 用 Js e section(…) 子 句 来 要 求 该 course_id 开设 在 2009 年 秋季 学 期 ， 用 
“Ju e section(…) 子 句 来 去 掉 那 些 作 为 在 2010 年 春季 学 期 开设 的 课程 出 现在 关系 section 中 的 course_id., 

下 面 我 们 要 考虑 的 查询 将 用 到 蕴含 , 用 一 表示。 公式 PP 一 0 表示 “P 蕴含 0”， 即 “如 果 P 为 真 ， 
则 @ 必然 为 真 " 。 忆 0 逻辑 上 等 价 于 ”PVAQ 。 用 蕴含 而 不 是 not 和 or 常常 可 以 更 直观 地 表达 查询 。 

我 们 来 看 这 样 一 个 查询 :“ 找 出 所 有 那些 选 了 生物 ( Biology) 系 全 部 课程 的 学 生 ”。 为 了 用 元 组 关系 
演算 书写 此 查询 ， 我 们 引信“ 对 所 有 的 "结构 ， 用 OV 表示 。 记 法 

Vt e r(Q(t)) 

表示 “对 关系 上 > 中 所 有 元 组 上 ，Q@ 均 为 真 ”。 

此 查询 的 表达 式 如 下 : 


{tldr e student(r[ ID] = t[1D]) A 
Vu e course( ul dept_name] =" Biology" = 
Js e takes(t[ID] = s[ ID] 
A s[ course_id] = ul course_id] ) ) | 
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我 们 可 以 这 样 来 读 上 述 表 达 式 :“ 它 是 所 有 满足 如 下 条 件 的 学 生 ( 即 (1D) 上 的 元 组 1) 的 集合 : 对 关系 
course 中 所 有 的 元 组 w， 如 果 在 dept_name 属性 上 的 值 是 “Biology” ， 那 么 在 关系 takes 中 一 定 存在 一 个 
包含 该 学 生 ID 以 及 该 课程 course_id 的 元 组 ”。 
注意 上 述 查 询 中 有 一 点 很 微妙 : 如 果 生 物 系 没有 开设 任何 课程 ， 则 所 有 的 学 生 ID 都 满足 条 件 。 在 
这 种 情况 下 ， 上 述 查 询 表 达 式 的 第 一 行 非常 关键 。 如 果 没 有 条 件 : 
dr e student(r[ ID] = t[1ID]) 
那么 若 生 物 系 没有 课程 ， 则 任何 一 个 上 值 ( 包 括 不 是 关系 student 里 学 生 ID 的 值 ) 都 会 符合 要 求 。 
6.2.2 形式 化 定义 
我 们 现在 可 以 给 出 形式 化 定义 了 。 元 组 关系 演算 表达 式 具 有 如 下 形式 : 
{21P(2)| 
其 中 尸 是 一 个 公式 。 公 式 中 可 以 出 现 多 个 元 组 变量 。 如 果 元 组 变量 不 被 INV 修饰 ， 则 称 为 自由 变 
=, A, Æ 
t e instructor 人 4s e department(t| dept_name} = sl[ dept_name | ) 
中 , t 是 自由 变量 ,而 元 组 变量 s 称 为 受 限 变量 。 
元 组 关系 演算 的 公式 由 原子 构成 。 原 子 可 以 是 如 下 的 形式 之 一 : 
e ser, EF s 是 元 组 变量 而 7 是 关系 (我 们 不 允许 使 用 ¢ 运算 符 ) 。 
e s[x] @u[y]， 其 中 s 和 ww 是 元 组 变量 , x 是 * 所 基于 的 关系 模式 中 的 一 个 属性 ，y Æ u 所 基于 的 
关系 模式 中 的 一 个 属性 , @ 是 比较 运算 符 ( <<, <, =, #, >, =); 我 们 要 求 属性 x* 和 y 所 
属 域 的 成 员 能 用 @ 比较 。 
e s(x] Oc, HH s ETHER, x 是 s 所 基于 的 关系 模式 中 的 一 个 属性 , 9 是 比较 运算 符 ,c 是 属 
性 x 所属 域 中 的 常量 。 
我 们 根据 如 下 规则 ， 用 原子 构造 公式 : 
。 原子 是 公式 。 
。 MRP, EAR, BAP, A (P) 也 都 是 公式 。 
e WẸ P, MP, BAK, BAP, VPP, AP, APP, 也 都 是 公式 。 
。 如 果 Pi(s) 是 包含 自由 元 组 变量 ; WAR, Ar BRA, M 
ds er(P,(s)) A Vs er(P,(s)) 
也 都 是 公式 。 
正如 关系 代数 中 一 样 ， 我 们 也 可 以 写 出 一 些 形 式 上 不 一 样 的 等 价 表达 式 。 在 元 组 关系 演算 中 ， 这 
种 等 价 性 包括 如 下 三 条 规则 : 
1. P, A P, SOF “-CP,) V CP2)) o 
2. Vt er(P,(t)) SFA dt e r(“P,(t)). 
3. P,=>P, WFP) V Pao 
6.2.3 表达 式 的 安全 性 
最 后 还 要 讨论 一 个 问题 。 元 组 关系 演算 表达 式 可 能 产生 一 个 无 限 的 关系 。 例 如 如 果 我 们 写 出 表 
达 式 
ftl 7(t e instructor) | 
不 在 instructor 中 的 元 组 有 无 限 多 个 ， 大 多 数 这 样 的 元 组 所 包含 的 值 甚至 根本 不 在 数据 库 中 ! 显然 ,我 
们 不 希望 有 这 样 的 表达 式 。 
为 了 帮助 我 们 对 元 组 关系 演算 进行 限制 ， 引 入 了 元 组 关系 公式 书 的 域 ( domain ) 这 一 概念 。 直 观 地 
Bi, P 的 域 ( 用 dom(P) 表 示 ) 是 已 所 引用 的 所 有 值 的 集合 。 它 们 既 包括 P 自身 用 到 的 值 ， 又 包括 P 中 
涉及 的 关系 的 元 组 中 出 现 的 所 有 值 。 因 此 , P 的 域 是 P 中 显 式 出 现 的 值 及 名 称 出 现在 P 中 的 那些 关系 
的 所 有 值 的 集合 。 例 如 ，dom(te instructor 和 tLsalary] > 80 000) 是 包括 80 000 和 出 现在 instructor 中 的 所 
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有 值 的 集合 。 另 外 ，dom( 一 (te instructor) ) 是 instructor 中 出 现 的 所 有 值 的 集合 ， 因 为 关系 instructor FER 
达 式 中 出 现 。 

如 果 出 现在 表达 式 111P(1) | 结果 中 的 所 有 值 均 来 自 dom(P)， 则 我 们 说 表达 式 |1 | P(t) | BRS 
Wo KA |t (i e instructor) | 不安 全， 因为 dom( 一 (te instructor) ) 是 所 有 出 现在 instructor 中 的 值 的 集 
合 ， 但 是 很 可 能 有 某 个 不 在 instructor 中 的 元 组 : ， 它 包含 不 在 instructor 中 出 现 的 值 。 我 们 在 这 一 节 中 
所 写 的 其 他 元 组 关系 演算 表达 式 都 是 安全 的 。 

(R |t 1 一 (te instructor) | 这样 的 不 安全 表达 式 中 的 元 组 个 数 是 无 限 的 ， 而 安全 的 表达 式 一 定 包含 有 
限 的 结果 。 因 此 我 们 限定 只 有 那些 安全 的 元 组 关系 演算 表达 式 才 被 认为 是 允许 的 。 

6.2.4 语言 的 表达 能 力 

限制 在 安全 表达 式 范 围 内 的 元 组 关系 演算 和 基本 关系 代数 (包括 运算 符 U、- 、x、ac、II 和 p， 
但 是 没有 扩展 的 关系 代数 运算 符 ， 例 如 广义 投影 和 聚集 (5 ) ) 具有 相同 的 表达 能 力 。 因 此 ， 对 于 每 个 
只 运用 基本 操作 的 关系 代数 表达 式 ， 都 有 与 之 等 价 的 元 组 关系 演算 表达 式 ; 对 于 每 个 元 组 关系 演算 表 
达 式 ， 也 都 有 与 之 等 价 的 关系 代数 表达 式 。 我 们 在 此 不 证 明 这 个 断言 ， 文 献 注解 中 有 关于 此 证 明 的 参 
考 资 料 。 在 习题 里 包含 了 部 分 的 证 明 。 注 意 ， 没 有 任何 一 个 元 组 关系 演算 等 价 于 聚集 运算 ， 但 是 可 以 
对 它 进 行 扩展 以 支持 聚集 。 扩 展 元 组 关系 演算 来 处 理 算术 表达 式 是 很 简单 的 。 


6.3 域 关 系 演算 


关系 演算 的 另 一 种 形式 称 为 域 关系 演算 (domain relational calculus) ， 使 用 从 属性 域 中 取 值 的 域 变 
量 ， 而 不 是 整个 元 组 的 值 。 尽 管 如 此 ， 域 关系 演算 同 元 组 关系 演算 联系 紧密 。 

就 像 关系 代数 是 SQL 语言 的 基础 一 样 ， 域 关系 演算 是 被 广泛 采用 的 QBE 语言 (参考 附录 B. 1 ) 的 理 
论 基 础 。 
6.3.1 形式 化 定义 

域 关 系 演算 中 的 表达 式 形式 如 下 : 

1 SX hy, 2 om. S| PGR, F A, 

其 中 x, ，x,，…， x, 代表 域 变量 。 和 元 组 关系 演算 的 情况 一 样 ， 忆 代表 由 原子 构成 的 公式 。 域 关系 演 
算 中 的 原子 具有 如 下 形式 之 一 : 

e < 2 t, … % > Er 其 中 r 是 个 属性 上 的 关系 ,而 x,，x,，…， x 是 域 变 量 或 域 常 量 。 

。 xOy, Hh x My 是 域 变量 ,而 @ 是 比较 运算 符 ( <, < ，=, 关 ，>，, = )。 我们 要 求 属性 x 

AI y 所 属 域 可 用 @ 比较 。 

。 xQ@c， 其 中 x ERTE, 9 是 比较 运算 符 ， 而 c 是 x 作为 域 变量 的 那个 属性 域 中 的 常量 。 

根据 以 下 规则 ， 我 们 用 原子 构造 公式 : 

。 原子 是 公式 。 

。 MRP, BAK, BAP, A (P) 也 都 是 公式 。 

e 如 果 P, AP, EAR, BAP, VP, P, AP, MPP, 也 都 是 公式 。 

。 WR Pi (x) dex 的 一 个 公式 ， 其 中 x 是 自由 域 变量 ， 则 

Aa(P,(«)) 和 Vx(P; (x) ) 

也 都 是 公式 。 

我 们 把 Ja,b,c(P(a,b,c)) 作为 3a( 36( 3c(P(a,6b,c)))) 的 简写 。 
6. 3.2 查询 的 例子 

我 们 现在 用 域 关系 演算 对 前 面 讲 到 的 例子 给 出 查询 表达 式 。 请 注意 这 些 表达 式 和 元 组 关系 演算 表 
达 式 的 相似 之 处 。 

© 找 出 工资 在 80 000 美元 以 上 的 教师 的 ID, name, dept_name 和 salary: 

| < i,n,d,s >| <i,n,d,s > © instructor A s > 80000) } 


© 找 出 工资 大 于 80 000 美元 的 所 有 教师 的 姓名 : 
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| <i>l Jn,d,s( <i,n,d,s > e instructor A s > 80000) } 
虽然 第 二 个 查询 看 起 来 同 我 们 在 元 组 关系 演算 中 书写 的 很 相似 ， 但 实际 上 两 者 有 重要 区 别 。 在 元 组 演 
算 中 ， 当 我 们 对 某 个 元 组 变量 * 写 3 s 时， 我 们 立刻 通过 Js e r 将 它 同 某 个 关系 挂钩 。 可 是 ， 当 我 们 
在 域 演算 中 写 3 时, 不 指 代 一 个 元 组 ， 而 指 的 是 一 个 域 值 。 因 此 ， 在 用 子 公 式 <i, n, d, s> e 
instructor 将 n 束缚 到 instructor 关系 中 的 教师 以 前 ， 变 量 的 域 是 不 受 约束 的 。 
下 面 我 们 给 出 一 些 域 关 系 演算 的 查询 示例 : 
© 找 出 在 物理 系 的 所 有 教师 姓名 ， 以 及 他 们 教授 的 所 有 课程 的 course_id: 


| <n,c >| Ji,a,se,y( < i,c,a,s,y > e teaches 
A Jd,s( < i,n,d,s > e instructor \ d =" Physics" ) ) | 
© 找 出 在 2009 年 秋季 学 期 或 者 2010 年 春季 学 期 或 者 这 两 学 期 都 开设 的 所 有 课程 的 集合 : 


{est da,s,y,b,r,t( < c,a,s,y,b,r,t > € section 
As ="Fall" A y ="2009") 
Vda,s,y,b,r,t( < c,a,s,y,b,r,t > © section 
A s ="Spring" N y ="2010") | 


。 找 出 选 了 生物 系 开设 的 全 部 课程 的 所 有 学 生 : 


| <i>| Jn,d,te( < i,n,d,te > e student) 人 
Vci,ti,dn,cr( < ci,ti,dn,cr > e course À dn =" Biology" = 





Jsi,se,y,g( < i,ci,si,se,y,g > e takes) ) |} 246 











注意 ， 如 果 生 物 系 没 开设 任何 课程 ,那么 结果 将 包含 所 有 学 生 ， 这 与 元 组 关系 演算 中 的 示例 相 一 致 。 
6.3.3 ”表达 式 的 安全 性 
我 们 知道 ， 在 元 组 关系 演算 (6. 2 节 ) 中 可 能 写 出 产生 结果 为 无 限 关 系 的 表达 式 。 这 使 得 我 们 为 元 
组 关系 演算 表达 式 定义 安全 性 。 域 关系 演算 中 也 有 类 似 的 情况 。 像 
| < i,n,d,s >| ™( < i,n,d,s > © instructor) } 


这 样 的 表达 式 是 不 安全 的 ， 因 为 它 允 许 在 结果 中 出 现 不 在 表达 式 的 域 中 的 值 。 

在 域 关 系 演算 中 ， 我 们 还 必须 考虑 "存在 "和 "对 所 有 的 " 子 句 中 公式 的 形式 。 我 们 来 看 表达 式 

{<a> dy(< 2,7 ser) A 2 <4,7> er) A. P(%,z))| 

其 中 P 是 涉及 x 和 z 的 公式 。 对 于 公式 的 第 一 部 分 3y( < x,y >er) ,我们 在 测试 时 只 需 考虑 r 中 的 
值 。 可 是 ， 对 于 公式 的 第 二 部 分 3z( 一 ( < x,z >er) A P(x,z) ) ,我 们 在 测试 时 必须 考虑 不 在 7 中 出 
现 的 z 值 。 由 于 所 有 关系 都 是 有 限 的 ， 不 在 7 中 出 现 的 值 无 限 多 。 因 此 ， 通 常情 况 下 如 果 不 考虑 z 的 取 
值 有 无 限 多 种 可 能 ,我们 就 不 能 完成 对 第 二 部 分 的 测试 。 事实 上 我 们 并 不 这 样 做 。 我 们 通过 增加 一 些 
约束 来 限制 上 面 这 样 的 表达 式 。 

在 元 组 关系 演算 中 ,我们 将 所 有 存在 量词 修饰 的 变量 限制 在 某 个 关系 范围 内 。 由 于 在 域 关系 演算 
中 还 没有 这 样 做 ， 我们 增加 用 于 定义 安全 性 的 规则 ， 以 处 理 类 似 于 上 例 中 出 现 的 情况 。 如 果 下 列 条 件 
同时 成 立 ， 我 们 认为 表达 式 

1S mj 5% n Sil PC x) sa 

是 安全 的 : 

1. 表达 式 的 元 组 中 所 有 值 均 来 自 dom(P)。 

2. 对 每 个 形 如 3x(P,(x) ) 的 “存在 " 子 公 式 而 言 ， 子 公式 为 真 当 且 仅 当 在 dom( P, ) 中 有 某 个 值 x 
{8 P (x) A. 

3. 对 每 个 形 如 Yx(P,(x) ) 的 “对 所 有 的 ” 子 公 式 而 言 ， 子 公式 为 真 当 且 仅 当 P, (x) Xt dom(P,) P 
所 有 值 * 均 为 真 。 

附加 规则 的 目的 是 为 了 保证 我 们 不 需要 测试 无 限 多 的 可 能 性 就 可 以 完成 对 “存在 "和 “对 所 有 的 " 子 公 
式 的 测试 。 我 们 看 安全 性 定义 中 的 第 二 个 规则 。 要 使 3x( P(x) ) 为 真 ， 我 们 只 需 找到 一 个 x 使 P(x) 为 [247 
真 。 通 常 ， 我 们 需要 测试 无 数 个 值 。 但 是 ， 如 果 表 达 式 是 安全 的 ， 我们 就 知道 可 以 只 注意 dom(P, ) 中 的 
值 。 这 种 限制 使 我 们 考虑 的 元 组 减少 到 有 限 个 。 
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形 如 Yx( P(x) ) 的 子 公式 情况 类 似 。 要 断言 Vx(P,(x) ) 为 真 ， 需要 测试 所 有 可 能 的 值 ， 因 此 必 
须 检查 无 限 多 的 值 。 跟 前 面 一 样 ， 如 果 我 们 知道 表达 式 是 安全 的 ， 则 只 需要 对 dom( P, ) 中 的 值 来 测试 
P (x) 就 已 经 足够 了 。 

除了 前 面 我 们 介绍 的 不 安全 查询 的 例子 之 外 ， 本 节 例 子 中 所 给 出 的 域 关系 演算 表达 式 都 是 安全 的 。 
6.3.4 语言 的 表达 能 力 

当 我 们 把 域 关系 演算 限制 在 安全 表达 式 范围 内 时 ， 它 与 被 限制 在 安全 表达 式 范围 内 的 元 组 关系 演 
算 具 有 相同 的 表达 能 力 。 我 们 在 前 面 已 经 知道 受 限 的 元 组 关系 演算 与 关系 代数 等 价 ， 所 以 下 述 三 者 都 
是 等 价 的 : 

。 基本 关系 代数 (不 包括 扩展 关系 代数 运算 ) 。 

。 限制 在 安全 表达 式 范围 内 的 元 组 关系 演算 。 

© 限制 在 安全 表达 式 范围 内 的 域 关系 演算 。 

注意 没有 任何 一 个 域 关 系 演算 等 价 于 聚集 运算 ， 但 是 它 可 以 扩展 以 支持 聚集 ， 并 且 扩 展 它 来 处 理 
算术 表达 式 是 很 简单 的 。 


6.4 总 结 


© 关系 代数 (relational algebra) 定义 了 一 套 在 表 上 运算 且 输 出 结果 也 是 表 的 代数 运算 。 这 些 运算 可 以 混 
合 使 用 来 得 到 表达 所 希望 查询 的 表达 式 。 关 系 代数 定义 了 关系 查询 语言 中 使 用 的 基本 运算 。 
。 关系 代数 运算 可 以 分 为 : 
口 基本 运算 。 
O 附加 的 运算 ， 可 以 用 基本 运算 表达 。 
口 扩展 的 运算 ， 其 中 的 一 些 扩展 了 关系 代数 的 表达 能 力 。 
。 关系 代数 是 一 种 简洁 的 、 形 式 化 的 语言 ， 不 适合 于 那些 偶尔 使 用 数据 库 系 统 的 用 户 。 因 此 ， 商 用 数 
248 据 库 系统 采用 有 更 多 “语法 修饰 ”的 语言 。 从 第 3 章 到 第 5 章 我 们 讨论 了 最 有 影响 力 的 语言 一 -SQL， 
它 是 基于 关系 代数 的 。 
。 元 组 关系 演算 (tuple relational calculus) 和 域 关 系 演 算 ( domain relational calculus) 是 非 过 程 化 语言 ， 代 
表 了 关系 查询 语言 所 需 的 基本 能 力 。 基 本 关系 代数 是 一 种 过 程 化 语言 ， 在 能 力 上 等 价 于 被 限制 在 安 
全 表达 式 范 围 内 的 关系 演算 的 这 两 种 形式 。 
。 关系 演算 是 简洁 的 、 形 式 化 的 语言 ， 并 不 适合 于 那些 偶尔 使 用 数据 库 系 统 的 用 户 。 这 两 种 形式 化 语 
言 构成 了 两 种 更 易 使 用 的 语言 QBE 和 Datalog 的 基础 ， 我 们 将 在 附录 B 中 介绍 它们 。 




















术语 回顾 
© 关系 代数 © 附加 的 运算 。 多 重 集 
。 关系 代数 运算 O REZ mn 。 分 组 
O 选择 o 0 自然 连接 M 。 空 值 
投影 II 口 赋值 运算 。 元 组 关系 演算 
o% u O 外 连接 。 域 关系 演算 
O 集合 差 - - 左 外 连接 了 。 表达 式 安全 性 
O EJLER x - 右 外 连接 DE 。 语言 的 表达 能 力 
口 更 名 p - 全 外 连接 DC 
实践 习题 


6.1 使 用 大 学 的 模式 ， 用 关系 代数 来 表达 下 面 这 些 查 询 。 
a. 找 出 计算 机 ( Comp. Sci. ) 系 开设 的 占 3 个 学 分 的 课程 的 名 称 。 
b. 找 出 选 了 教师 Einstein 所 教 课程 的 所 有 学 生 的 也， 注意 结果 中 不 能 有 重复 。 
c. 找 出 所 有 教师 的 最 高 工资 。 


6.2 


6.3 


6.4 


6.5 


6.6 


6.7 
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d 找 出 收入 为 最 高 工资 的 所 有 教师 ( 可 能 有 多 个 人 工资 相同 ) 。 

e. 找 出 2009 年 秋季 学 期 开设 的 各 个 课程 段 的 选课 人 数 。 

f. 找 出 2009 年 秋季 学 期 开设 的 各 个 课程 段 中 最 大 的 选课 人 数 。 

g 找 出 在 2009 年 秋季 学 期 选课 人 数 最 多 的 课程 段 。 249 
考虑 图 6-22 所 示 关 系数 据 库 ， 主 码 加 了 下 划 线 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 : 

a 找 出 与 其 经 理 居 住 在 同一 城市 同一 街道 的 所 有 员工 姓名 。 

b. 找 出 此 数据 库 中 不 在 “First Bank Corporation” 工作 的 所 有 员工 姓名 。 

c. 找 出 比 “Small Bank Corporation” 的 所 有 员工 收入 都 高 的 所 有 员工 姓名 。 





employee( person_name , street , city ) 
works ( person_name ,company_name , salary ) 
company ( company_name , city ) 
manages ( person_name ,manager_name ) 
图 6-22 习题 6.2、 习 题 6.8 、 习 题 6. 11 、 习 题 6. 13 和 习题 6. 15 的 关系 数据 库 


外 连接 是 自然 连接 的 一 种 扩展 ， 它 使 得 参与 运算 的 关系 中 的 元 组 在 连接 结果 中 不 丢失 。 描 述 theta 连接 
运算 可 以 怎样 扩展 ， 使 得 在 theta 连接 结果 中 来 自 左 侧 、 右 侧 及 两 侧 关 系 的 元 组 不 被 丢失 。 
( 除 运算 ，division operation) 关系 代数 中 的 除 运算 符 是 * ， 它 的 定义 如 下 : 设 r(R) Ms(S) 是 两 个 关 
系 ， 并 且 SCR; 即 模式 S 中 的 每 个 属性 都 在 模式 R 中 。 那 么 rs 是 模式 R-S 上 的 关系 ， 即 此 模式 中 
包含 所 有 在 R 中 而 不 在 5 中 的 属性 。 元 组 1 属于 r+s 当 且 仅 当 以 下 两 个 条 件 同 时 成 立 : 
1.t 在 ILr-s(r) Po 
2. Xs 中 的 每 一 个 元 组 i,， 在 7 中 都 有 元 组 i, 同时 满足 以 下 两 个 条 件 : 
a pis] saisi 
b. t [R-S] =t 
有 了 以 上 定义 ， 要 求 : 
a. 用 除 运算 符 写 一 个 关系 代数 表达 式 来 找到 选 了 计算 机 ( Comp. Sci. ) 系 课程 的 所 有 学 生 的 也。( 提示 : 
在 除 之 前 ， 把 takes 投影 到 ID 和 course_id， 并 用 一 个 选择 表达 式 生 成 所 有 计算 机 系 课程 course_id 的 





集合 。) 250 
b. 如果 不 用 除法 ， 如 何在 关系 代数 中 表达 上 述 查询 。( 通 过 这 样 做 ， 你 就 可 以 了 解 如 何 用 其 他 关系 代 
数 运算 来 定义 除 运算 。) 
已 知 如 下 关系 模式 : 
R=(A, B, C) 
S=(D, E, F) 
关系 r(R) 和 s(S) 已 给 出 。 请 给 出 与 下 列 每 个 表达 式 等 价 的 元 组 关系 演算 表达 式 : 
a. II, (r) 
b. ogan (r) 
arxs 


d. Tye (oc-n(r x 5) ) 

BWR=(A, B, C), r Mr, 都 是 模式 RR 上 的 关系 。 请 分 别 给 出 与 下 列表 达 式 等 价 的 域 关系 演算 表达 式 : 
a IL(r) 

b. os- (r) 

er, Ur, 

dri Nr, 

e rn -r 

É ILs Cr Mg cir) 

设 R=(4,B)，S=(4，C),r(R) 和 s(S) 为 关系 。 为 下 列 查询 写 出 关系 代数 表达 式 : 
a. { <a>|14(b( <a, b>er A b=7)} 

b. | <a, b, c>1 <a, b>er A <a, c>es)} 
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6.8 


6.9 


c. | <a> | de(<a, ES esAdb,, b,( <a, bi >erA<c, bs erAb, >b,))} 

考虑 图 6-22 所 示 的 关系 数据 库 ， 其 中 主 码 用 下 划 线 标示 。 为 下 面 每 个 查询 写 出 元 组 关系 演算 表达 式 : 
a. 找 出 所 有 直接 在 经 理 *Jones”" 下 工作 的 员工 。 

b. 找 出 直接 在 经 理 * Jones" 下 工作 的 员工 居住 的 所 有 城市 。 

c， 找 出 “Jones" 的 经 理 的 经 理 的 名 字 。 

d. 找 出 比 住 在 “Mumbai" 的 所 有 员工 的 收入 都 高 的 那些 员工 。 

描述 如 何 将 SQL 中 的 连接 表达 式 转 换 成 关系 代数 。 


习题 


6.10 


6. 11 


6. 12 


使 用 大 学 的 模式 ， 用 关系 代数 表达 如 下 查询 。 

a. 找 出 所 有 至 少 选 了 一 门 计算 机 (Comp. Sci. ) 系 课程 的 学 生 。 

b. 找 出 所 有 在 2009 年 春季 之 前 没有 选任 何 课程 的 学 生 的 ID 和 姓名 。 

c. 对 于 每 个 系 ， 找 到 该 系 教师 的 最 高 工资 。 可 以 假设 每 个 系 至 少 有 一 名 教师 。 

d 在 上 一 问 找到 每 个 系 的 最 高 工资 的 基础 上 ， 找 出 所 有 各 系 的 最 高 工资 的 最 小 值 。 

考虑 图 6-22 所 示 关 系数 据 库 ， 主 码 加 了 下 划 线 。 给 出 关系 代数 表达 式 来 表示 下 列 每 一 个 查询 ， 

a. 找 出 First Bank Corporation 的 所 有 员工 姓名 。 

b. 找 出 First Bank Corporation 所 有 员工 的 姓名 和 居住 城市 。 

找 出 First Bank Corporation 所 有 年 收入 在 10 000 美元 以 上 的 员工 姓名 和 居住 的 街道 、 城 市 。 

. 找 出 所 有 居住 地 与 工作 的 公司 在 同一 城市 的 员工 姓名 。 

假设 公司 可 以 位 于 几 个 城市 中 。 找 出 满足 下 面条 件 的 所 有 公司 ， 它 位 于 Small Bank Corporation 所 位 
于 的 每 一 个 城市 。 

使 用 大 学 的 例子 ， 用 关系 代数 查询 来 找 出 多 于 一 个 教师 授课 的 课程 段 ， 分 别 用 以 下 两 种 方式 来 表达 : 
a. 使 用 聚集 函数 。 

b. 不 使 用 聚集 函数 。 

考虑 图 6- 22 所 示 的 关系 数据 库 。 分 别 给 出 下 列 查询 的 关系 代数 表达 式 : 

a. 找 出 员工 最 多 的 公司 。 

b. 找 出 工资 最 少 的 员工 所 在 公司 。 

c. 找 出 人 均 工 资 比 First Bank Corporation 人 均 工资 高 的 公司 。 

考虑 如 下 关于 图 书馆 的 关系 模式 : 


pep 


memeber ( memb_no ,name ,dob ) 
books ( isbn , title , authors , publisher ) 


borrowed ( memb_no , isbn , date ) 


用 关系 代数 写 出 下 列 查询 : 

a. 找 出 借 了 任何 由 McGraw-Hill 出 版 的 书 的 成 员 的 姓名 。 

b. 找 出 借 了 由 McGraw-Hill 出 版 的 所 有 的 书 的 成 员 的 姓名 。 

c. 找 出 借 了 由 McGraw-Hill 出 版 的 5 本 以 上 不 同 的 书 的 成 员 的 姓名 和 成 员 号 。 

d. 对 每 个 出 版 商 ， 找 出 借 了 该 出 版 商 的 5 本 以 上 的 书 的 成 员 的 姓名 和 成 员 号 。 

e 找 出 平均 每 个 成 员 借 了 多 少 本 书 。 下 面 的 情况 需要 考虑 在 内 ， 如 果 某 个 成 员 没 有 借 任 何 书 ， 那 么 
他 就 根本 不 会 出 现在 关系 borrowed 中 。 

考虑 图 6-22 所 示 的 员工 数据 库 。 为 下 面 每 个 查询 分 别 写 出 元 组 关系 演算 和 域 关系 演算 表达 式 : 

a. 找 出 所 有 为 First Bank Corporation 工作 的 员工 名 字 。 

b. 找 出 所 有 为 First Bank Corporation 工作 的 员工 名 字 和 居住 城市 。 

c. 找 出 所 有 为 First Bank Corporation 工作 且 年 薪 超 过 10 000 美元 的 员工 名 字 、 居 住 街 道 和 城市 。 

d. 找 出 居住 城市 和 公司 所 在 城市 相同 的 所 有 员工 。 

e 找 出 居住 街道 和 城市 与 其 经 理 相同 的 所 有 员工 。 
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f. 找 出 数据 库 中 所 有 不 为 First Bank Corporation 工作 的 员工 。 

g. 找 出 工资 高 于 Small Bank Corporation 的 每 一 位 员工 的 员工 。 

h. 假设 一 个 公司 可 以 位 于 好 几 个 城市 。 找 出 满足 下 面条 件 的 所 有 公司 ， 它 位 于 Small Bank Corporation 
所 位 于 的 每 一 个 城市 。 


6.16 设 R=(4, B) 且 S=(4，C)，r(R) 和 s(S) 是 关系 。 分 别 给 出 与 下 列 域 关 系 演算 表达 式 等 价 的 关 
系 代 数 表达 式 : 
a {<a>ldb(<a,b>erAb=l17)} 
h tembe >| <4,6 > er A-< ae Se st 
ce | <a>ldb(<a,b>er) V Ve(dd(<d,c >es)> <a,e>eEs)| 
d isa slad <aes es ANd <a Ss erA<ab Ser Kb, NA 
6.17 用 SQL 查询 代替 关系 代数 表达 式 来 重 做 习题 6. 16。 
6.18 设 R=(4, B) 且 S=(4，C)，r(R) 和 s(S) 是 关系 。 使 用 特殊 常量 null1， 分 别 书写 等 价 于 下 列表 达 
式 的 元 组 关系 演算 表达 式 : 
a.r DC s 
b. r DL s 
ers 
6.19 给 出 元 组 关系 表达 式 ， 找 出 关系 r(A) 中 的 最 大 值 。 
文献 注解 


关系 代数 最 初 的 定义 在 Codd[ 1970] 中 给 出 ; 关系 模型 的 扩展 、 关 于 在 关系 代数 中 引入 空 值 的 论述 


(RM/T 模型 ) ， 以 及 外 连接 ， 这 些 内 容 都 出 现在 Codd[ 1979] 中 。Codd[ 1990」 是 EF.Codd 关于 关系 模型 


的 所 


有 文章 的 一 个 概括 。 外 连接 在 Date[ 1993b] 中 也 进行 了 讨论 。 
元 组 关系 演算 最 初 的 定义 在 Codd[ 1972] 中 给 出 。 元 组 关系 演算 和 关系 代数 等 价 性 的 形式 化 证 明 在 


Codd[ 1972] 中 给 出 。 关 系 演算 的 一 些 扩展 已 经 被 提出 。Klug[ 1982] 和 Escobar-Molano 等 [1993] 描述 了 


向 分 


级 聚集 函数 的 扩展 。 
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设计 数据 库 系 统 的 目的 是 为 了 管理 大 量 信息 。 这 些 大 量 的 信息 并 不 是 孤立 存在 的 ， 而 是 
某 些 企业 业务 的 一 部 分 。 这 些 企业 的 终端 产品 可 能 是 来 自 数据 库 中 的 信息 ; 也 可 能 是 某 些 设 
备 或 服务 ， 数 据 库 则 仅 为 其 扮演 一 个 支持 者 的 角色 。 

本 部 分 的 前 两 章 关 注 于 数据 库 模 式 的 设计 。 第 7 章 讲述 的 实体 -联系 (ER) 模型 是 一 种 
高 层 数据 模型 ， 与 把 所 有 数据 用 表 来 表示 的 方法 不 同 ， 它 将 称 作 实体 的 基本 对 象 和 这 些 对 象 
之 间 的 联系 区 分 开 来 。 该 模型 通常 用 作 数 据 库 模式 设计 的 第 一 步 。 

先前 的 章节 曾 非 正式 地 介绍 了 关系 数据 库 设 计 关系 模式 的 设计 。 然 而 ， 还 存在 用 于 
区 分 好 的 数据 库 设 计 和 不 好 的 数据 库 设 计 的 基本 原理 。 这 些 原理 被 形式 化 为 若干 “范式 ”， 这 
些 范式 提供 了 在 不 一 致 的 可 能 性 和 特定 查询 效率 之 间 的 不 同 权 衡 。 第 8 章 讲述 关系 模式 的 规 
范 化 设计 。 

设计 一 个 完整 的 数据 库 应 用 环境 ， 并 满足 被 建 模 企业 的 需求 ， 需 要 关注 更 广泛 的 问题 ， 
很 多 这 样 的 问题 将 在 第 9 章 讲述 。 该 章 首先 介绍 基于 Web 的 应 用 程序 接口 的 设计 ， 然 后 描述 





如 何 利用 多 个 抽象 层次 来 构建 大 型 应 用 。 最 后 ， 给 出 了 在 应 用 程序 级 别 和 数据 库 级 别 的 安全 |257 


性 的 详细 讨论 。 


258 
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到 现在 为 止 ， 在 本 书 中 我 们 已 经 假想 了 一 个 给 定 的 数据 库 模式 并 研究 了 如 何 表述 查询 和 更 新 
我 们 现在 考虑 究竟 如 何 设计 一 个 数据 库 模 式 。 在 本 章 中 ,我 们 关注 于 实体 -联系 (E-R) 数据 模型 ， 
它 提 供 了 一 个 找 出 在 数据 库 中 表示 的 实体 以 及 实体 间 如 何 关联 的 方法 。 最 终 ， 数 据 库 设计 将 会 表示 
为 一 个 关系 数据 库 设 计 和 一 个 与 之 关联 的 约束 集合 。 本 章 讲 述 一 个 E-R 设计 如 何 转换 成 一 个 关系 模 
式 的 集合 以 及 如 何在 该 设计 中 找到 某 些 约束 。 然 后 ,第 8 章 详细 考查 一 个 关系 模式 的 集合 是 否 为 一 
个 好 的 或 不 好 的 数据 库 设 计 ， 并 研究 使 用 更 广 的 约束 集合 来 构建 好 的 设计 的 过 程 。 这 两 章 覆 盖 数 据 
库 设计 的 基本 概念 。 


7.1 设计 过 程 概览 


构建 一 个 数据 库 应 用 是 一 个 复杂 的 任务 ， 包 括 设 计数 据 库 模式 ， 设 计 访 问 和 更 新 数据 的 程序 ， 
以 及 设计 控制 数据 访问 的 安全 模式 。 用 户 的 需求 在 设计 过 程 中 扮演 一 个 中 心 角色 。 本 章 主要 关注 于 
数据 库 模 式 的 设计 ， 不 过 本 章 后 面 会 简要 地 概括 其 他 几 个 设计 任务 。 
设计 一 个 完整 的 数据 库 应 用 环境 ， 并 满足 被 建 模 企 业 的 需求 ， 需 要 关注 广泛 的 问题 。 数 据 库 预 
期 用 途 的 这 些 其 他 方面 在 物理 级 、 逻 辑 级 和 视图 级 影响 着 各 种 各 样 的 设计 选择 。 
7.1.1 设计 阶段 
259 对 于 小 型 的 应 用 ， 由 一 个 理解 应 用 需求 的 数据 库 设 计 者 直接 决定 要 构建 的 关系 、 关 系 的 属性 以 
及 其 上 的 约束 ， 这 样 也 许 是 可 行 的。 但 是 ， 这 种 直接 的 设计 过 程 在 现实 的 应 用 中 是 困难 的 ， 由 于 现 
实 的 应 用 常常 很 复杂 ， 通 常 没 有 一 个 人 能 够 理解 应 用 的 所 有 数据 需求 。 数 据 库 设计 者 必须 与 应 用 的 
用 户 进行 交互 以 理解 应 用 的 需求 ， 把 它们 以 用 户 能 够 理解 的 高 级 别 的 形式 表示 出 来 ， 然 后 再 将 需求 
转化 为 较 低 级 别 的 设计 。 一 个 高 层 数据 模型 为 数据 库 设 计 者 提供 了 一 个 概念 框架 ， 在 该 框架 中 以 系 
统 的 方式 定义 了 数据 库 用 户 的 数据 需求 ， 以 及 满足 这 些 需 求 的 数据 库 结 构 。 
© 数据 库 设 计 的 最 初 阶段 需要 完整 地 刻画 未 来 数据 库 用 户 的 数据 需求 。 为 完成 这 个 任务 ， 数 据 
库 设计 者 需要 同 应 用 领域 的 专家 和 用 户 进行 深入 的 沟通 。 这 一 阶段 的 产品 是 用 户 需求 规格 说 
明 。 虽 然 存在 图 形 方 式 的 用 户 需 求 表示 技术 ,但 是 在 本 章 中 ,我 们 仅 限 于 采用 文字 的 方式 来 
描述 用 户 需 求 。 
© 接 下 来 ， 设 计 者 选择 数据 模型 ， 并 采用 所 选 数据 模型 的 概念 将 这 些 需求 转化 为 数据 库 的 概念 
模式 。 在 此 概念 设计 (conceptual-design) 阶段 所 产生 的 模式 提供 了 一 个 对 企业 的 详细 综述 。 
我 们 在 本 章 中 将 研究 的 实体 -联系 模型 通常 用 于 表示 概念 设计 。 用 实体 -联系 模型 的 术语 来 
说 ， 概 念 模式 定义 了 数据 库 中 表示 的 实体 、 实 体 的 属性 、 实 体 之 间 的 联系 ， 以 及 实体 和 联系 
上 的 约束 。 通 常 ， 概 念 设计 阶段 会 导致 实体 - 联系 图 的 构建 ， 它 提供 了 对 模式 的 图 形 化 
描述 。 
设计 者 检查 此 模式 以 确保 所 有 数据 需求 都 满足 ， 并 且 互 相 不 冲突 。 她 还 可 以 检查 该 设计 
以 去 除 完 余 的 特征 。 在 这 个 阶段 ， 她 关注 的 是 描述 数据 及 其 联系 ， 而 不 是 定义 物理 存储 
细节 。 
© 完善 的 概念 模式 还 指明 企业 的 功能 需求 。 在 功能 需求 规格 说 明 (specification of functional 
requirement) 中 ， 用 户 描述 将 在 数据 上 进行 的 各 类 操作 (或 事务 ) 。 操 作 的 例子 包括 修改 或 更 
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新 数据 ， 搜 索 并 取 回 特定 数据 ， 以 及 删除 数据 。 在 概念 设计 的 这 一 阶段 ， 设 计 者 可 以 检查 所 

设计 的 模式 ， 以 确保 其 满足 功能 需求 。 

。 从 抽象 数据 模型 到 数据 库 实 现 的 转换 过 程 在 最 后 两 个 设计 阶段 中 进行 。 

口 在 逻辑 设计 阶段 (logical- design phase) 中 ， 设 计 者 将 高 层 概念 模式 映射 到 将 使 用 的 数据 库 
系统 的 实现 数据 模型 上 。 实 现 数据 模型 通常 是 关系 数据 模型 ， 该 阶段 通常 包括 将 以 实体 - 
联系 模型 定义 的 概念 模式 映射 到 关系 模式 。 

口 最 后 ， 设 计 者 将 所 得 到 的 系统 特定 的 数据 库 模式 使 用 到 后 续 的 物理 设计 阶段 ( physical-design 
phase) 中 。 在 该 阶段 ， 指 明 数 据 库 的 物理 特征 ， 这 些 特 征 包括 文件 组 织 格式 和 索引 结构 的 
选择 ， 我 们 将 在 第 10 章 和 第 11 章 讨论 这 些 内 容 。 

在 应 用 建立 之 后 ， 要 改变 数据 库 的 物理 模式 相对 地 比较 简单 。 但 是 ， 由 于 可 能 影响 到 应 用 程序 
代码 中 散布 的 大 量 的 查询 和 更 新 操作 ， 因 此 改变 逻辑 模式 的 任务 执行 起 来 常常 更 加 困难 。 因 此 ,在 
建立 后 续 的 数据 库 应 用 之 前 ， 慎 重 实施 数据 库 设计 阶段 是 非常 重要 的 。 

7.1.2 设计 选择 

数据 库 设 计 过 程 的 一 个 主要 部 分 是 决定 如 何在 设计 中 表示 各 种 类 型 的 “事物 ”， 比 如 人 、 地 方 、 
产品 ， 诸 如 此 类 。 我 们 使 用 实体 (entity) 这 个 术语 来 指示 所 有 可 明确 识别 的 个 体 。 在 一 个 大 学 数据 
库 中 ,实体 的 例子 将 包括 教师 、 学 生 、 系 、 课 程 和 开课 “。 这 些 各 种 各 样 的 实体 以 多 种 方式 互相 关 
联 ， 而 所 有 这 些 方式 都 需要 在 数据 库 设计 中 反映 出 来 。 例 如 ,一 名 学 生 在 一 次 开课 中 选课 ， 而 一 名 
教师 在 一 次 开课 中 授课 ,授课 和 选课 就 是 实体 间 联 系 的 实例 。 

在 设计 一 个 数据 库 模式 的 时 候 ， 我 们 必须 确保 避免 两 个 主要 的 缺陷 。 

。 RR: 一 个 不 好 的 设计 可 能 会 重复 信息 。 例 如 ， 如 果 对 于 每 一 次 开课 我 们 都 存储 课程 编号 和 

课程 名 称 ， 那 么 对 于 每 一 次 开课 我 们 就 元 余地 〈 即 多 次 地 、 不 必要 地 ) 存储 了 课程 名 称 。 对 

每 次 开课 仅 存 储 课程 编号 ， 并 在 一 个 课程 实体 中 将 课程 名 称 和 课程 编号 关联 一 次 就 足够 了 。 

宛 余 也 可 能 出 现在 关系 模式 中 。 在 目前 我 们 所 使 用 的 大 学 的 例子 中 ， 我 们 有 一 个 开课 信 

息 的 关系 和 一 个 课程 信息 的 关系 。 假 设 换 一 个 做 法 ， 我 们 只 有 一 个 关系 ， 对 一 门 课程 的 每 一 

次 开课 我 们 将 全 部 课程 信息 (课程 编号 、 课 程 名 、 系 名 、 学 分 ) 重复 一 次 。 很 明显 ， 关 于 课 

程 的 信息 将 元 余地 存储 。 

信息 的 这 种 元 余 表 达 的 最 大 问题 是 当 对 一 条 信息 进行 更 新 但 没有 将 这 条 信息 的 所 有 拷贝 

都 更 新 时 ， 这 条 信息 的 拷贝 会 变 得 不 一 致 。 例 如 ,拥有 同一 个 课程 编号 的 几 次 不 同 的 开课 可 

能 会 拥有 不 同 的 课程 名 称 ， 于 是 会 搞 不 清楚 课程 的 正确 名 称 是 什么 。 理 想 的 情况 下 ， 信 息 应 

该 只 出 现在 一 个 地 方 。 

© 不 完整 : 一 个 不 好 的 设计 可 能 会 使 得 企 事业 机 构 的 某 些 方面 难于 甚至 无 法 建 模 。 例 如 ， 假设 

在 上 述 案 例 (1) 中 ,我 们 只 有 对 应 于 开课 的 实体 ， 而 没有 对 应 于 课程 的 实体 。 从 关系 的 角 

度 说 ， 这 就 是 假设 我 们 有 单个 关系 ， 对 一 门 课程 的 每 一 次 开课 都 重复 存储 课程 的 所 有 信息 。 

那么 一 门 新 课程 的 信息 将 无 法 表示 ， 除 非 开 设 了 该 课程 。 我 们 可 能 会 尝试 将 开课 信息 设置 为 

空 值 的 方法 来 解决 这 个 有 问题 的 设计 。 这 种 绕 开 问题 的 措施 不 仅 不 吸引 人 ， 而 且 有 可 能 由 于 

主 码 约束 而 无 法 实行 。 

仅仅 避免 不 好 的 设计 是 不 够 的 。 可 能 存在 大 量 好 的 设计 ， 我 们 必须 从 中 选择 一 个 。 作 为 一 个 简 
单 的 例子 ， 考 虑 买 了 某 产品 的 一 个 客户 。 该 产品 的 销售 是 客户 和 产品 之 间 的 联系 吗 ? 还 是 销售 本 身 
是 一 个 与 客户 和 产品 都 相关 的 实体 ? 这 个 选择 ， 虽 然 简单 ， 却 可 能 对 企业 某 些 方面 建 模 的 好 坏 有 很 
大 的 影响 。 考 虑 为 一 个 现实 企业 中 的 大 量 实体 和 联系 做 类 似 这 样 的 选择 的 需要 ， 不 难看 出 数据 库 设 
计 是 一 个 很 有 挑战 性 的 问题 。 事 实 上 我 们 将 看 到 ， 它 需要 科学 和 “好 的 品味 ”的 结合 . 


日 一 门 课程 可 能 在 多 个 学 期 开设 ,同样 也 可 能 一 个 学 期 中 开设 多 次 ,我 们 称 某 课程 的 每 次 开设 为 一 个 课程 段 
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7.2 实体 -联系 模型 


实体 -联系 (entity-relationship，E-R) 数据 模型 的 提出 旨 在 方便 数据 库 的 设计 ， 它 是 通过 允许 
定义 代表 数据 库 全 局 逻辑 结构 的 企业 模式 实现 的 。 

E-R 模型 在 将 现实 世界 企业 的 含义 和 交互 映射 到 概念 模式 上 非常 有 用 ， 因此， 许多 数据 库 设 计 
工具 都 利用 了 E-R 模型 的 概念 。E-R 数据 模型 采用 了 三 个 基本 概念 : 实体 集 、 联 系 集 和 属性 ， 我 们 
首先 对 此 进行 学 习 ; E-R 模型 还 有 一 个 相关 联 的 图 形 表 示 (E-R 图 ) ， 我 们 在 本 章 后 面 学 习 。 

7.2.1 实体 集 

实体 (entity) 是 现实 世界 中 可 区 别 于 所 有 其 他 对 象 的 一 个 “事物 ”或 “对 象 "。 例 如 ， 大 学 中 

的 每 个 人 都 是 一 个 实体 。 每 个 实体 有 一 组 性 质 ， 其 中 一 些 性 质 的 值 可 以 唯一 地 标识 一 个 实体 。 例 如 ， 一 

262 | 个 人 可 能 具有 person_id 性 质 唯一 标识 这 个 人 。 因 此 ，person_id 的 值 677 - 89 -9011 将 唯一 标识 大 学 中 一 
个 特定 的 人 。 与 此 类 似 , 课程 也 可 以 看 作 实 体 ， 而 course_id 唯一 标识 了 大 学 中 的 某 个 课程 实体 。 实 体 可 
以 是 实 实在 在 的 ， 如 人 或 书 ; 也 可 以 是 抽象 的 ， 如 课程 、 课 程 段 开课 或 者 机 票 预 订 。 

实体 集 (entity set) 是 相同 类 型 即 具有 相同 性 质 (或 属性 ) 的 一 个 实体 集合 。 例 如 ， 一 所 给 定 大 学 的 
所 有 教师 的 集合 可 定义 为 实体 集 instructor。 类 似 地 ， 实 体 集 student 可 以 表示 大 学 中 所 有 学 生 的 集合 。 

在 建 模 的 过 程 中 ,我 么 通常 抽象 地 使 用 术语 实体 集 ， 而 不 是 指 某 个 个 别 实体 的 特别 集合 。 我 
们 用 术语 实体 集 的 外 延 (extension) 来 指 属于 实体 集 的 实体 的 实际 集合 。 因 此 ， 大 学 中 实际 教师 的 
集合 构成 了 实体 集 instructor 的 外 延 。 我 们 在 第 2 章 看 到 过 的 联系 和 联系 实例 之 间 的 区 别 和 上 述 区 
别 类 似 。 

实体 集 不 必 互 不 相交 。 例 如 ， 可 以 定义 大 学 里 所 有 人 的 实体 集 (person ) 。 一 个 person 实体 可 以 是 
instructor 实体 ， 可 以 是 student 实体 ， 可 以 既是 instructor 实体 又 是 student 实体 ， 也 可 以 都 不 是 。 

实体 通过 一 组 属性 (attribute) 来 表示 。 属 性 是 实体 集中 每 个 成 员 所 拥有 的 描述 性 性 质 。 为 某 实体 集 
指定 一 个 属性 表明 数据 库 为 该 实体 集中 每 个 实体 存储 相似 的 信息 ; 但 每 个 实体 在 每 个 属性 上 都 有 各 自 
的 值 。 实 体 集 instructor 可 能 具有 属性 ID, name, dept_name, 、 和 salary。 在 现实 生活 中 ， 可 能 还 有 更 多 
的 属性 ， 如 街道 号 、 房 间 号 、 州 、 邮 政 编码 和 国家 ， 但 是 为 了 使 我 们 的 例子 简单 ， 我 们 省 略 了 这 些 属 
HE. course 实体 集 可 能 的 属性 有 course_id, title, dept_name 和 credits。 

每 个 实体 的 每 个 属性 都 有 一 个 值 (value) 。 例 如 ， 一 个 特定 的 instructor 实体 可 能 ID 的 值 为 12121 ， 
name 的 值 为 吴 ，dept_name 的 值 为 金融 ，salary 的 值 为 90 000, 

ID 属性 用 来 唯一 地 标识 教师 ， 因 为 可 能 会 有 多 个 教师 拥有 相同 的 名 字 。 在 美国 ， 许 多 企业 发 现 将 
一 个 人 的 社会 保障 号 用 作 其 值 唯一 标识 该 人 的 属性 很 方便 。 一 般 来 说 ， 大 学 必须 给 每 个 教师 创建 和 
分 配 一 个 唯一 的 标识 符 。 

因此 ， 数 据 库 包括 一 组 实体 集 ， 每 个 实体 集 包 括 任意 数量 的 相同 类 型 的 实体 。 图 7- 1 为 一 个 大 学 
数据 库 的 一 部 分 ， 其 中 有 两 个 实体 集 : instructor 和 student。 为 了 使 图 示 简 单 ， 只 显示 了 两 个 实体 集 的 
一 部 分 属性 。 

一 个 大 学 数据 库 可 能 包含 许多 其 他 的 实体 集 。 例 如 ， 除 了 跟踪 记录 教师 和 学 生 外 ， 大 学 还 具有 课 

程 信息 ， 用 实体 集 course 来 表示 ， 它 包括 属性 account_number, course_id, title, dept_name 和 credits, YE 
真实 环境 中 ， 一 个 大 学 数据 库 可 能 会 包含 数 十 个 实体 集 。 


7.2.2 联系 集 


联系 (relationship) 是 指 多 个 实体 间 的 相互 关联 。 例 如 ， 我 们 可 以 定义 关联 教师 Katz 和 学 生 Shankar 
的 联系 advisor。 这 一 联系 指明 Katz 是 学 生 Shankar 的 导师 。 





O 在 美国 ， 政 府 分 配给 国家 中 的 每 一 个 人 一 个 唯一 的 号 码 ， 称 为 社会 保障 号 ， 用 来 唯一 地 标识 一 个 人 。 任 何 一 个 
人 都 仅 有 一 个 这 样 的 社会 保障 号 ， 并 且 没 有 两 个 人 会 拥有 相同 的 社会 保障 号 。 
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instructor 


student 


图 7-1 实体 集 instructor Fil student 


联系 集 ( relationship set) 是 相同 类 型 联系 的 集合 。 正 规 地 说 ， 联 系 集 是 n=2 个 (可 能 相同 的 ) 实 体 
集 上 的 数学 关系 。 如 果 E, ，E, ，…，E, 为 实体 集 ， 那么 联系 集 R 是 
(Cein G5 °, €&) le, e8,, ek, *-, GE 
的 一 个 子 集 ， Mle &, +, ¢,) ETER. 
考虑 图 7-1 中 的 两 个 实体 集 instructor 和 stuwdent。 我 们 定义 联系 集 advisor 来 表示 教师 及 学 生 之 间 的 
关联 。 这 一 关联 如 图 7-2 所 示 。 


ka 














[45565 [Katz | Shankar 

(00128 [Zhang 

[76543 |Singh | Aoi 
instructor | 








student 


图 7-2 KRÆ advisor 


再 看 另 一 个 例子 ， 考 虑 实体 集 student 和 section。 我 们 可 以 定义 联系 集 takes 来 表示 学 生 和 该 学 生 所 
注册 的 开课 之 间 的 关联 。 

实体 集 之 间 的 关联 称 为 参与 ; 也 就 是 说 ， 实 体 集 E, E, ，…， E, 参与 (participate ) KARR. E-R 
模式 中 的 一 个 联系 实例 (relationship instance ) 表示 在 所 建 模 的 现实 世界 企业 中 命名 实体 间 的 一 个 关联 。 
例如 ， 一 个 教师 ID H 45565 的 instructor 实体 Katz 和 一 个 学 生 ID 为 12345 的 student 实体 Shankar 参与 到 
advisor 的 一 个 联系 实例 中 。 这 一 联系 实例 表示 在 大 学 中 教师 Katz 指导 学 生 Shankar. 

实体 在 联系 中 扮演 的 功能 称 为 实体 的 角色 (role) 。 由 于 参与 一 个 联系 集 的 实体 集 通常 是 互 异 的 ， 
因此 角色 是 隐 含 的 并 且 一 般 并 不 指定 。 但 是 ， 当 联系 的 含义 需要 解释 时 角色 是 很 有 用 的 。 当 参与 联系 
集 的 实体 集 并 非 互 异 的 时 候 就 是 这 种 情况 ; 也 就 是 说 ， 同 样 的 实体 集 以 不 同 的 角色 参与 一 个 联系 集 多 
于 一 次 。 在 这 类 联系 集中 ， 即 有 时 称 作 自 环 的 (recursive) 联系 集中 ， 有 必要 用 显 式 的 角色 名 来 指明 实 
体 是 如 何 参与 联系 实例 的 。 例 如 ， 考 虑 记录 大 学 开设 的 所 有 课程 的 信息 的 实体 集 course。 我 们 用 course 
实体 的 有 序 对 来 建 模 联系 集 prereg ， 以 描述 一 门 课 程 ( C2) 是 另 一 门 课程 ( C1) 的 先 修 课 。 每 对 课程 中 的 
第 一 门 课程 具有 课程 C1 的 角色 ， 而 第 二 门 课程 具有 先 修 课 C2 的 角色 。 按 照 这 种 方式 ， 所 有 的 prereg 
联系 通过 (C1 ，C2 ) 对 来 表示 ， 排 除了 (C2，C1) 对 。 

联系 也 可 以 具有 描述 性 属性 ( descriptive attribute ) 。 考 虑 实体 集 instructor 和 student 之 间 的 联系 集 
advisor。 我 们 可 以 将 属性 date 与 该 联系 关联 起 来 ， 以 表示 教师 成 为 学 生 的 导师 的 日 期 。 教 师 Katz 对 应 
的 实体 和 学 生 Shankar 对 应 的 实体 之 间 的 联系 advisor 的 属性 date 的 值 为 “10 June 2007”， 表 示 Katz 于 
2007 年 6 月 10 日 成 为 Shankar 的 导师 。 

图 7-3 所 示 为 具有 描述 性 属性 date MIKA advisor, HER, Katz 在 两 个 不 同 的 日 期 成 为 了 两 名 学 
生 的 导师 。 
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作为 联系 的 描述 性 属性 的 一 个 更 实际 的 例子 ， 考 虑 实体 集 student 和 section 参与 一 个 联系 集 takes。 
我 们 也 许 希望 在 这 个 联系 中 用 一 个 描述 性 属性 grode， 来 记录 学 生 在 这 门 课 中 取得 的 成 绩 。 我 们 同样 可 
以 用 一 个 描述 性 的 属性 for_credit 来 记录 学 生 在 这 门 课 中 是 选修 还 是 旁听 ( 或 出 席 ) 的 情况 . 











student 











图 7-3 date 作为 联系 集 advisor 的 属性 


给 定 的 联系 集中 的 一 个 联系 实例 必须 是 由 其 参与 实体 唯一 标识 的 ， 而 不 必 使 用 描述 属性 。 为 了 理 
265 ] 解 这 一 点 ， 假 设 我 们 要 对 一 个 教师 成 为 一 个 特定 学 生 的 导师 的 所 有 日 期 建 模 。 单 值 的 属性 date 只 能 保 
存 一 个 日 期 。 我 们 不 能 通过 同一 个 教师 和 学 生 之 间 的 多 个 联系 实例 来 表示 多 个 日 期 ， 因 为 这 些 联 系 实 
例 仅 使 用 参与 的 实体 是 无 法 唯一 标识 的 。 正 确 的 处 理 方法 是 创建 一 个 多 值 属性 date， 它 可 以 保存 所 有 
的 日 期 。 
相同 的 实体 集 可 能 会 参与 到 多 于 一 个 联系 集中 。 在 我 们 的 例子 中 ，instructor 和 student 实体 集 参 与 
到 联系 集 advisor 中 。 另 外 ,假设 每 个 学 生 必须 有 一 名 教师 作为 他 的 系 导 师 ( 本科 或 研究 生 )， 那 么 
instructor 和 student 实体 集 将 参与 到 另 一 个 联系 集 dept_advisor 中 。 
IK A advisor 和 dept_advisor 给 出 了 二 元 (binary ) 联 系 集 的 例子 ， 即 涉及 两 个 实体 集 的 联系 集 。 数 
据 库 系 统 中 的 大 部 分 联系 集 都 是 二 元 的 。 然 而 ， 有 时 联系 集会 涉及 多 于 两 个 实体 集 。 
例如 ， 假 设 我 们 有 一 个 代表 在 大 学 内 开展 的 所 有 研究 项 目的 实体 集 project, 4 KES {KEE instrustor , 
student 和 project。 每 个 项 目 可 以 有 多 个 参与 的 学 生 和 多 个 参与 的 教师 。 另 外 ， 每 个 参与 项 目的 学 生 必 须 
有 一 个 教师 指导 他 在 项 目 中 的 工作 。 目 前 ， 我 们 忽略 项 目 和 教师 以 及 项 目 和 学 生 这 两 个 关联 ， 而 关注 
哪个 教师 在 一 个 特定 项 目 上 指导 哪个 学 生 。 为 了 表达 这 个 信息 ， 我 们 通过 关联 proj guide 将 三 个 实体 集 
联系 到 一 起 ， 它 表示 某 个 学 生 在 某 个 项 目 上 接收 了 某 个 教师 的 指导 。 
注意 ， 一 个 学 生 可 以 在 不 同 的 项 目 中 有 不 同 的 教师 作为 导师 ， 不 能 将 这 个 联系 描述 成 学 生 与 教师 
之 间 的 二 元 关系 。 
参与 联系 集 的 实体 集 的 数目 称 为 联系 集 的 度 ( degree) 。 二 元 联系 集 的 度 为 2; 三 元 联系 集 的 度 为 3。 
7.2.3 属性 
每 个 属性 都 有 一 个 可 取 值 的 集合 ， 称 为 该 属性 的 域 ( domain) ， 或 者 值 集 (value set), course_id 属性 
的 域 可 能 是 特定 长 度 的 所 有 文本 字符 串 的 集合 。 类 似 地 ， 属 性 semester 的 域 可 能 是 集合 | 秋 ， 冬 ， 春 ， 
夏 | 中 的 字符 串 。 
正规 地 说 ， 实 体 集 的 属性 是 将 实体 集 映射 到 域 的 防 数 。 由 于 一 个 实体 集 可 能 有 多 个 属性 ， 因 此 每 
个 实体 可 以 用 一 组 (属性 ， 数 据 值 ) 对 来 表示 ， 实 体 集 的 每 个 属性 对 应 一 个 这 样 的 对 。 例 如 ， 某 个 
instructor 实体 可 以 用 集合 | (ID, 76766), (name, Crick), ，( dept_name， 生 物 ) (salary, 72000) | 来 描 
述 ， 该 实体 描述 了 一 个 叫 Crick 的 人 ， 他 的 教师 编号 为 76766， 是 生物 系 的 成 员 ， 工资 为 $72 000。 从 
这 里 我 们 可 以 看 出 抽象 模式 与 被 建 模 的 实际 企业 的 结合 。 用 来 描述 实体 的 属性 值 构 成 存储 在 数据 库 中 
的 数据 的 一 个 重要 部 分 。 
E-R 模型 中 的 属性 可 以 按照 如 下 的 属性 类 型 来 进行 划分 : 
e 简单 (simple) 和 复合 (composite ) 属性 。 在 我 们 的 例子 中 ,迄今 为 止 出 现 的 属性 都 是 简单 属性 ， 
也 就 是 说 ， 它 们 不 能 划分 为 更 小 的 部 分 。 另 一 方面 ， 复 合 (composite ) 属性 可 以 再 划分 为 更 小 的 
部 分 ( 即 其 他 属性 ) 。 例 如 ， 属 性 name 可 设计 为 一 个 包括 first_name、middle_initial 和 last_name 
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的 复合 属性 。 如 果 一 个 用 户 希 望 在 一 些 场景 中 引用 完整 的 属性 ， 而 在 另外 的 场景 中 仅 引 用 属性 
的 一 部 分 ， 则 在 设计 模式 中 使 用 复合 属性 是 一 个 好 的 选择 。 假 设 我 们 要 给 student 实体 集 增加 一 
个 地 址 。 地 址 可 定义 为 包含 属性 street, city, state Fil zip_code “的 复合 属性 cddress。 复 合 属性 帮 
助 我 们 把 相关 属性 聚集 起 来 ， 使 模型 更 清晰 。 

注意 ， 复 合 属性 可 以 是 有 层次 的 。 在 复合 属性 address 中 ， 其 子 属 性 street 可 以 进一步 分 为 
street_number 、street_name 和 apartment_number。 图 7-4 描述 了 instructor 实体 集 的 这 些 复合 属性 的 


例子 。 
复合 name address 
属性 e 
or 
first_name — middle_initial — last_name street city state — postal_code 
APs, 
| 


street_number — street_name —apartment_number 


图 7-4 复合 属性 教师 name 和 address 


。 单 值 (single-valued) 和 多 值 (multivalued) 属性 。 我 们 的 例子 中 的 属性 对 一 个 特定 实体 都 只 有 单独 
的 一 个 值 。 例 如 ， 对 某 个 特定 的 学 生 实体 而 言 ，student_D 属性 只 对 应 于 一 个 学 生 ID, GX FERS 
属性 称 作 是 单 值 (single valued) 的 。 而 在 某 些 情况 下 对 某 个 特定 实体 而 言 ， 一 个 属性 可 能 对 应 
于 一 组 值 。 假 设 我 们 往 instructor 实体 集 添加 一 个 phone_number 属性 ， 每 个 教师 可 以 有 零 个 、 一 [267 | 
个 或 多 个 电话 号 码 ， 不 同 的 教师 可 以 有 不 同 数量 的 电话 。 这 样 的 属性 称 作 是 多 值 (multivalued ) 
的 。 作 为 另 一 个 例子 ， 我 们 可 以 往 实 体 集 instructor 中 添加 一 个 属性 dependent_name， 它 列 出 所 
有 的 眷属 。 这 个 属性 将 是 多 值 的 ， 因 为 任何 一 个 特定 的 教师 可 能 有 零 个 、 一 个 或 多 个 眷属 . 

为 了 表示 一 个 属性 是 多 值 的 ， 我 们 用 花 括 号 将 属性 名 括 住 ， 例 如 : | phone_number| 或 者 
| dependent_name} 。 

在 适当 的 情况 下 ， 可 以 对 一 个 多 值 属性 的 取 值 数目 设置 上 、 下 界 。 例 如 ， 一 所 大 学 可 能 将 
单个 教师 的 电话 号 码 个 数 限制 在 两 个 以 内 。 在 这 个 例子 中 设置 限制 表明 instructor 实体 集 的 
phone_number 属性 可 以 有 0 ~ 2 “MEL. 
派生 (derived) 属 性 。 这 类 属性 的 值 可 以 从 别 的 相关 属性 或 实体 派生 出 来 。 例 如 ， 让 我 们 假设 
instructor 实体 集 有 一 个 属性 students_advised， 表 示 一 个 教师 指导 了 多 少 个 学 生 。 我 们 可 以 通过 
统计 与 一 个 教师 相关 联 的 所 有 student 实体 的 数目 来 得 到 这 个 属性 的 值 。 

又 如 ， 假 设 instructor 实体 集 具 有 属性 cge， 表 示 教 师 的 年 龄 。 如 果 instructor 实体 集 还 具有 
属性 date_of_birth， 我 们 就 可 以 从 当前 的 日 期 和 date_of_birth 计算 出 age。 因 此 age 就 是 派生 属 
性 。 在 这 里 ，date_of_birth 可 以 称 为 基 属 性 ， 或 存储 的 属性 。 派 生 属 性 的 值 不 存储 ， 而 是 在 需 
要 时 计算 出 来 。 

当 实 体 在 某 个 属性 上 没有 值 时 使 用 空 (null) 值 。 空 值 可 以 表示 “不 适用 ”， 即 该 实体 的 这 个 属性 不 
存在 值 。 例如， 一 个 人 可 能 没有 中 间 名 字 。 空 还 可 以 用 来 表示 属性 值 未 知 。 未 知 的 值 可 能 是 缺失 的 ( 值 
存在 ,但 我 们 没有 该 信息 ) ， 或 不 知道 的 (我 们 并 不 知道 该 值 是 否 确实 存在 ) 。 

例如 ， 如 果 一 个 特定 的 教师 的 name 值 是 空 ， 我 们 推测 这 个 值 是 缺失 的 ， 因 为 每 个 教师 肯定 有 一 个 
Z Fo apartment_number 属性 的 空 值 可 能 意味 着 地 址 不 包括 房间 号 (不 适用 ) ， 或 房间 号 是 存在 的 但 是 我 [268 
们 不 知道 是 什么 (缺失 的 ) ， 或 者 我 们 不 知道 房间 号 是 否 是 该 教师 的 地 址 的 一 部 分 (不 知道 的 ) 。 


7.3 约束 


E-R 企业 模式 可 以 定义 一 些 数据 库 中 的 数据 必须 要 满足 的 约束 。 这 一 节 讨 论 映射 基数 以 及 参与 
约束 。 





晶 ” 我 们 假定 使 用 美国 的 地 址 格式 ， 其 中 包括 一 个 称 作 zip code 的 数字 邮政 编码 。 
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7.3.1 映射 基数 
映射 基数 (mapping cardinality) ， 或 基数 比率 ， 表 示 一 个 实体 通过 一 个 联系 集 能 关联 的 实体 的 个 数 。 
映射 基数 在 描述 二 元 联系 集 时 非常 有 用 ， 尽 管 它们 可 以 用 于 描述 涉及 多 于 两 个 实体 集 的 联系 集 。 
在 这 一 节 中 ， 我 们 将 只 集中 在 二 元 联系 集 上 。 
对 于 实体 集 4 和 B 之 间 的 二 元 联系 集 RR 来 说 ， 映 射 基数 必然 是 以 下 情况 之 一 : 
e 一 对 一 (one-to-one) 。4 中 的 一 个 实体 至 多 与 B 中 的 一 个 实体 相关 联 ， 并 且 B 中 的 一 个 实体 也 至 
多 与 4 中 的 一 个 实体 相关 联 (如 图 7-5a 所 示 )。 
e 一 对 多 (one-to-many) 。4 中 的 一 个 实体 可 以 与 B 中 的 任意 数目 ( 零 个 或 多 个 ) 实 体 相关 联 ， 而 B 
中 的 一 个 实体 至 多 与 4 中 的 一 个 实体 相关 联 ( 如 图 7-5b 所 示 ) 。 
© 多 对 一 (many-to-one) 。 4 中 的 一 个 实体 至 多 与 B 中 的 一 个 实体 相关 联 ， 而 B 中 的 一 个 实体 可 以 
与 4 中 任意 数目 ( 零 个 或 多 个 ) 实 体 相 关联 (如 图 7-6a 所 示 ). 
© 多 对 多 (many-to-many) 。4 中 的 一 个 实体 可 以 与 B 中 任意 数目 ( 零 个 或 多 个 ) 实 体 相关 联 ， 而 且 
B 中 的 一 个 实体 也 可 以 与 4 中 任意 数目 ( 零 个 或 多 个 ) 实体 相关 联 (如 图 7-6b 所 示 ) 。 
显然 ， 一 个 特定 联系 集 的 适当 的 映射 基数 依赖 于 该 联系 集 所 建 模 的 现实 世界 的 情况 。 
作为 例子 ， 考 虑 advisor 联系 集 。 如 果 在 一 所 特定 的 大 学 中 ,一 名 学 生 只 能 由 一 名 教师 指导 ， 而 一 
名 教师 可 以 指导 多 个 学 生 ， 那 么 instructor 到 student 的 联系 集 是 一 对 多 的 。 如 果 一 名 学 生 可 以 由 多 名 教 
师 指导 ( 比如 学 生 可 以 由 多 名 教师 共同 指导 ) ， 那 么 此 联系 集 是 多 对 多 的 。 

















a) 一 对 一 b) 一 对 多 


























a) 多 对 一 b) 多 对 多 
图 7-6 映射 基数 


7.3.2 参与 约束 

如 果实 体 集 E 中 的 每 个 实体 都 参与 到 联系 集 R 的 至 少 一 个 联系 中 ， 实 体 集 在 联系 集 RR 中 的 参与 
AER total) Hj. WR E 中 只 有 部 分 实体 参与 到 R 的 联系 中 ,实体 集 E 到 联系 集 R 的 参与 称 为 部 分 
(partial) 的。 在 图 7-5a F, B 在 联系 集中 的 参与 是 全 部 的 ， 而 4 在 联系 集中 的 参与 是 部 分 的 ; 在 图 7-5b 
中 ,4 和 B 在 联系 集中 的 参与 都 是 全 部 的 。 
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例如 ， 我 们 期 望 每 个 student 实体 通过 advisor 联系 同 至 少 一 名 教师 相 联系 ， 因 而 student 在 联系 集 advisor 
中 的 参与 是 全 部 的 。 相 反 地 ， 一 个 instructor 不 是 必须 要 指导 一 个 学 生 。 因 此 ， 很 可 能 只 有 一 部 分 instructor 
实体 通过 advisor 联系 同 student 实体 集 相 关联 ， 于 是 instructor 在 advisor 联系 集中 的 参与 是 部 分 的 。 

7.3.3 码 

我 们 必须 有 一 个 区 分 给 定 实体 集中 的 实体 的 方法 。 从 概念 上 来 说 ， 各 个 实体 是 互 异 的 ; 但 从 数据 
库 的 观点 来 看 ， 它 们 的 区 别 必 须 通 过 其 属性 来 表明 。 

因此 ， 一 个 实体 的 属性 的 值 必须 可 以 唯一 标识 该 实体 。 也 就 是 说 ， 在 一 个 实体 集中 不 允许 两 个 实 
体 对 于 所 有 属性 都 具有 完全 相同 的 值 。 

2.3 节 定 义 的 关系 模式 的 码 的 概念 直接 适用 于 实体 集 。 即 实体 的 码 是 一 个 足以 区 分 每 个 实体 的 属 
性 集 。 关 系 模 式 中 的 超 码 、 候 选 码 、 主 码 的 概念 同样 适用 于 实体 集 。 

码 同样 用 于 唯一 地 标识 联系 ， 并 从 而 将 联系 互相 区 分 开 来 。 我 们 在 下 面 定 义 联系 的 码 的 相应 概念 。 

实体 集 的 主 码 使 得 我 们 可 以 区 分 实体 集中 不 同 的 实体 。 我 们 需要 一 种 类 似 的 机 制 来 区 分 联系 集中 
不 同 的 联系 。 

设 尺 是 一 个 涉及 实体 集 局 ，E,，…，E, 的 联系 集 。 设 主 码 (E;) 代 表 构 成 实体 集 E, 的 主 码 的 属性 
集合 。 目 前 我 们 假设 所 有 主 码 的 属性 名 是 互 不 相同 的 。 联 系 集 主 码 的 构成 依赖 于 同 联系 集 R 相关 联 的 
属性 集合 。 

如 果 联 系 集 尺 没有 属性 与 之 相关 联 ， 那 么 属性 集合 

primary-key(E, ) U primary-key( E, ) U ++- U primary-key( E, ) 
描述 了 集合 R 中 的 一 个 联系 。 
如 果 联 系 集 尺 有 属性 ci a, o, an 与 之 相关 联 ， 那 么 属性 集合 
primary-key( E, ) Uprimary-key( E, ) UUprimary-key(E,) Ula, a, °°, ap! 
描述 了 集合 R 中 的 一 个 联系 。 
在 以 上 两 种 情况 下 ， 属 性 集合 
primary-key(E, ) U primary-key( E, ) U +- U primary-key( E, ) 
构成 了 联系 集 的 一 个 超 码 。 

如 果实 体 集 间 主 码 的 属性 名 称 不 是 互 不 相同 的 ， 重 命名 这 些 属性 以 区 分 它们 ; 实体 集 的 名 字 加 上 
属性 名 可 以 构成 唯一 的 名 称 。 如 果 一 个 实体 集 不 止 一 次 参与 某 个 联系 集 ( 如 7.2.2 节 中 的 prereg 联系 )， 
则 使 用 角色 名 代替 实体 集 名 构成 唯一 的 属性 名 。 

联系 集 的 主 码 结构 依赖 于 联系 集 的 映射 基数 。 例 如 ， 考 虑 在 7.2.2 TPH LA instructor 和 
student 以 及 具有 属性 date 的 联系 集 advisor。 假 设 联系 集 是 多 对 多 的 ， 那 么 advisor 的 主 码 由 instructor 和 
student 的 主 码 的 并 集 组 成 。 如 果 联 系 是 从 student 到 instructor 多 对 一 的 ， 即 每 个 学 生 最 多 只 能 有 一 个 导 
师 ， 则 student 的 主 码 就 是 advisor 的 主 码 。 而 如 果 一 名 教师 只 能 指导 一 名 学 生 ， 即 联系 是 从 instructor 到 
student 多 对 一 的 ， 则 instructor 的 主 码 就 是 advisor 的 主 码 。 对 于 一 对 一 的 联系 ， 两 个 候选 码 中 的 任意 一 
个 可 以 用 作 主 码 。 

对 于 非 二 元 联系 ， 如 果 没 有 基数 的 限制 ， 那 么 在 本 节 开 始 时 描述 的 超 码 就 是 唯一 的 候选 码 ， 并 被 选 
为 主 码 。 如 果 有 基数 的 限制 ， 主 码 的 选择 就 复杂 多 了 。 因 为 我 们 还 没有 讨论 如 何在 非 二 元 关系 中 描述 基 
数 约束 ， 所 以 我 们 在 本 章 中 不 对 此 做 更 多 的 讨论 。 我 们 将 在 7.5.5 节 和 8.4 节 详 细 地 考虑 这 个 问题 。 


7.4 ”从 实体 集中 删除 元 余 属性 


当 我 们 使 用 E-R 模型 设计 数据 库 时 ， 我 们 通常 从 确定 那些 应 当 包含 的 实体 集 开 始 。 例 如 ， 在 我 们 
迄今 所 讨论 的 大 学 机 构 中 ， 我 们 想 要 包含 如 student 和 instructor 等 实体 集 。 当 决定 好 实体 集 后 ， 我 们 必 
须 挑选 适当 的 属性 ， 这 些 属性 要 表示 我 们 在 数据 库 中 所 捕获 的 不 同 的 值 。 在 大 学 机 构 中 ， 我 们 为 
instructor 实体 集 设计 了 包括 ID, name, dept_name 以 及 salary 几 个 属性 ， 我 们 还 可 以 增加 phone_number、 
office_number 、home_page 等 属性 。 要 包含 哪些 属性 的 选择 决定 于 了 解 企业 结构 的 设计 者 。 

一 旦 选择 好 实体 和 它们 相应 的 属性 ， 不 同 实 体 间 的 联系 集 就 建立 起 来 了 。 这 些 联系 集 有 可 能 会 导 
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致 不 同 实 体 集中 的 属性 元 余 ， 并 需要 将 其 从 原始 实体 集中 删除 。 为 了 说 明 这 一 点 ， 考 虑 实体 集 
instructor Hl department: 
© 实体 集 instructor 包含 属性 ID, name, dept_name 以 及 salary， 其 中 ID FARES. 
© 实体 集 department 包含 属性 dept_name 、building 以 及 budget, EP dept_name 构成 主 码 。 
272 我 们 用 关联 instructor 和 department 的 联系 集 inst_dept 对 每 个 教师 都 有 一 个 关联 的 系 的 情况 建 模 。 
属性 dept_name 在 两 个 实体 集中 都 出 现 了 。 由 于 它 是 实体 集 department 的 主 码 ， 因 此 它 在 实体 集 
instructor 中 是 元 余 的 ， 需 要 将 其 移 除 。 
从 实体 集 instructor 中 移 除 属性 dept_name 可 能 不 是 那么 直观 ， 因 为 我 们 在 前 几 章 所 用 到 的 关系 
instructor 中 具有 dept_name 属性 。 我 们 将 在 后 面 看 到 ， 当 我 们 从 E-R 图 构建 一 个 关系 模式 时 ， 只 有 当 每 
个 教师 最 多 只 与 一 个 系 关联 时 ， 属 性 dept_name 才 会 添加 到 关系 instructor 中 。 如 果 一 个 教师 有 多 个 关联 
的 系 时 ， 教 师 与 系 之 间 的 联系 会 记录 在 一 个 单独 的 关系 inst_dept 中 。 
将 教师 和 系 之 间 的 关联 统一 看 成 联系 ， 而 不 是 instructor 的 一 个 属性 ， 使 得 逻辑 关系 明确 ， 并 有 助 
于 避免 过 早 地 假设 每 个 教师 只 与 一 个 系 关联 。 
类 似 地 ， 实 体 集 student 通过 联系 集 student_dept 与 实体 集 department 关联 ， 因 而 student 中 不 需要 
dept_name 属性 。 
作为 另 一 个 例子 ， 考 虑 开课 (section) 和 开课 的 时 段 。 每 个 时 段 都 由 time_slot_id 标识 ， 并 且 和 上 课 
时 间 的 集合 相关 联 ， 每 次 上 课时 间 都 由 星期 几 、 开 始 时 间 以 及 结束 时 间 标 识 。 我 们 打算 使 用 多 值 复合 
属性 对 上 课时 间 集 合 建 模 。 假 设 我 们 对 实体 集 section 和 time_slot 按 以 下 方式 建 模 : 
e 实体 集 section 包含 属性 course_id, sec_id, semester, year, building, room_number 以 及 time_slot 
id， 其 中 (course_id、sec_id、year、semester ) 构 成 主 码 。 
。 实体 集 time_slot 包含 主 码 属性 time_slot_id， 以 及 一 个 多 值 复合 属性 | (day, start_time, 
end_time) | 9 
这 些 实体 通过 联系 集 sec_time_slot 相互 关联 。 
属性 time_slot_id 在 两 个 实体 集中 均 出 现 。 由 于 它 是 实体 集 time_slot 的 主 码 ， 因 此 它 在 实体 集 
section 中 是 元 余 的 ， 并 且 需 要 将 其 删除 。 
作为 最 后 的 例子 ， 假 设 我 们 有 一 个 实体 集 classroom， 包 含 属性 building、room_number 以 及 capacity , 
主 码 由 building Fl room_number 组成。 再 假设 我 们 有 一 个 联系 集 sec_class， 将 section 和 classroom 关联 在 
一 起 。 那 么 属性 | building，room_number| 在 实体 集 section 中 是 元 余 的 。 
一 个 好 的 实体 - 联系 设计 不 包含 宛 余 的 属性 。 对 于 我 们 的 大 学 的 例子 ， 我 们 在 下 面 列 出 实体 集 以 
及 它们 的 属性 ， 主 码 以 下 划 线 标明 。 
e classroom : 4, JATE ( building, room_number, capacity) 。 
department : 包含 属性 ( dept_name, building, budget) 。 
course : 包含 属性 (course_id、iitle、credits) 。 
instructor : 包含 属性 (ID、name、salary) 。 
section : (17 JRE ( course_id, sec_id, semester, year) 。 
e student : 包含 属性 (ID、name、tot_cred) 。 
e time_slot : 包含 属性 (time_slot_id, |(day, start_time, end_time) | ) . 
我 们 设计 的 联系 集 如 下 。 
e inst_dept: 关联 教师 和 系 。 
© stud_dept: 关联 学 生 和 系 。 
© teaches: 关联 教师 和 开课 。 








日” 我 们 将 在 后 面 看 到 由 实体 集 time_slot 构建 的 关系 的 主 码 包含 day 以 及 start_time, iii, day 和 start_time 并 不 是 
实体 集 time_slot 的 主 码 一 部 分 。 
© ”我们 可 以 给 包含 day, start_time 以 及 end_time 的 复合 属性 选择 一 个 名 字 ， 例 如 meeting. 
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。 takes: 关联 学 生 和 开课 ,包含 描述 性 属性 grade, 

© course_dept: 关联 课程 和 系 。 

© sec_course; 关联 开课 和 课程 。 

e sec_class: 关联 开课 和 教室 。 

© sec_time_slot; 关联 开课 和 时 段 。 

e advisor : 关联 学 生 和 教师 。 

© prereq: 关联 课程 和 先 修 课 程 。 

你 可 以 验证 没有 任何 一 个 实体 集 包含 由 联系 集 而 造成 元 余 的 属性 ; 另外 ， 你 可 以 验证 我 们 此 前 在 
第 2 章 的 图 2-8 中 看 到 的 大 学 数据 库 关系 模式 中 的 所 有 的 信息 (除了 约束 ) 全 部 包含 在 上 述 的 设计 中 ， 
只 是 关系 设计 中 的 几 个 属性 被 E-R 设计 中 的 联系 所 替代 


7.5 实体 -联系 图 


1.3.3 节 曾 经 简要 地 介绍 过 ，E-R 图 (E-R diagram) 可 以 图 形 化 表示 数据 库 的 全 局 逻辑 结构 。E-R 
图 既 简单 又 清晰 ， 这 些 是 致使 E-R 模型 广泛 使 用 的 重要 性 质 。 





7.5.1 基本 结构 
E-R 图 包括 如 下 几 个 主要 构件 : [274] 
。 分 成 两 部 分 的 矩形 代表 实体 集 。 本 书 中 有 阴影 的 第 一 部 分 包含 实体 集 的 名 字 ， 第 二 部 分 包含 实 
体 集中 所 有 属性 的 名 字 。 


© BHKRRRKAR. 

。 未 分 割 的 矩形 代表 联系 集 的 属性 。 构 成 主 码 的 属性 以 下 划 线 标明 。 

© 线段 将 实体 集 连 接 到 联系 集 。 

。 虚线 将 联系 集 属性 连接 到 联系 集 。 

© 双 线 显示 实体 在 联系 集中 的 参与 度 。 

© 双 萎 形 代表 连接 到 弱 实体 集 的 标志 性 联系 集 ( 我 们 将 在 7.5.6 节 讲 述 标 志 性 联系 集 和 弱 实 体 

集 )。 

考虑 图 7-7 中 的 E-R 图 ， 它 由 通过 二 元 联系 集 advisor 关联 的 两 个 实体 集 instructor 和 student 组 成 。 
同 instructor 相关 联 的 属性 为 ID, name 和 salary. |F] student 相关 联 的 属性 为 ID, name 和 tot_cred。 如 
图 7-7 所 示 ， 实 体 集 的 属性 中 那些 组 成 主 码 的 属性 以 下 划 线 标明 。 

如 果 一 个 联系 集 有 关联 的 属性 ， 那 么 我 们 将 这 些 属 性 放 和 人 一 个 矩形 中 ,并 且 用 虚线 将 该 矩形 与 代 
表 联 系 集 的 菱形 连接 起 来 。 例 如 ， 在 图 7-8 中 ， 我 们 有 描述 性 属性 date 附带 到 联系 集 advisor L, RR 
教师 成 为 导师 的 日 期 。 


ID advisor ID 


name name 
salary tot_cred 


图 7-7 对 应 于 教师 和 学 生 的 E-R 图 














date 


| instructor | | student | 


1D advisor ID 
name name 








salary tot_cred 


图 7-8 联系 集 上 附带 了 一 个 属性 的 E-R 图 275 
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276 


7.5.2 映射 基数 


实体 集 instructor 和 student 之 间 的 联系 集 advisor 可 以 是 一 对 一 、 一 对 多 、 多 对 一 或 多 对 多 的 。 为 了 
区 别 这 些 类 型 ， 我 们 在 所 讨论 的 联系 集 和 实体 集 之 间 画 一 个 箭头 (一 ) 或 一 条 线段 (一 ) ， 如 下 所 示 。 


e 一 对 一 : 我 们 从 联系 集 advisor 向 实体 集 instructor 和 student 
各 画 一 个 箭头 ( 见 图 7-9a) 。 这 表示 一 名 教师 可 以 指导 至 多 ID 
一 名 学 生 ， 并 且 一 名 学 生 可 以 有 至 多 一 位 导师 。 aise 





instructor 





salary 
。 一 对 多 : 我 们 从 联系 集 advisor 画 一 个 箭头 到 实体 集 
instructor， 以 及 一 条 线段 到 实体 集 student( 见 图 7-9b)。 
这 表示 一 名 教师 可 以 指导 多 名 学 生 ， 但 一 名 学 生 可 以 有 
至 多 一 位 导师 。 
© 多 对 一 : 我 们 从 联系 集 advisor 画 一 条 线段 到 实体 集 
instructor， 以 及 一 个 箭头 到 实体 集 student。 这 表示 一 名 教 
师 可 以 指导 至 多 一 名 学 生 ， 但 一 名 学 生 可 以 有 多 位 导师 。 
© 多 对 多 : 我 们 从 联系 集 advisor 向 实体 集 instructor 和 1D 
student 各 画 一 条 线段 ( 见 图 7-9e)。 这 表示 一 名 教师 可 | sm 
以 指导 多 名 学 生 ， 并 且 一 名 学 生 可 以 有 多 位 导师 。 
E-R 图 还 提供 了 一 种 描述 每 个 实体 参与 联系 集中 的 联系 的 次 
数 的 更 复杂 的 约束 的 方法 。 实 体 集 和 二 元 联系 集 之 间 的 一 条 边 
可 以 有 一 个 关联 的 最 大 和 最 小 的 映射 基数 ， 用 1..h 的 形式 表示 ， 


ID 
name 
salary 


instructor 





14 


<< 


a) 一 对 一 





student 


a 


tot_cred 


| student | 


tot_cred 


ID 


name 


ID 
name 











c) 多 对 多 
图 7-9 联系 


student 
ID 

name 
tot_cred 





其 中 /表示 最 小 的 映射 基数 ， 而 h 表示 最 大 的 映射 基数 。 最 小 值 为 1 表示 这 个 实体 集 在 该 联系 集中 全 部 
参与 ， 即 实体 集中 的 每 个 实体 在 联系 集中 的 至 少 一 个 联系 中 出 现 。 最 大 值 为 1 表示 这 个 实体 参与 至 多 一 


个 联系 ， 而 最 大 值 为 * 代表 没有 限制 。 


例如 ， 考 虑 图 7-10， 在 advisor 和 student 之 间 的 边 有 1.. 1 的 基数 约束 ， 意 味 着 基数 的 最 小 值 和 最 
大 值 都 是 1。 也 就 是 ， 每 个 学 生 必 须 有 且 仅 有 一 个 导师 。 从 advisor 到 instructor 边 上 的 约束 0.. * 说 明教 
师 可 以 有 零 个 或 多 个 学 生 。 因 此 ，advisor 联系 是 从 instructor 到 student 的 一 对 多 联系 ， 更 进一步 地 讲 ， 


student 在 advisor 联系 中 的 参与 是 全 部 的 ， 表 示 一 个 学 生 必须 有 一 个 导师 。 
[student | 


ee 


ID + i ID 


name 
salary 


name 


图 7-10 联系 集 上 的 基数 约束 


很 容易 将 左 侧 边 上 的 0.. * 曲解 为 联系 advisor 是 从 instructor 到 
student 多 对 一 的 ， 而 这 正好 和 正确 的 解释 相反 。 

如 果 两 条 边 都 有 最 大 值 1， 那 么 这 个 联系 是 一 对 一 的 。 如 果 我 们 
在 左 侧 边 上 标明 基数 约束 1.. * ， 我 们 就 可 以 说 每 名 教师 必须 指导 至 少 
一 名 学 生 。 

图 7-10 中 的 E-R 图 的 另 一 种 画 法 是 在 基数 约束 的 位 置 画 一 条 从 
student 到 advisor 的 双 线 ， 以 及 一 个 从 advisor 到 instructor 的 箭头 。 这 种 
画 法 可 以 强制 实施 同 图 7-10 中 所 示 约 束 完全 一 样 的 约束 。 

7.5.3 复杂 的 属性 

图 7-11 说 明了 怎样 在 E-R 图 中 表示 复合 属性 。 这 里 一 个 具有 子 
属性 first_name, middle_initial 和 last_name 的 复合 属性 name 代替 了 
instructor 的 简单 属性 name。 再 例如 ， 假 定 我 们 给 实体 集 instructor 增加 
一 个 地 址 。 地 址 可 以 定义 为 具有 属性 street. city, state 和 zip_code 的 


tot_cred 


图 7-11 





name 
first_name 
middle_initial 
last_name 
address 
street 
street_number 
street_name 
apt_number 
city 
state 
zip 
{ phone_number | 
date_of_birth 
| age() 











派生 属性 的 E-R 图 


包含 复合 、 多 值 和 
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复合 属性 address, JR YE street 本身 也 是 一 个 复合 属性 ， 其 子 属性 为 street_number, street name 和 
apartment_number > 

在 图 7-11 还 给 出 了 一 个 由 “|phone_number| ”表示 的 多 值 属性 phone_number 和 一 个 由 “| agel)” # 
示 的 派生 属性 age。 
7.5.4 角色 

在 E-R 图 中 ， 我 们 通过 在 菱形 和 和 拢 形 之 间 的 连 线 上 进行 标注 来 表示 角色 。 图 7-12 给 出 了 course X 
体 集 和 prereq 联系 集 之 间 的 角色 标识 course_id 和 prereq_id. 


course_id 
course id 
credits 


图 7-12 包含 角色 标识 的 E-R 图 
















7.5.5 非 二 元 的 联系 集 
非 二 元 的 联系 集 也 可 以 在 E-R 图 中 简单 地 表示 。 图 7- 13 包含 三 个 实体 集 instructor, student 和 277 
project， 它 们 通过 联系 集 proj_guide 相关 联 。 278 





















ID 
name 
tot_cred 


ID 


name 
salary 










图 7-13 包含 三 元 联系 的 E-R A 


在 非 二 元 的 联系 集中 ， 我 们 可 以 表示 某 些 类 型 的 多 对 一 联系 。 假 设 一 个 studet 在 每 个 项 目 上 最 多 
只 能 有 一 位 导师 。 这 种 约束 可 用 从 proj_guide 的 边 指向 instructor 的 箭头 来 表示 。 
在 一 个 联系 集 外 我 们 至 多 允许 一 个 箭头 ， 因 为 在 一 个 非 二 元 的 联系 集 外 包含 两 个 或 更 多 箭头 的 下 - 
R 图 可 以 用 两 种 方法 解释 。 假 设 实 体 集 4, A4, ，…，4, 之 间 有 联系 集 R， 并 且 只 有 指向 实体 集 4.,,， 
4 ，…，4, 的 边 是 箭头 。 那 么 ， 两 种 可 能 的 解释 为 : 
。 KAA, A, ，…，4; 的 实体 的 一 个 特定 组 合 可 以 和 至 多 一 个 来 自 4;,, ，4;,,，，…, A, 的 实体 组 
合 相关 联 。 因 而 联系 R 的 主 码 可 以 用 4, ，4,，…，4, 的 主 码 的 并 集 来 构造 。 
© 对 每 个 实体 集 4;，i <k<n， 来 自 其 他 实体 集 的 实体 的 每 个 组 合 可 以 和 来 自 A, 的 至 多 一 个 实体 
相关 联 。 于 是 对 于 i<k<n， 每 个 集合 |4, ，4, ，…，4 -1 ，4;,1，…，4,| 构 成 一 个 候选 码 。 
这 两 种 解释 在 不 同 的 书 和 系统 中 使 用 。 为 了 避免 混淆 ， 我 们 只 允许 在 一 个 联系 集 外 有 一 个 箭头 ， 
在 这 种 情况 下 这 两 种 解释 是 等 价 的。 在 第 8 章 中 (8.4 节 ) 我 们 学 习 函 数 依 赖 ， 它 允许 以 一 种 不 会 混淆 
的 方式 描述 这 两 种 解释 。 
7.5.6 弱 实 体 集 
考虑 一 个 section 实体 ， 它 由 课程 编号 、 学 期 、 学 年 以 及 开课 编号 唯一 标识 。 显 然 ， 开 课 实 体 和 课 
程 实体 相关 联 。 假 定 我 们 在 实体 集 section 和 course 之 间 创 建 了 一 个 联系 集 sec_course。 
现在 ， 发 现 sec_course 中 的 信息 是 元 余 的 ， 由 于 section 已 有 属性 course_id， 它 标识 该 开课 所 关联 的 
课程 。 消 除 这 种 元 余 的 一 个 方法 是 删除 联系 sec_course; 然而 ， 这 人 么 做 使 得 section 和 course 之 间 的 联系 
隐 含 于 一 个 属性 中 ， 这 并 不 是 我 们 想 要 的 。 
消除 这 种 元 余 的 男 一 个 方法 是 在 实体 section 中 不 保存 属性 course_ 这 ， 而 只 保存 剩 下 的 属性 sec_id , 
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year 以 及 semester “。 然 而 ， 这 样 的 话 实体 集 section 就 没有 足够 的 属性 唯一 标识 一 个 指定 的 section 实体 ; 
即使 每 个 section 实体 都 是 唯一 的 ， 不 同 课程 的 开课 也 可 能 会 有 相同 的 sec_id、year 以 及 semester。 为 解 
决 这 个 问题 ， 我 们 将 联系 sec_course 视 为 一 个 特殊 的 联系 ， 它 给 唯一 标识 section 实体 提供 额外 信息 ， 即 
course_id. 

弱 实 体 集 的 概念 对 上 述 想法 进行 了 正式 的 规定 。 没 有 足够 的 属性 以 形成 主 码 的 实体 集 称 作 弱 实 体 
集 (weak entity set) 。 有 主 码 的 实体 集 称 作 强 实体 集 ( strong entity set) 。 

弱 实 体 集 必须 与 另 一 个 称 作 标识 (identifying ) 或 属 主 实体 集 (owner entity set) 的 实体 集 关 联 才 能 有 意 
义 。 每 个 弱 实体 必须 和 一 个 标识 实体 关联 ; 也 就 是 说 ， 弱 实体 集 存在 依赖 ( existence dependent) 于 标识 
实体 集 。 我 们 称 标识 实体 集 拥 有 (own ) 它 所 标识 的 弱 实 体 集 。 将 弱 实 体 集 与 其 标识 实体 集 相 联 的 联系 
称 为 标识 性 联系 (identifying relationship ) 。 

标识 性 联系 是 从 弱 实 体 集 到 标识 实体 集 多 对 一 的 ， 并 且 弱 实体 集 在 联系 中 的 参与 是 全 部 的 。 标 识 
性 联系 集 不 应 该 有 任何 描述 性 属性 ， 因 为 这 种 属性 中 的 任意 一 个 都 可 以 与 弱 实 体 集 相关 联 。 

在 我 们 的 例子 中 section 的 标识 实体 集 是 course， 将 section 实体 和 它们 对 应 的 course 实体 关联 在 一 
起 的 sec_course 是 标识 性 联系 。 

虽然 弱 实 体 集 没 有 主 码 ， 但 是 我 们 仍 需要 区 分 依赖 于 特定 强 实体 集 的 弱 实 体 集中 的 实体 的 方法 。 
弱 实体 集 的 分 辩 符 (discriminator) 是 使 得 我 们 进行 这 种 区 分 的 属性 集合 。 例 如 ， 弱 实体 和 集 section 的 分 辩 
符 由 属性 sec_id、year 以 及 semester 组 成 ， 因 为 对 每 门 课程 来 说 ， 这 个 属性 集 唯 一 标识 了 这 门 课程 的 一 
次 开课 。 弱 实体 集 的 分 辨 符 也 称 为 该 实体 集 的 部 分 码 。 

弱 实 体 集 的 主 码 由 标识 实体 集 的 主 码 加 上 该 弱 实 体 集 的 分 辩 符 构成 。 在 实体 集 section 的 例子 中 ， 
它 的 主 码 是 | course_id, sec_id, year, semester} ， 其 中 course_id 是 标识 实体 集 course 的 主 码 ，| sec_id,， 
year, semester} 区 分 同一 门 课程 的 不 同 section 实体 。 

注意 ， 我 们 可 以 选择 使 sec_id 对 于 大 学 所 提供 的 所 有 课程 都 不 重复 ， 在 这 种 情况 下 实体 集 section 

将 会 具有 一 个 主 码 。 然 而 ， 一 个 section 的 存在 在 概念 上 仍 依赖 于 一 个 course， 通 过 使 之 成 为 弱 实 体 集 可 

以 明确 这 种 依赖 关系 。 

在 E-R 图 中 ， 弱 实体 集 和 强 实体 集 类 似 ， 以 和 矩形 表示 ,但 是 有 两 点 主要 的 区 别 : 

© 弱 实 体 集 的 分 辨 符 以 虚 下 划 线 标明 ， 而 不 是 实 线 。 

。 关联 弱 实 体 集 和 标识 性 强 实体 集 的 联系 集 以 双 鞭 形 表示 。 

在 图 7-14 P, IEEE section 通过 联系 集 sec_course 依赖 于 强 实体 集 course, 


course_id 


3 sec_id 
title semester 


credits 





7-14 包含 弱 实 体 集 的 E-R 图 


该 图 还 表明 了 如 何 使 用 双 线 表明 全 部 参与 ; ( 弱 ) 实体 集 section 在 联系 sec_course 中 的 参与 是 全 部 
的 ， 表 示 每 次 开课 都 必须 通过 sec_course 同 某 门 课程 关联 。 最 后 ， 从 sec_course 指向 course 的 箭头 表示 每 
次 开课 与 单 门 课程 相关 联 。 

弱 实 体 集 可 以 参与 标识 性 联系 以 外 的 其 他 联系 。 例 如 ，section 实体 可 以 和 time_slot 实体 集 参 与 一 
个 联系 ， 以 标识 开课 的 时 间 。 弱 实体 集 可 以 作为 属 主 与 另 一 个 弱 实 体 集 参与 一 个 标识 性 联系 。 一 个 弱 
实体 集 也 可 能 与 不 止 一 个 标识 实体 集 关联 。 这 样 ， 一 个 特定 的 弱 实体 将 被 一 个 实体 的 组 合 标识 ， 其 中 
每 个 标识 实体 集 有 一 个 实体 在 该 组 合 中 。 弱 实体 集 的 主 码 可 以 由 标识 实体 集 的 主 码 的 并 集 加 上 弱 实 体 
集 的 分 辩 符 组 成 。 

在 某 些 情况 下 ， 数 据 库 设计 者 会 选择 将 一 个 弱 实 体 集 表示 为 属 主 实体 集 的 一 个 多 值 复合 属性 。 在 





O 注意， 即使 我 们 从 实体 集 section PERT course_id 属性 ， 但 因为 后 面 会 看 清楚 的 一 些 原 因 ， 我 们 最 终 从 实体 集 
section 构建 的 关系 模式 还 是 具有 course_id 属性 的 。 
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我 们 的 例子 中 ， 这 种 方法 需要 实体 集 course 具有 一 个 多 值 复合 属性 section。 如 果 弱 实体 集 只 参与 标识 性 
联系 ， 而 且 其 属性 不 多 ， 那 么 在 建 模 时 将 其 表示 为 一 个 属性 更 恰当 。 相 反 地 ， 如 果 弱 实体 集 参 与 到 标 
识 性 联系 以 外 的 联系 中 ,或 者 其 属性 较 多 ， 则 建 模 时 将 其 表示 为 弱 实 体 集 更 恰当 。 很 明显 ，section 不 
符合 建 模 成 多 值 复合 属性 的 要 求 ， 而 将 其 建 模 为 弱 实 体 集 更 恰当 。 
7.5.7 大 学 的 E-R 

7-15 展示 了 本 书 迄 今 所 使 用 的 大 学 所 对 应 的 E-R 图 。 除 了 增加 了 若干 约束 ， 以 及 section 为 弱 实 
体 以 外 ,该 E-R 图 与 我 们 在 7. 4 节 中 看 到 的 大 学 E-R 模型 的 文字 性 描述 等 价 。 

在 我 们 的 大 学 数据 库 中 ， 我 们 限制 每 名 教师 必须 有 且 仅 有 一 个 相关 联 的 系 。 因 此 ， 如 图 7-15 所 
示 ， 在 instructor 和 inst_dept 之 间 有 一 条 双 线 ， 表 示 instructor 在 inst_dept 中 全 部 参与 ; 即 每 名 教师 必须 
和 一 个 系 相关 联 。 另 外 ， 存 在 一 个 从 inst_dept 到 department 的 箭头 ， 表 示 每 个 教师 可 以 有 至 多 一 个 相关 
联 的 系 。 

类 似 地 ， 实 体 集 course 和 student 分 别 与 联系 集 course_dept 和 stud_dept 用 双 线 连接 ， 实 体 集 section 
和 联系 集 sec_time_slot 亦 如 此 。 前 面 的 两 个 联系 分 别 通过 箭头 指向 另 一 个 联系 departme， 而 第 三 个 联 
系 通过 箭头 指向 time_slot。 

此 外 ， 图 7-15 显示 联系 集 takes 具有 一 个 描述 性 属性 grade， 以 及 每 个 学 生 有 至 多 一 位 导师 。 该 图 
还 表明 目前 section 是 一 个 弱 实 体 集 ， 由 属性 sec_id、semester 以 及 year 组 成 分 辩 符 ; sec_course 是 连接 弱 
实体 集 section 和 强 实体 集 course 的 标识 性 联系 集 。 

7.6 节 将 介绍 E-R 图 能 够 如 何 用 于 转换 为 我 们 使 用 的 各 个 关系 模式 。 








Sec_time_slot 





7-15 大 学 的 E-R 图 


7.6 转换 为 关系 模式 


我 们 可 以 将 一 个 符合 E-R 数据 库 模 式 的 数据 库 表示 为 一 些 关 系 模式 的 集合 。 在 数据 库 设计 中 ， 对 
于 每 个 实体 集 以 及 对 于 每 个 联系 集 ， 都 有 唯一 的 关系 模式 与 之 对 应 ， 关 系 模式 名 即 为 相应 的 实体 集 或 
联系 集 的 名 称 。 

E-R 模型 和 关系 数据 库 模型 都 是 现实 世界 企业 抽象 的 逻辑 表示 。 由 于 两 种 模型 采用 类 似 的 设计 原 
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则 ， 因 此 我 们 可 以 将 E-R 设计 转换 为 关系 设计 。 

这 一 节 描 述 如 何 用 关系 模式 来 表示 E-R 模式 ， 以 及 如 何 将 E-R 设计 中 提出 的 约束 映射 到 关系 模式 
上 的 约束 。 
7.6.1 具有 简单 属性 的 强 实体 集 的 表示 

设 五 是 只 具有 简单 描述 性 属性 w ，o ，…，o, 的 强 实体 集 。 我 们 用 具有 个 不 同属 性 的 模式 EE 来 
表示 这 个 实体 集 。 该 模式 的 关系 中 的 每 个 元 组 同 实体 集 五 的 一 个 实体 相对 应 。 

对 于 从 强 实体 集 转换 而 来 的 模式 ， 强 实体 集 的 主 码 就 是 生成 的 模式 的 主 码 。 这 个 结论 是 从 每 个 元 
组 都 对 应 于 实体 集中 的 一 个 特定 实体 这 个 事实 直接 得 到 的 。 

例如 ， 考 虑 图 7-15 中 E-R 图 的 实体 集 student。 该 实体 集 有 三 个 属性 : ID, name 和 tot_cred, RAI 
FARA student 的 模式 来 表示 这 个 实体 集 ， 它 有 三 个 属性 : 


student(ID, name, tot_cred) 


注意 ， 由 于 学 生 ID 是 实体 集 的 主 码 ， 因 此 它 也 是 该 关系 模式 的 主 码 。 
282 继续 我 们 的 例子 ， 对 于 图 7-15 中 的 E-R EL, K time slot 以 外 的 所 有 的 强 实 体 集 只 有 简单 属性 ， 从 
243 | 这 些 强 实 体 集 转换 而 来 的 模式 为 : 


classroom( building, room_number, capacity) 





department( dept_name, building, budget) 
course( course_id, title, credits) 





instructor( ID, name, salary) 
student( ID, name, tot_cred) 


如 你 所 见 ， 模 式 instructor 和 student 与 前 面 章节 中 用 到 的 模式 不 同 (它们 不 包含 属性 dept_name). Ja H 
很 快 还 会 讨论 这 个 问题 。 
7.6.2 具有 复杂 属性 的 强 实体 集 的 表示 

当 一 个 强 实体 集 具 有 非 简单 属性 时 ， 事 情 更 加 复杂 一 点 。 我 们 通过 为 每 个 子 属性 创建 一 个 单独 的 
属性 来 处 理 复 合 属性 ; 我 们 并 不 为 复合 属性 自身 创建 一 个 单独 的 属性 。 例 如 ， 考 虑 图 7-11 中 表示 的 
instructor 实体 集 。 对 于 复合 属性 name, HX instructor 生成 的 模式 包括 属性 first_name、middle_initial 和 
last_name; 没有 单独 的 属性 或 模式 表示 name。 类 似 地 ， 对 于 复合 属性 address， 产 生 的 模式 包括 属性 
street, city, state 以 及 zip_code。 由 于 street 是 一 个 复合 属性 ， 因 此 它 被 替换 成 street_number, street_name 
以 及 apt_number, 8.2 节 将 再 次 讨论 这 个 问题 。 

多 值 属性 的 处 理 不 同 于 其 他 属性 。 我 们 已 经 看 到 ，E-R 图 中 的 属性 通常 都 可 以 直接 映射 到 相应 关 
系 模式 的 属性 上 。 但 是 ， 多 值 属性 是 个 例外 ; 如 我 们 将 看 到 的 ， 为 了 这 些 属 性 ， 创 建新 的 关系 模式 。 

派生 的 属性 并 不 在 关系 数据 模型 中 显 式 地 表示 出 来 。 然 而 ， 它 们 可 以 在 例如 对 象 - 关系 数据 模型 
的 其 他 数据 模型 中 表示 为 “方法 ”， 第 22 章 将 对 此 进行 讲述 。 

从 具有 复杂 属性 的 实体 集 instructor 转换 而 来 ， 且 不 包含 多 值 属性 的 关系 模式 为 : 


instructor( ID, first_name, middle_initial, last_name, 
street_number, street_name, apt_number, 
city, state, zip_code, date_of_birth) 


对 于 一 个 多 值 属性 M， 构 建 关系 模式 R， 该 模式 包含 一 个 对 应 于 M 的 属性 4， 以 及 对 应 于 M 所 在 
的 实体 集 或 联系 集 的 主 码 的 属性 。 

例如 ， 考 虑 图 7-11 中 的 E-R 图 ， 它 描绘 了 包含 多 值 属性 phone_number 的 实体 集 instructor, instructor 
的 主 码 是 到 。 为 这 个 多 值 属 性 构建 一 个 关系 模式 : 


284 instructor_phone( ID, phone_number ) 


教师 的 每 个 电话 号 码 都 表示 为 该 模式 上 的 关系 中 的 唯一 一 个 元 组 。 因 此 ， 如 果 有 一 个 ID 4 22222 的 教 
师 ， 电 话 号 码 为 555 - 1234 #1555 - 4321, XA instructor_phone 将 有 两 条 元 组 (22222，555 - 1234) 和 
(27222, 5554321) « 

创建 关系 模式 的 主 码 ， 它 由 模式 中 的 所 有 属性 组 成 。 在 上 面 的 例子 中 ， 主 码 由 关系 instructor_phone 
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的 两 个 属性 一 起 组 成 。 

另外 ， 在 多 值 属性 构建 的 关系 模式 上 建立 外 码 约束 ， 由 实体 集 的 主 码 所 生成 的 属性 去 参照 实体 集 
所 生成 的 关系 。 在 上 面 的 例子 中 ，instructor_phone 关系 上 的 外 码 约束 是 属性 ID 参照 instructor 关系 。 

在 一 个 实体 集 只 有 两 个 属性 的 情况 下 一 一 一 个 主 码 B 以 及 一 个 多 值 属性 M 一 一 该 实体 集 的 关系 模 
式 只 包含 一 个 属性 ， 即 主 码 属性 B。 可 以 删 掉 这 个 关系 ,同时 保留 具有 属性 B 和 对 应 M 的 属性 4 的 关 
系 模式 。 

例如 ， 考 虑 图 7-15 中 描绘 的 实体 集 time_slot， 其 中 time_slot_id 是 实体 集 time_slot 的 主 码 ， 有 一 个 
多 值 属 性 ， 而 且 恰 好 是 复合 的 。 这 个 实体 集 可 以 就 按照 以 下 从 多 值 复合 属性 生成 的 模式 表示 : 

time_slot(time_slot_id, day, start_time, end_time) 

虽然 没有 在 E-R 图 中 表示 为 约束 ， 但 是 我 们 知道 不 存在 一 个 班 的 两 次 课 在 一 周 中 的 同一 天 的 同一 时 间 
开始 却 在 不 同时 间 结 束 。 基 于 这 个 约束 ，end_time 已 从 模式 time_slot 的 主 码 中 去 除了 。 

从 实体 集 生成 的 关系 将 只 有 一 个 属性 time_slot_id， 去 掉 此 关系 的 优化 有 助 于 简化 生成 的 数据 库 模 
式 ， 即 使 它 有 一 个 与 外 码 相关 的 缺点 ，7. 6. 4 节 将 对 此 简要 讨论 。 
7.6.3 弱 实体 集 的 表示 

设 4 是 具有 属性 a,，a,，…， a, 的 弱 实 体 集 , 设 B 是 4 所 依赖 的 强 实体 集 ， 设 B 的 主 码 包 括 属性 
b, ，b,，…，b,。 我 们 用 名 为 4 的 关系 模式 表示 实体 集 4， 该 模式 的 每 个 属性 对 应 以 下 集合 中 的 一 个 
成 员 : 





thy. @, °°; a.) U fbr bz, e, b, | 
对 于 从 弱 实 体 集 转换 而 来 的 模式 ,该 模式 的 主 码 由 其 所 依赖 的 强 实体 集 的 主 码 与 弱 实 体 集 的 分 辨 
符 组 合 而 成 。 除 了 创建 主 码 之 外 ， 还 要 在 关系 4 上 建立 外 码 约 束 ， 该 约束 指明 属性 b, ，b, ，…，b, 参 


照 关系 B 的 主 码 。 外 码 约 束 保证 表示 弱 实 体 的 每 个 元 组 都 有 一 个 表示 相应 强 实体 的 元 组 与 之 对 应 。 

以 图 7-15 所 示 E-R 图 中 的 弱 实 体 集 section 为 例 说 明 。 该 实体 集 有 属性 : sec_id、semester 和 year. 
section 实体 集 所 依赖 的 实体 集 course 的 主 码 是 course_id。 因 此 ， 用 来 表示 section 的 模式 具有 下 面 的 
属性 : 

section( course_id, sec_id, semester, year) 

该 主 码 由 实体 集 course 的 主 码 和 section 的 分 辩 符 ( 即 sec_id, semester 以 及 year) 组成。 我 们 还 在 模式 
section 上 建立 了 一 个 属性 course_id BAB course 模式 的 主 码 的 外 码 约 束 ， 以 及 完整 性 约束 “级 联 删 除 ”®。 
由 于 外 码 约束 上 的 “级 联 删 除 ” 规 范 ， 如 果 一 个 course 实体 被 删除 ， 那 么 所 有 与 它 相 关联 的 section 实体 
也 被 删除 。 
7.6.4 联系 集 的 表示 

设 尺 是 联系 集 ， 设 cl a, +, a, 表示 所 有 参与 尺 的 实体 集 的 主 码 的 并 集 构成 的 属性 集合 ， 设 民 
的 描述 性 属性 (如 果 有 ) 为 5, ，b,，…，b,。 我 们 用 名 为 R 的 关系 模式 表示 该 联系 集 ， 下 面 集合 中 的 每 
一 项 表示 为 模式 的 一 个 属性 : 





lais a, s a} Ub, bas s bal 


7.3.3 节 介 绍 过 如 何 为 一 个 二 元 联系 集 选 择 主 码 。 如 在 该 节 中 我 们 所 看 到 的 ， 从 所 有 相关 实体 集 
中 取 所 有 主 码 属性 能 够 用 来 标识 一 个 指定 元 组 ， 但 是 对 于 一 对 一 、 多 对 一 和 一 对 多 联系 集 ， 这 会 得 到 
一 个 比 我 们 所 需要 的 主 码 大 的 属性 集合 。 因 而 如 下 选择 主 码 : 

。 对 于 多 对 多 的 二 元 联系 ， 参 与 实体 集 的 主 码 属 性 的 并 集成 为 主 码 。 

。 对 于 一 对 一 的 二 元 联系 集 ， 任 何 一 个 实体 集 的 主 码 都 可 以 选 作 主 码 。 这 个 选择 是 任意 的 。 

。 对 于 多 对 一 或 一 对 多 的 二 元 联系 集 ， 联 系 集中 “多 ”的 那 一 方 的 实体 集 的 主 码 构 成 主 码 。 





O 4.4.5 节 介绍 了 SQL 中 外 码 约束 的 “级 联 删 除 " 性 质 。 
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o 对 于 边 上 没有 箭头 的 元 联系 集 ， 所 有 参与 实体 集 的 主 码 属性 的 并 集成 为 主 码 。 
。 对 于 边 上 有 一 个 箭头 的 元 联系 集 ， 不 在 “箭头 " 侧 的 实体 集 的 主 码 属性 为 模式 的 主 码 。 回 想 一 
下 ， 一 个 联系 集 外 只 人 允许 一 个 箭头 。 

我 们 还 在 关系 模式 R 上 建立 外 码 约束 ， 如 下 : 对 于 每 个 与 联系 集 R 相关 的 实体 集 5,， 我 们 建立 一 
个 关系 模式 R 上 的 外 码 约束 ，R 中 来 自 E; 主 码 属性 的 那些 属性 参照 表示 关系 模式 E, WEB. 

以 图 7-15 中 E-R 图 的 联系 集 advisor 为 例 说 明 。 此 联系 集 涉及 如 下 两 个 实体 集 : 

è instructor, £H ID, 

© student, £B ID, 

由 于 该 联系 集 没 有 属性 ， 因 此 advisor 模式 有 两 个 属性 ，instructor 和 student 的 主 码 。 由 于 这 两 个 属 
性 具有 相同 的 名 字 ， 因 此 将 它们 重 命名 为 i_ID 和 s_ID。 因 为 advisor 联系 集 是 从 student 到 instructor 多 对 
一 的 ， 所 以 关系 模式 advisor 的 主 码 是 s_ID。 

我 们 还 在 关系 advisor 上 建立 了 两 个 外 码 约束 ， 属 性 i_ID R instructor 的 主 码 ， 属 性 s_ID 参照 
student 的 主 码 。 

继续 我 们 的 例子 ， 对 于 图 7-15 的 E-R 图 ， 从 联系 集 派生 的 模式 如 图 7-16 所 示 。 

观察 到 对 于 联系 集 prereg ， 与 联系 相关 联 的 角色 标识 用 作 属 性 的 名 字 ， 这 是 因为 两 个 角色 都 参照 同 
一 个 关系 course。 

与 advisor 的 情况 类 似 ，sec_course、sec_time_slot、secVclass inst_dept, stud_dept 以 及 course_dept 每 个 
关系 的 主 码 仅 由 两 个 相关 联 的 实体 集中 的 一 个 实体 集 的 主 码 构 成 ， 因 为 每 个 对 应 的 联系 都 是 多 对 一 的 。 

7-16 中 并 没有 表示 出 外 码 ， 但 是 对 于 
该 图 中 的 每 一 个 关系 都 有 两 个 外 码 约 束 ， 参 照 
相关 的 两 个 实体 集 所 构建 出 的 两 个 关系 。 例 
如 ，sec_course 有 参照 section 和 classroom 的 外 
#3, teaches A B&H instructor 和 section 的 外 码 ， 
以 及 takes 有 参照 student Fil section 的 外 码 。 

这 个 优化 允许 对 包含 多 值 属性 的 实体 集 
time_slot 只 建立 一 个 关系 模式 ， 而 避免 从 关系 
模式 sec_time_slot 到 由 实体 集 time_slot 生成 的 图 7-16 由 图 7-15 中 E-R 图 的 联系 集 派生 出 的 模式 
关系 的 外 码 的 建立 ， 因 为 我 们 舍弃 了 由 实体 集 
time_slot 生成 的 关系 。 我 们 保留 了 从 多 值 属性 生成 的 名 为 time_slot 的 关系 ， 但 这 个 关系 可 能 没有 元 组 与 
某 个 time_slot_id 相关 联 ， 或 者 有 多 条 元 组 与 某 个 time_slot_id 相关 联 ， 因 而 sec_time 中 的 time_slot_id 不 

精明 的 读者 可 能 会 想 ， 为 什么 我 们 在 此 前 的 章节 中 没有 见 过 模式 sec_course sec_time_slot, sec_ 
class, inst_dept, stud_dept 以 及 course_dept。 原 因 是 我 们 迄今 所 提出 的 算法 使 得 一 些 模式 或 者 被 消除 ， 
或 者 和 其 他 模式 合并 。 我 们 接 下 来 讨论 这 个 问题 。 

7.6.4.1 模式 的 宛 余 

连接 弱 实 体 集 和 相应 强 实体 集 的 联系 集 比 较 特 殊 。 如 7. 5. 6 节 提 到 的 ， 这 样 的 联系 集 是 多 对 一 的 ， 
且 没 有 描述 性 属性 。 另 外 ， 弱 实体 集 的 主 码 包 含 强 实体 集 的 主 码 。 在 图 7-14 的 E-R 图 中 ， 弱 实体 集 
section 通过 联系 集 sec_course 依赖 于 强 实 体 集 course, section 的 主 码 是 | course_id, sec_id, semester, 
year} ，course 的 主 码 是 course_id。 由 于 sec_course 没有 描述 性 属性 ， 因 此 sec_course 模式 有 属性 course_id、 
sec_id, semester 以 及 year。 表 示 实 体 集 section 的 模式 包含 属性 course_id, sec_id, semester 以 及 year 等 。 
sec_course 关系 中 的 每 个 (course_id，sec_id，semester，year) 组 合 也 将 出 现在 section 模式 上 的 关系 中 ， 反 
之 亦 然 。 因 此 ，sec_course 模式 是 元 余 的 。 

一 般 情况 下 ， 连 接 弱 实 体 集 与 其 所 依赖 的 强 实体 集 的 联系 集 的 模式 是 元 余 的 ， 而 且 在 基于 E-R 图 
的 关系 数据 库 设计 中 不 必 给 出 。 








teaches (ID, course_id, sec_id, semester, year) 

takes (ID, course_id, sec_id, semester, year, grade) 

prereq (course id, prereq id) = 

advisor (s_ID, i ID) 

sec_course (course_id, sec_id, semester, year) 

sec_time_slot (course_id, sec_id, semester, year, time_slot_id) 
sec_class (course_id, sec_id, semester, year, building, room_number) 
inst dept (ID, dept_name) i 

stud_dept (ID, dept name) 

course dept (course_id, dept_name) 
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7.6.4.2 模式 的 合并 287 

考虑 从 实体 集 4 到 实体 集 B 的 一 个 多 对 一 的 联系 集 4B。 用 前 面 讲 的 关系 - 模式 构建 算法 ， 得 到 三 | 288 
个 模式 : 4、B 和 4B。 进 一 步 假 设 4 在 该 联系 中 的 参与 是 全 部 的 ; 即 实体 集 4 中 的 每 个 实体 a 都 必须 
参与 到 联系 48 中 。 那 么 我 们 可 以 将 4 和 4B 模式 合并 成 单个 包含 两 个 模式 所 有 属性 的 并 集 的 模式 。 合 
并 后 模式 的 主 码 是 其 模式 中 融 人 了 联系 集 模式 的 那个 实体 集 的 主 码 。 

让 我 们 检验 图 7-15 的 E-R 图 中 满足 上 述 条 件 的 关系 以 讲解 : 

© inst_dept。 模 式 instructor 和 department 分 别 对 应 于 实体 集 4 和 B。 因 此 模式 inst_dept 可 以 和 模式 

instructor 合并 。 结 果 是 instructor AIL H JATE | ID, name, dept_name, salary} 组成。 

© stud_dept。 模 式 student 和 department 分 别 对 应 于 实体 集 4 和 B。 因 此 模式 stud_dept 可 以 和 模式 
student 合并 。 结 果 是 student 模式 由 属性 17 万，nmrame，cdept_name，iot_cred 组 成 。 
course_dept。 模 式 course 和 department 分 别 对 应 于 实体 集 4 和 B。 因 此 模式 course_dept 可 以 和 模 
sk course 合并 。 结 果 是 course 模式 由 属性 | course_id, title, dept_name, credits} 组 成 。 
© sec_class。 模 式 section 和 classroom 分 别 对 应 于 实体 集 4 和 有。 因此 模式 sec_class 可 以 和 模式 
section 合并 。 结 果 是 section 模式 由 属性 | course_id, sec_id, semester, year, building, room_ 
number | 组 成 。 
sec_time_slot。 模 式 section 和 time_slot 分 别 对 应 于 实体 集 4 和 B。 因 此 模式 sec_time_slot 可 以 和 上 
一 步 中 得 到 的 模式 section 合并 。 结 果 是 section 模式 由 属性 | course_id, sec_id, semester, year, 
building, room_number, time_slot_id} 组 成 。 

在 一 对 一 的 联系 的 情况 下 ， 联 系 集 的 关系 模式 可 以 跟 参 与 联系 的 任何 一 个 实体 集 的 模式 进行 合并 。 

即使 参与 是 部 分 的 ， 我 们 也 可 以 通过 使 用 空 值 来 进行 模式 的 合并 。 在 上 面 这 个 例子 中 ， 如 果 inst 
dept 是 部 分 参与 的 ， 那 么 我 们 可 以 为 那些 没有 相关 联 的 系 的 教师 在 属性 dept_name 中 存放 空 值 。 

最 后 ， 我 们 考虑 表示 联系 集 的 模式 上 本 应 有 的 外 码 约 束 。 参 照 每 一 个 参与 联系 集 的 实体 集 的 外 码 
约束 本 应 存在 。 我 们 舍弃 了 参照 联系 集 模式 所 合并 人 的 实体 集 模式 的 约束 ， 然 后 将 男 一 个 外 码 约束 加 
到 合并 的 模式 中 。 在 上 面 的 例子 中 ，inst_dept 上 有 一 个 dept_name 属性 参照 department 关系 的 外 码 约 束 ，[289 | 
当 模 式 inst_dept 与 instructor 合并 时 ， 这 个 外 码 约 束 被 加 到 instructor 关系 中 。 

7.7 实体 -联系 设计 问题 

实体 集 和 联系 集 的 标记 法 并 不 精确 ， 而 且 定 义 一 组 实体 及 它们 的 相互 联系 可 能 有 多 种 不 同 的 方式 。 
本 节 讨 论 E-R 数据 库 模 式 设计 中 的 一 些 基 本 问题 。 设 计 过 程 将 在 7. 10 节 更 详细 地 讨论 。 

7.7.1 用 实体 集 还 是 用 属性 

考虑 具有 新 增 属 性 phone_number 的 实体 集 instructor( 见 图 7-17a) 。 显 然 电话 可 以 作为 一 个 单独 的 实 
体 ， 具 有 属性 phone_number 和 location; 地 点 可 以 是 电话 所 处 于 的 办 公 室 或 家 ， 移 动 电话 则 可 以 用 值 
“移动 "来 表示 。 如 果 我 们 采用 这 样 的 观点 ， 那 么 我 们 就 不 给 instructor 增加 属性 phone_number， 反 之 ， 
我 们 创建 : 

e 实体 集 phone， 有 具有 属性 phone_number 和 location, 

© 联系 集 inst_phore， 表 示 教 师 与 他 们 所 拥有 的 电话 之 间 的 关联 。 

这 种 方法 如 图 7-17b 所 示 。 














phone number 


location 





a) 
图 7-17 给 instructor 实体 集 增 加 phone 的 两 种 方法 
那么 ,教师 的 这 两 个 定义 之 间 的 主要 差别 是 什么 呢 ? 将 电话 看 成 一 个 属性 phone_number 暗示 每 个 
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教师 恰好 有 一 个 电话 号 码 与 之 相关 联 。 将 电话 看 成 一 个 实体 phone， 允 许 每 个 教师 可 以 有 若干 个 电话 号 
码 (包括 零 个 ) 与 之 相关 联 。 然 而 ， 也 可 以 简单 地 将 phone_number 定义 为 多 值 属性 ， 从 而 允许 每 个 教师 
有 多 个 电话 。 

那么 ， 主 要 的 差别 是 ， 在 一 个 人 可 能 希望 保存 关于 电话 的 额外 信息 ， 如 它 的 位 置 ， 或 类 型 ( 移动 
的 、 视 频 的 或 普通 的 老式 电话 ) ， 或 共享 该 电话 的 所 有 的 人 时 ， 将 电话 看 作 一 个 实体 是 一 种 更 好 的 建 模 
方式 。 因 此 ， 把 电话 视 为 一 个 实体 比 把 它 视 为 一 个 属性 的 方式 更 具 通 用 性 ; 而 且 当 通用 性 可 能 有 用 的 
时 候 ， 这 种 定义 方式 就 更 为 适合 了 。 

相反 ， 将 (一 名 教师 的 )name 属性 视 作 一 个 实体 就 不 太 合适 ; 将 name 说 成 是 一 个 实体 本 身 就 很 不 

具有 说 服 力 ( 与 电话 相反 ) 。 因 此 ， 人 恰当 的 做 法 是 将 name 视 作 instructor 实体 集 的 一 个 属性 。 

由 此 自然 就 产生 两 个 问题 : 什么 构成 属性 ? 什么 构成 实体 集 ? 很 遗憾 ， 对 这 两 个 问题 并 不 能 简单 
地 回答 。 区 分 它们 主要 依赖 于 被 建 模 的 现实 世界 的 企业 的 结构 ， 以 及 被 讨论 的 属性 的 相关 语义 。 

一 个 常见 的 错误 是 用 一 个 实体 集 的 主 码 作为 另 一 个 实体 集 的 属性 ， 而 不 是 用 联系 。 例 如 ， 即 使 每 
名 教师 只 指导 一 名 学 生 ， 将 student 的 ID (EA instructor 的 属性 也 是 不 正确 的 。 用 advisor 联系 代表 学 生 
和 教师 之 间 的 关联 才 是 正确 的 方法 ， 因 为 这 样 可 以 明确 地 表示 出 两 者 之 间 的 关系 而 不 是 将 这 种 关系 隐 
含 在 属性 中 。 

人 们 常 犯 的 与 此 相关 的 另 一 个 错误 是 将 相关 实体 集 的 主 码 属性 作为 联系 集 的 属性 。 例 如 ，1D 
(student 的 主 码 属性 ) 和 ID( instructor 的 主 码 ) 不 应 该 在 advisor 联系 中 作为 属性 出 现 。 这 样 做 是 不 对 的 ， 
因为 在 联系 集中 已 经 隐 含 了 这 些 主 码 属性 。 

7.7.2 用 实体 集 还 是 用 联系 集 

一 个 对 象 最 好 被 表述 为 实体 集 还 是 联系 集 并 不 总 是 显而易见 的 。 如 图 7-15 所 示 ， 我 们 用 takes 联 
系 集 对 学 生 选 择 课程 (的 某 一 次 开课 ) 建 模 。 另 一 种 方法 是 想像 对 于 每 个 学 生 选 的 每 门 课程 有 一 个 课程 
-注册 记录 。 那 么 ， 我 们 用 一 个 叫 作 registration 的 实体 集 代 表 课 程 - 注册 记录 。 每 个 registration 实体 恰 
好 与 一 个 学 生 和 一 次 开课 相关 联 ， 因 此 我 们 有 两 个 联系 集 ， 一 个 将 课程 - 注册 记录 和 学 生 关联 ， 另 一 
个 将 课程 - 注册 记录 和 课程 关联 。 如 图 7-18 AR, 我 们 将 图 7-15 中 section 和 student 实体 集 之 间 的 
takes 联系 集 用 一 个 实体 集 和 两 个 联系 集 替代 : 

© registration， 代 表 课 程 - 注册 记录 的 实体 集 。 

e section_reg, XE% registration 和 course 的 联系 集 。 

© student_reg， 关 联 registration 和 student 的 联系 集 。 

291 注意 ， 我 们 使 用 双 线 表示 registration 实体 全 部 参与 。 





图 7-18 用 registration 和 两 个 联系 集 替 代 takes 


图 7-15 和 图 7-18 的 方法 都 准确 表达 了 大 学 的 信息 ， 但 是 使 用 takes 的 方法 更 紧凑 也 更 可 取 。 然 而 ， 
如 果 注 册 办 公 室 通过 课程 - 注册 记录 与 其 他 信息 相关 联 ， 那么 最 好 让 它 本 身 为 一 个 实体 。 

在 决定 用 实体 集 还 是 联系 集 时 可 采用 的 一 个 原则 是 ， 当 描述 发 生 在 实体 间 的 行为 时 采用 联系 集 。 
这 一 方法 在 决定 是 否 将 某 些 属性 表示 为 联系 可 能 更 适合 时 也 很 有 用 。 





名 ”我 们 以 后 会 看 到 ， 当 从 E-R 模式 中 创建 关系 模式 时 ， 这 些 属 性 可 能 会 出 现在 从 advisor 联系 集 创建 出 的 模式 中 ， 
但 是 ， 它 们 并 不 应 该 出 现在 advisor 联系 集中 . 
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7.7.3 二 元 还 是 nn 元 联系 集 

数据 库 中 的 联系 通常 都 是 二 元 的 。 一 些 看 来 非 二 元 的 联系 实际 上 可 以 用 多 个 二 元 联系 更 好 地 表示 。 
例如 ， 可 以 创建 一 个 三 元 联系 parent， 将 一 个 孩子 与 他 /她 的 母亲 和 父亲 相关 联 。 然 而 ， 这 一 联系 也 可 
以 用 两 个 二 元 联系 分 别 来 表示 ， 即 mother 和 father， 分 别 将 孩子 与 他 /她 的 母亲 和 父亲 相关 联 。 使 用 
mother 和 father 两 个 联系 使 我 们 可 以 记录 和 孩子 的 母亲 ， 即 使 我 们 不 知道 父亲 是 谁 ， 而 对 于 这 种 情况 三 元 
联系 parent 中 必须 有 一 个 空 值 。 所 以 在 这 个 例子 中 用 二 元 联系 更 好 。 

事实 上 ， 一 个 非 二 元 的 (zz 元 , n >2) 联 系 集 总 可 以 用 一 组 不 同 的 二 元 联系 集 来 替代 。 简 单 起 见 ， 
考虑 一 个 抽象 的 三 元 (n =3) 联 系 集 R， 它 将 实体 集 4、B 和 C 联系 起 来 。 用 实体 集 互 蔡 代 联系 集 R， 并 
创建 三 个 联系 集 ， 如 图 7-19 所 示 : 

e Ri, XEKE MA, 

。 R,, KKE FIB, 

。 Re, REK E FIC, [292 | 








图 7-19 三 元 联系 与 三 个 二 元 联系 


如 果 联 系 集 尺 有 属性 ， 那 么 将 这 些 属性 赋 给 实体 集 E， 进 一 步 ， 为 E 创建 一 个 特殊 的 标识 属性 ( A 
为 它 必须 能 够 通过 其 属性 值 来 区 别 实体 集中 的 各 个 实体 )。 针 对 联系 集 R PIRENEA (a, bi c), 
在 实体 集中 创建 一 个 新 的 实体 e;。 然 后 ， 在 三 个 新 联系 集中 ， 分 别 插入 新 联系 如 下 : 
。 ÆR, PHA (e, ai)。 
。 在 Rs 中 插入 (e;, b;,)o 
。 在 Re 中 插入 (e;, c;)。 
可 以 将 这 一 过 程 直接 推广 到 nn 元 联系 集 的 情况 。 因 此 ， 在 概念 上 可 以 限制 E-R 模型 只 包含 二 元 联 
系 集 。 然 而 ， 这 种 限制 并 不 总 是 令 人 满意 的 。 
。 对 于 为 表示 联系 集 而 创建 的 实体 集 ， 我 们 可 能 不 得 不 为 其 创建 一 个 标识 属性 。 该 标识 属性 和 额 
外 所 需 的 那些 联系 集 增 加 了 设计 的 复杂 程度 以 及 对 总 的 存储 空间 的 需求 (我 们 将 在 7.6 节 看 到 
这 一 总 各 
。 nn 元 联系 集 可 以 更 清晰 地 表示 几 个 实体 集 参 与 单个 联系 集 。 
© 有 可 能 无 法 将 三 元 联系 上 的 约束 转变 为 二 元 联系 上 的 约束 。 例 如 ， 考 虑 一 个 约束 ， 表 明 RR 是 从 
A, BR C 多 对 一 的 ; 也 就 是 ,来 自 4 和 B 的 每 一 对 实体 最 多 与 一 个 C 实体 关联 。 这 种 约束 就 
不 能 用 联系 集 尺 、Rs 和 Re 上 的 基数 约束 来 表示 。 
考虑 7.2.2 节 中 的 联系 集 proj_guide， 它 关联 instructor, student 和 project。 不 能 直接 将 proj_guide 拆 
分 为 instructor 和 project 之 间 的 二 元 联系 和 student Fil project 之 间 的 二 元 联系 。 如 果 这 人 么 做 ， 可 以 记录 教 [293 | 
师 Katz 同学 生 Shankar 和 Zhang 一 起 参与 项 目 4 AB; 然而 无 法 记录 Katz 同 Shankar 一 起 参与 项 目 4 并 
且 同 Zhang 一 起 参与 项 目 B， 而 不 是 同 Zhang 一 起 参与 项 目 4 或 者 同 Shankar 一 起 参与 项 目 B, 
联系 集 proj_guide 可 以 通过 创建 一 个 如 上 所 述 的 新 实体 集 来 拆 分 为 二 元 联系 。 然 而 ， 这 么 做 却 不 是 
很 自然 。 
7.7.4 ”联系 属性 的 布局 
一 个 联系 的 映射 基数 比率 会 影响 联系 属性 的 布局 。 因 此 ， 一 对 一 或 一 对 多 联系 集 的 属性 可 以 放 到 
一 个 参与 该 联系 的 实体 集中 ， 而 不 是 放 到 联系 集中 。 例 如 ， 我 们 指明 advisor 是 一 个 一 对 多 的 联系 集 ， 
也 就 是 一 个 教师 可 以 指导 多 个 学 生 ， 但 每 个 学 生 只 能 有 一 个 导师 。 在 这 种 情况 下 ， 表 示 教 师 何 时 成 为 
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学 生 导 师 的 属性 date 可 以 与 student 实体 集 相 关联 ， 如 图 7-20 所 示 。( 为 了 保持 图 例 简 单 ， 只 显示 了 两 
个 实体 集 的 部 分 属性 。) 由 于 每 个 student 实体 最 多 和 一 个 instructor 实例 相关 联 ， 因 此 将 属性 date 放 在 
student 实体 集中 和 将 属性 date 放 在 advisor 联系 集中 具有 相同 的 含义 。 一 对 多 联系 集 的 属性 仅 可 以 重 置 
到 参与 联系 的 “多 ” 方 的 实体 集中 。 而 对 于 一 对 一 的 联系 集 ， 联 系 的 属性 可 以 放 到 任意 一 个 参与 联系 的 
实体 中 。 


(76658 [Aci [June 2007 ] 
(23121 [Chavez [May 2007 | 
i [24553 [Peltier [May 2006 | 


student 


FA 7-20 date {EH student 实体 集 的 属性 


设计 时 将 描述 性 属性 作为 联系 集 的 属性 还 是 实体 集 的 属性 这 一 决定 应 该 反映 出 被 建 模 企业 的 特点 。 
294 | 设计 者 可 以 选择 保留 date 作为 advisor 的 属性 ， 以 显 式 地 表明 指导 关系 的 日 期 ， 而 不 是 学 生 校内 状态 的 
其 他 一 些 方面 (例如 ， 被 大 学 录取 的 日 期 ) 。 
属性 位 置 的 选择 在 多 对 多 联系 集中 体现 得 更 清楚 。 回 到 刚才 的 例子 ， 让 我 们 指出 可 能 更 符合 实际 
的 情况 ， 定 义 advisor 为 一 个 多 对 多 的 联系 集 ， 表 明 一 个 教师 可 以 指导 一 个 或 多 个 学 生 ， 而 一 个 学 生 可 
以 被 一 个 或 多 个 教师 指导 。 如 果 想 要 表示 一 个 特定 的 教师 成 为 一 个 特定 学 生 的 导师 的 日 期 ，date 则 必 
须 作为 联系 集 advisor 的 属性 ， 而 不 是 任何 一 个 参与 的 实体 集 的 属性 。 例 如 ， 如 果 将 date EH student 的 
属性 ， 则 我 们 无 法 知道 哪个 教师 在 该 特定 日 期 成 为 他 的 导师 。 当 一 个 属性 是 由 参与 的 实体 集 联合 确定 
而 不 是 由 单独 的 某 个 实体 集 确定 时 ， 该 属性 就 必须 放 到 多 对 多 联系 集中 。 图 7-3 给 出 了 作为 联系 属性 
时 date 的 位 置 。 为 了 图 例 的 简单 ， 只 显示 了 两 个 实体 集 的 部 分 属性 。 


7.8 扩展 的 E-R 特性 


虽然 基本 的 E-R 概念 已 足以 对 大 多 数 数 据 库 特征 建 模 ， 但 数据 库 的 某 些 方面 可 以 通过 对 基本 E-R 
模型 作 某 些 扩展 来 更 恰当 地 表述 。 这 一 节 将 讨论 以 下 扩展 E-R 特性 : 特 化 、 概 化 、 高 层 和 低层 实体 集 、 
属性 继承 和 聚集 。 

为 了 有 助 于 讨论 ， 我 们 将 用 一 个 稍微 更 复杂 的 大 学 数据 库 模 式 。 特 别 是 ,我们 将 通过 定义 具有 属 
性 ID, name 以 及 address 的 实体 集 person 来 对 学 校 中 不 同 的 人 建 模 。 

7.8.1 特 化 

实体 集 可 能 包含 一 些 子 集 ， 子 集中 的 实体 在 某 些 方面 区 别 于 实体 集中 的 其 他 实体 。 例 如 ， 实 体 集 
中 的 某 个 实体 子 集 可 能 具有 不 被 该 实体 集中 所 有 实体 所 共享 的 一 些 属性 。E-R 模型 提供 了 表示 这 种 与 
众 不 同 的 实体 组 ( 子 集 ) 的 方法 。 

例如 ， 实 体 集 person 可 进一步 归 类 为 以 下 两 类 之 一 : 

© employee, 

è student, 

这 两 个 类 中 的 每 一 个 都 用 一 个 属性 集 来 描述 ， 包 括 实体 集 person 的 所 有 属性 加 上 可 能 的 附加 属性 。 例 

如 ，employee 实体 可 进一步 用 属性 salary 来 描述 ， 而 student 实体 可 进一步 用 tot_cred 属性 来 描述 。 在 实 

体 集 内 部 进行 分 组 的 过 程 称 为 特 化 (specialization) 。person 的 特 化 使 得 我 们 可 以 根据 他 们 是 雇员 还 是 学 
生来 区 分 人 : 一 般 来 说 ， 一 个 人 可 以 是 一 个 雇员 、 一 个 学 生 ， 都 是 ， 或 者 都 不 是 。 

另 一 个 例子 ,假设 大 学 希望 将 学 生 分 为 两 类 ， 研究 生 和 本 科 生 。 给 研究 生 配 备 办 公 室 ， 而 给 本 科 
生 安 排 宿舍 。 每 一 个 学 生 类 型 都 通过 属性 和 集 来 描述 ， 这 个 属性 集 包 括 student 实体 集 的 所 有 属性 和 附加 
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的 属性 。 

大 学 可 以 创建 student 的 两 个 特 化 ，graduate 和 undergraduate。 如 我 们 此 前 所 看 到 的 ， 学 生 实体 用 属 
EID. name, address 以 及 tot_cred 描述 。 实 体 集 graduate 将 具有 student 的 所 有 属性 以 及 一 个 附加 属性 
office_number。 实 体 集 undergraduate 将 具有 student 的 所 有 属性 以 及 一 个 附加 属性 residential_college。 

我 们 可 以 不 断 重复 地 使 用 特 化 来 完善 设计 。 例 如 ， 大 学 雇员 可 进一步 划分 为 以 下 两 类 之 一 : 

® instructor . 

@ secretary, 

每 类 雇员 都 用 包括 实体 集 employee 的 所 有 属性 以 及 附加 属性 的 属性 集 来 描述 。 例 如 ，instructor SE 
体 可 以 进一步 由 属性 rank 来 描述 ， 而 secretary 实体 可 以 由 属性 hours_per_week 来 描述 。 进 一 步 ，secretary 
实体 可 以 参与 实体 集 secretary 和 employee 之 间 的 secretary_for 联系 ， 它 标识 了 有 秘书 协助 的 雇员 。 

一 个 实体 集 可 以 根据 多 个 可 区 分 的 特征 进行 特 化 。 在 我 们 的 例子 中 ， 雇 员 实 体 间 的 可 区 分 特征 是 
雇员 所 从 事 的 工作 。 同 时 ， 另 一 个 特 化 可 以 基于 一 个 人 是 临时 (有 限 任期 ) 雇 员 还 是 长 期 雇员 ， 从 而 有 
实体 集 temporary_employee 和 permanent_employee。 当 一 个 实体 集 上 形成 了 多 于 一 种 特 化 时 ， 某 个 特定 实 
体 可 能 同时 属于 多 个 特 化 实体 集 。 例 如 ， 一 个 特定 的 雇员 可 以 既是 一 个 临时 的 雇员 ， 又 是 一 个 秘书 。 

在 E-R 图 中 ， 特 化 用 从 特 化 实体 指向 另 一 方 实体 的 空心 箭头 来 表示 (如 图 7-21 所 示 ) 。 我 们 称 这 种 
关系 为 ISA 关系 ， 它 代表 “is a” ， 表 示 “ 是 一 个 ”, 例如 ， 一 个 教师 “是 一 个 "雇员 。 

RITE E-R 图 中 描述 特 化 的 方法 取决 于 一 个 实体 集 是 否 可 能 属于 多 个 特 化 实体 集 或 者 它 是 否 必须 
属于 至 多 一 个 特 化 实体 集 。 前 者 ( 允许 多 个 集 ) A BBA (overlapping specialization) ， 后 者 (允许 至 
多 一 个 ) 称 为 不 相交 特 化 ( disjoint specialization) 。 对 于 一 个 重 琶 特 化 (例如 student 和 employee 作为 person 
的 特 化 的 情况 ) ， 分 开 使 用 两 个 箭头 。 对 于 一 个 不 相交 特 化 (例如 instructor 和 secretary 作为 employee 的 
特 化 的 情况 ) ， 使 用 一 个 箭头 。 特 化 关系 还 可 能 形成 超 类 - 子 类 (superclass-subclass ) 联系 。 高 层 和 低层 
实体 集 按 普通 实体 集 表示 一 一 即 包含 实体 集 名 称 的 矩形 。 

7.8.2 概 化 

从 初始 实体 集 到 一 系列 不 同 层 次 的 实体 子 集 的 细 化 代表 了 一 
个 自 项 向 下 (top-down) 的 设计 过 程 ， 在 这 个 设计 过 程 中 ， 显 式 地 产 
生出 差别 。 设 计 过 程 也 可 以 自 底 向 上 (bottom-up ) 进行， 多 个 实体 
集 根 据 共同 具有 的 特征 综合 成 一 个 较 高 层 的 实体 集 。 数 据 库 设计 
者 可 能 一 开始 就 标识 了 : 

© instructor 实体 集 ， 具 有 属性 instructor_id, instructor _name , 

instructor_salary DR& rank, 

© secretary 实体 集 ， 具 有 属性 secretary _id, secretary _ name, 

secretary_salary 以 及 house_per_week 

就 所 具有 的 属性 而 言 ， 在 instrucor 实体 集 和 secretary 实体 集 间 Sk Sem 
存在 共性 。 从 概念 上 来 说 ， 这 两 个 实体 集 包 含 相 同 的 属性 : 也 就 
是 标识 符 、 姓 名 和 工资 属性 。 这 种 共性 可 以 通过 概 化 ( generalization ) 来 表达 ， 概 化 是 高 层 实体 集 与 一 个 
或 多 个 低层 实体 集 间 的 包含 关系 。 在 我 们 的 例子 中 ，employee 是 高 层 实体 集 ， 而 instructor 和 secretary 是 
低层 实体 集 。 在 这 种 情况 下 ， 在 两 个 低层 实体 和 集中， 概念 上 相同 的 属性 有 不 同 的 名 字 。 为 了 进行 概 化 ， 
这 些 属性 必须 赋予 相同 的 名 字 并 由 高 层 实体 person 表示 。 我 们 使 用 ID, name 和 address 作为 属性 名 称 ， 
正如 我 们 在 7. 8. 1 节 中 所 看 到 的 那样 。 

高 层 与 低层 实体 集 也 可 以 分 别称 作 超 类 ( superclass ) 和 子 类 ( subclass), SEA person 是 子 类 
employee 和 student 的 超 类 。 

对 于 所 有 实际 应 用 来 说 ， 概 化 只 不 过 是 特 化 的 道 过 程 。 为 企业 设计 E-R 模型 时 ， 我 们 将 配合 使 用 
这 两 个 过 程 。 在 E-R 图 中 ， 我 们 对 概 化 和 特 化 的 表示 不 作 区 分 。 为 了 使 设计 模式 完全 体现 数据 库 应 用 
和 数据 库 用 户 的 要 求 ， 我 们 会 通过 区 分 ( 特 化 ) 或 综合 ( 概 化 ) 来 产生 新 的 实体 层次 。 这 两 种 方式 的 区 别 
主要 在 于 它们 的 出 发 点 和 总 体 目 标 。 
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特 化 从 单一 的 实体 集 出 发 ， 通 过 创建 不 同 的 低层 实体 集 来 强调 同一 实体 集中 不 同 实体 间 的 差异 。 
低层 实体 集 可 以 有 不 适用 于 高 层 实体 集中 所 有 实体 的 属性 ， 也 可 以 参与 到 不 适用 于 高 层 实体 集中 所 有 
实体 的 联系 中 。 设 计 者 采用 特 化 的 原因 正 是 为 了 表达 这 种 与 众 不 同 的 特征 。 如 果 student H employee 与 
person 实体 拥有 完全 相同 的 属性 ， 并 且 与 person 实体 参与 完全 相同 的 联系 ， 则 没有 必要 特 化 person 实 
体 集 。 
概 化 的 进行 基于 这 样 的 认识 : 一 定数 量 的 实体 集 共享 一 些 共同 的 特征 ( 即 用 相同 的 属性 描述 它们 ， 
且 它 们 都 参与 到 相同 的 联系 集中 )。 概 化 是 在 这 些 实体 集 的 共性 的 基础 上 将 它们 综合 成 一 个 高 层 实体 
集 。 概 化 用 于 强调 低层 实体 集 间 的 相似 性 并 隐藏 它们 的 差异 ; 由 于 共享 属性 的 不 重复 出 现 ， 它 还 使 得 
表达 简洁 。 
7.8.3 属性 继承 
由 特 化 和 概 化 所 产生 的 高 层 和 低层 实体 的 一 个 重要 特性 是 属性 继承 (attribute inheritance) 。 高 层 实 
体 集 的 属性 被 低层 实体 集 继承 (inherit) Hin, student 和 employee 继承 了 person 的 属性 。 因 此 ，student 
用 属性 ID. name 和 address 以 及 附加 属性 tot_cred 来 描述 ; 而 employee 用 属性 ID, name 和 address 以 及 
附加 属性 salary 来 描述 。 属 性 继承 适用 于 所 有 低层 实体 集 ， 因 此 employee 的 子 类 instructor 和 secretary 从 
person 继承 了 属性 ID, name 和 address ， 另 外 又 从 employee 继承 了 salary. 
低层 实体 集 (或 子 类 ) 同 时 还 继承 地 参与 其 高 层 实体 (或 超 类 ) 所 参与 的 联系 集 。 和 属性 继承 类 似 ， 
参与 继承 适用 于 所 有 低层 实体 集 。 例 如 ,假设 实体 集 person 和 department 参与 person_dept KRÆ. H 
么 ， 实 体 集 person 的 子 类 实体 集 student, employee, instructor 和 secretary 也 都 和 department 隐 式 地 参与 到 
person_dept 联系 中 。 以 上 这 些 实体 集 可 以 参与 到 person 实体 参与 的 任何 联系 中 。 
对 E-R 图 的 一 个 给 定 的 部 分 来 说 ， 不 管 它 是 通过 特 化 还 是 通过 概 化 得 到 的 ， 其 结果 都 是 一 样 的 : 
。 高 层 实体 集 所 关联 的 所 有 属性 和 联系 适用 于 它 的 所 有 低层 实体 集 。 
© 低层 实体 集 特 有 的 性 质 仅 适用 于 特定 的 低层 实体 集 。 
在 后 面 的 叙述 中 ， 虽 然 我 们 常常 只 说 概 化， 但 我 们 所 讨论 的 性 质 是 两 个 过 程 所 共有 的 。 
7-21 所 示 为 实体 集 的 层次 结构 (hierarchy) 。 在 图 7-21 中 ，employee 是 person 的 低层 实体 集 ， 同 
时 又 是 instructor 和 secretary 实体 集 的 高 层 实体 集 。 在 层次 结构 中 ， 给 定 的 实体 集 作 为 低层 实体 集 只 参 
与 到 一 个 ISA 联系 中 ， 即 在 这 个 图 中 实体 集 只 具有 单 继承 ( single inheritance)。 如 果 一 个 实体 集 作为 低 
层 实体 集 参 与 到 多 个 ISA 联系 中 ， 则 称 这 个 实体 集 具 有 多 继承 ( multiple inheritance) ， 且 产生 的 结构 被 
称 为 格 (lattice ) 。 
7.8.4 概 化 上 的 约束 
为 了 更 准确 地 对 企业 建 模 ， 数 据 库 设计 者 可 能 选择 在 特定 概 化 上 设置 某 些 约束 。 一 类 约束 包含 判 
定 哪些 实体 能 成 为 给 定 低层 实体 集 的 成 员 。 成 员 资 格 可 以 是 下 列 中 的 一 种 : 
© 条 件 定义 的 (condition-defined) 。 在 条 件 定义 的 低层 实体 集中 ,成 员 资 格 的 确定 基于 实体 是 否 满 
足 一 个 显 式 的 条 件 或 谓词 。 例 如 ， 假 设 高 层 实体 集 student 具有 属性 student_type。 所 有 student 实 
体 都 根据 student_type 属性 进行 评估 。 只 有 满足 条 件 student_type =“ 研究 生 ” 的 实体 才 允 许 属于 
graduate_student 低层 实体 集 。 所 有 满足 条 件 student _type =“ 本 科 生 ”的 实体 都 包含 于 
undergraduate_student。 由 于 所 有 低层 实体 都 基于 同一 属性 (在 这 里 基于 student_type ) 进行 评估 ， 
因此 这 种 类 型 的 概 化 称 作 是 属性 定义 的 (attribute-defined ) 。 
用 户 定义 的 (user-defined) 。 用 户 定 义 的 低层 实体 集 不 是 通过 成 员 资格 条 件 来 限制 ， 而 是 由 数据 
库 用 户 将 实体 指派 给 某 个 实体 集 。 例 如 ， 如 果 我 们 假设 大 学 雇员 在 3 个 月 的 雇佣 期 后 被 分 配 到 
4 个 工作 组 中 的 一 个 。 因 此 我 们 用 高 层 实体 集 employee 的 4 个 低层 实体 集 来 表示 工作 组 。 一 个 
给 定 的 员工 并 不 是 根据 某 个 明确 定义 的 条 件 自动 分 配 到 某 个 特定 工作 组 实体 中 。 反 而 是 负责 决 
策 的 用 户 根据 个 人 观点 进行 工作 组 的 分 配 。 该 分 派 是 通过 将 一 个 实体 加 入 某 个 实体 集 的 操作 而 
299 实现 的 。 
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另 一 类 约束 涉及 在 一 个 概 化 中 一 个 实体 是 否 可 以 属于 多 个 低层 实体 集 。 低 层 实 体 集 可 能 是 下 述 情 
况 之 一 : 
© 不 相交 ( disjoint )。 不 相交 约束 要 求 一 个 实体 至 多 属于 一 个 低层 实体 集 。 在 我 们 的 例子 中 ， 
student 实体 在 student — type 属性 上 只 能 满足 一 个 条 件 ; 一 个 实体 可 以 是 研究 生 或 本 科 生 ， 但 不 
能 既是 研究 生 又 是 本 科 生 。 

。 重重 (overlapping) 。 在 重合 概 化 中 ， 同 一 个 实体 可 以 同时 属于 同一 个 概 化 中 的 多 个 低层 实体 集 。 
我 们 再 来 看 员工 工作 组 的 例子 ， 并 假设 某 些 雇员 参加 到 多 个 工作 组 中 。 在 这 种 情况 下 给 定 雇员 
就 可 以 出 现在 employee 的 多 个 低层 工作 组 实体 集中 。 因 此 这 种 概 化 是 重生 的 。 

在 图 7-21 中 ,我 们 假定 一 个 人 可 以 既是 雇员 又 是 学 生 。 我 们 通过 分 开 的 箭头 表示 这 种 重 释 概 化 : 
一 个 箭头 从 employee 指向 person， 另 一 个 箭头 从 student 指向 person。 然 而 ，instructor 和 secretary 的 概 化 
是 不 相交 的 ， 我 们 对 此 用 单个 箭头 表示 。 

最 后 一 类 约束 是 对 概 化 的 完全 性 约束 (completeness constraint) ， 定 义 高 层 实 体 集 中 的 一 个 实体 是 否 
必须 至 少 属于 该 概 化 / 特 化 的 一 个 低层 实体 集 。 这 种 约束 可 以 是 下 述 情 况 之 一 : 

© 全 部 概 化 (total generalization) 或 特 化 (specialization ) 。 每 个 高 层 实 体 必 须 属 于 一 个 低层 实体 集 。 

o 部 分 概 化 (partial generalization ) 或 特 化 ( specialization ) 。 人 允许 一 些 高 层 实体 不 属于 任何 低层 实 

体 集 。 

部 分 概 化 是 默认 的 。 我 们 可 以 在 E-R 图 中 表示 全 部 概 化 ， 即 通过 在 图 中 加 入 关键 词 "total”， 并 画 
一 条 从 关键 词 到 相应 的 空心 箭头 (表示 不 相交 概 化 ) 的 虚线 ， 或 者 画 一 条 到 空心 箭头 集合 (表示 重 释 概 
化 ) 的 虚线 。 

student 的 概 化 是 全 部 的 : 所 有 的 学 生 实体 都 要 么 是 研究 生 要 么 本 科 生 。 由 于 通过 概 化 产生 的 高 层 
实体 集 通常 只 包括 低层 实体 集中 的 实体 ， 因 此 由 概 化 产生 的 高 层 实体 集 的 完全 性 约束 通常 是 全 部 的 。 
如 果 概 化 是 部 分 的 ， 高 层 实体 就 可 以 不 限制 出 现在 任何 低层 实体 集中 。 工 作 组 实体 集 就 是 部 分 特 化 的 
例子 。 由 于 员工 在 工作 3 个 月 后 才 分 配 到 某 个 工作 组 中 ， 因 此 某 些 employee 实体 可 能 不 属于 任何 低层 
工作 组 实体 集 。 

我 们 可 以 通过 对 employee 的 部 分 的 、 重 羡 的 特 化 过 程 来 更 完全 地 表示 出 工作 组 实体 和 集 的 特征 。 从 
graduate_student 和 undergraduate_student 到 student 的 概 化 是 全 部 的 、 不 相交 的 概 化 。 然 而 ， 完 全 性 约束 
和 不 相交 约束 彼此 并 没有 依赖 关系 。 约 束 模式 也 可 以 是 部 分 -不 相交 或 全 部 - ERM. 

我 们 可 以 看 到 ， 对 给 定 概 化 或 特 化 使 用 约束 带 来 某 些 插入 和 删除 需求 。 例 如 ， 当 存在 一 个 全 部 的 
完全 性 约束 时 ， 插 入 到 高 层 实 体 集中 的 实体 还 必须 插入 到 至 少 一 个 低层 实体 集中 。 在 条 件 定义 的 约束 
中 ,所 有 满足 条 件 的 高 层 实体 必须 插入 到 相应 的 低层 实体 集中 。 最 后 ， 从 高 层 实体 集 删 除 的 实体 也 必 
须 从 它 所 属于 的 所 有 相应 低层 实体 集中 删除 。 

7.8.5 聚集 project 

E-R 模型 的 一 个 局 限 性 在 于 它 不 能 表达 联系 间 的 
联系 。 为 了 说 明 这 种 结构 的 必要 性 ， 考 虑 我 们 此 前 看 
到 的 instructor, student 和 project 之 间 的 三 元 联系 proj_ 
guide( 如 图 7-13 所 示 ) o 

现在 假设 每 位 在 项 目 上 指导 学 生 的 教师 需要 记录 
月 评估 报告 。 我 们 将 评估 报告 建 模 为 一 个 主 码 为 
evaluation_id 的 实体 evaluation。 记 录 一 个 evaluation 对 
WAY (student, project, 、instructor) 组 合 的 另 一 个 方法 是 
在 instructor, student, project 和 evaluation 之 间 建 立 一 个 
四 元 (四 路 ) 联系 集 eval_for。( 四 元 的 联系 是 必需 
的 一 一 例如 ，student 和 evaluation 之 间 的 二 元 联系 无 法 图 7-22 包含 见 余 联系 的 E-R 图 
让 我 们 表示 某 个 evaluation 对 应 的 (project，instructor) 组 
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合 )。 通 过 使 用 基本 的 E-R 模型 构建 ， 我 们 得 到 了 图 7-22 所 示 的 E-R 图 。( 为 了 简洁 ， 省 略 了 实体 集 
的 属性 。) 

看 上 去 联系 集 proj_guide 和 eval_for 可 以 合并 到 一 个 联系 集中 。 然 而 ， 我 们 不 应 该 将 它们 合并 到 一 
起 ， 因 为 一 些 instructor, student, project 组 合 可 能 没有 相关 联 的 evaluation, 

但 是 ， 按 照 这 种 方法 产生 的 图 存在 元 余 信息 ， 因 为 在 eval_for 中 的 每 个 jnstructor 、student project 组 
合 肯 定 也 在 proj_guide H, WÈ evaluation 是 一 个 值 而 不 是 一 个 实体 ， 我们 可 以 将 evaluation 作为 联系 集 
proj_guide 的 一 个 多 值 属性 。 然 而 ， 当 某 个 evaluation 和 其 他 实体 相关 联 时 ， 这 种 方法 不 可 行 ; 例如 ， 
每 份 评估 报告 可 能 和 负责 评估 报告 的 后 续 处 理 以 发 放 奖 学 金 的 secretary 相关 联 。 

对 类 似 上 述 情况 建 模 的 最 好 办 法 是 使 用 聚 了 
集 。 聚 集 (ageregation) 是 一 种 抽象 ， 通 过 这 种 折 | 
象 ， 联 系 被 视 为 高 层 实 体 。 这 样 ， 对 于 我 们 的 例 | 
F, 我 们 将 联系 集 proj _ guide (关联 实体 集 
instructor, student 和 project) 看 成 一 个 名 为 proj _ proj_ guide 
guide 的 高 层 实体 集 。 这 种 实体 集 可 以 像 对 任何 | | ee | 
其 他 实体 集 一 样 来 处 理 。 这 样 我 们 就 可 以 在 proj_ | 
guide 和 evaluation 之 间 创 建 一 个 二 元 联系 eval_for pen 
来 表示 某 个 evaluation 对 应 哪个 ( student，projec， ~ eval_for 
instructor) 组 合 。 图 7-23 所 示 为 用 聚集 概念 来 表 
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示 以 上 这 种 情况 。 evaluation 
7.8.6 转换 为 关系 模式 

我 们 现在 开始 介绍 扩展 的 E-R 特性 如 何 转 换 图 7-23 ”包含 聚集 的 E-R 图 
为 关系 模式 。 


7.8.6.1 概 化 的 表示 
为 包含 概 化 的 E-R 图 进行 关系 模式 设计 有 两 种 不 同方 法 。 尽 管 我 们 在 下 面 的 讨论 中 考虑 图 7-21 的 
概 化 的 情况 ,但 为 了 简化 讨论 ， 我 们 谈 到 的 内 容 实际 上 只 包括 第 一 层 的 低层 实体 集 一 一 employee 和 
student。 我 们 假定 ID Æ person 的 主 码 。 
。 为 高 层 实体 集 创 建 一 个 模式 。 为 每 个 低层 实体 集 创 建 一 个 模式 ， 模 式 中 的 属性 包括 对 应 于 低层 
实体 集 的 每 个 属性 ， 以 及 对 应 于 高 层 实体 集 主 码 的 每 个 属性 。 因 此 ， 对 于 图 7-21 的 E-R 图 ( 忽 
略 instructor 和 secretary 实体 集 ) ， 有 三 个 模式 : 


person(ID, name, street, city) 





employee( ID, salary) 
student( ID, tot_cred) 


高 层 实体 集 的 主 码 属性 变 成 既是 高 层 实体 集 的 主 码 属性 也 是 所 有 低层 实体 集 的 主 码 属 性 。 如 上 
例 中 下 划 线 标记 所 示 。 
另外 ， 我 们 在 低层 实体 集 上 建立 外 码 约束 ， 其 主 码 属 性 参照 创建 自 高 层 实体 集 的 关系 的 主 码 。 
在 上 面 的 例子 中 ，employee 的 属性 ID 会 参照 person 的 主 码 ， 对 于 student 类 似 。 

© 如 果 概 化 是 不 相交 且 完 全 的 一 一 如 果 不 存在 同时 属于 两 个 同 级 的 低层 实体 集 的 实体 ， 且 如 果 高 
层 实 体 集 的 任何 实体 也 都 是 某 个 低层 实体 集 的 成 员 一 一 那么 可 以 采用 另 一 种 表示 方法 。 这 时 ， 
我 们 不 需要 为 高 层 实体 集 创建 任何 模式 ， 只 需要 为 每 个 低层 实体 集 创建 一 个 模式 ,模式 中 的 属 
性 包括 对 应 于 低层 实体 集 的 每 个 属性 ， 以 及 对 应 于 高 层 实体 集 的 每 个 属性 。 那 么 ， 对 于 图 7-21 
的 E-R 图 ， 有 两 个 模式 : 


employee(ID, name, street, city, salary) 
student(ID, name, street, city, tot_cred) 


这 两 个 模式 都 将 高 层 实 体 集 person 的 主 码 属性 ID 作为 它们 的 主 码 。 
第 二 种 方法 的 一 个 缺点 在 于 定义 外 码 约 束 。 为 了 说 明 这 个 问题 ， 假 定 我 们 有 一 个 与 实体 集 person 
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相关 的 联系 集 尺 。 用 第 一 种 方法 ， 当 从 该 联系 集 创 建 一 个 关系 模式 尽 时 ， 也 可 以 在 只 上 建立 参照 person 
模式 的 外 码 约束 。 遗 憾 的 是 ， 如 果 用 第 二 种 方法 ,， 尺 上 的 外 码 约 束 无 法 参照 单一 的 一 个 关系 。 为 了 避 
免 这 个 问题 ， 需 要 创建 一 个 关系 模式 person， 该 模式 至 少 包含 实体 person 的 主 码 属性 。 

如 果 将 第 二 种 方法 用 于 重 倒 概 化 ， 某 些 值 就 会 不 必要 地 存储 多 次 。 例 如 ， 如 果 一 个 人 既是 雇员 又 
EFE, street 和 city 的 值 就 会 存储 两 次 。 
如 果 概 化 是 不 相交 的 但 不 是 全 部 的 
模式 





有 的 人 既 不 是 雇员 又 不 是 学 生 一 一 则 将 需要 一 个 额外 的 


person(ID, name, street, city) 


来 表示 这 样 的 人 。 然 而 ， 上 述 外 码 约束 问题 仍然 存在 。 为 了 解决 这 个 问题 ， 假 定 在 person 关系 中 额外 
表示 了 雇员 和 学 生 ， 遗 憾 的 是 ， 姓 名 、 街 道 以 及 城市 的 信息 就 要 在 person 关系 和 student XR PILAH 
存储 ， 同 样 ， 雇 员 的 信息 在 person 关系 和 employee 关系 中 宛 余地 存储 。 这 就 促使 将 姓名 、 街 道 和 城市 
信息 只 存储 在 person 关系 中 ， 而 把 这 些 信息 从 student 和 employee 中 移 除 。 如 果 我 们 这 么 做 的 话 ， 结 果 
就 跟 我 们 此 前 讲述 的 第 一 种 方法 完全 一 样 了 。 

7.8.6.2 聚集 的 表示 

为 包含 聚集 的 E-R 图 进行 模式 设计 是 很 直接 的 。 考 虑 图 7-23 中 的 E-R 图 。 表 示 聚 集 proj_guide 和 
实体 集 evaluation 之 间 联 系 的 联系 集 eval_for 的 模式 包含 对 应 实体 集 evaluation 主 码 中 的 每 个 属性 以 及 联 
系 集 proj_guide 主 码 中 的 每 个 属性 。 它 还 包含 对 应 于 联系 集 eval_for 的 任意 描述 性 属性 (如 果 存 在 的 
话 ) 。 然 后 ， 根 据 我 们 已 经 定义 的 规则 ， 在 聚集 的 实体 集中 转换 联系 集 和 实体 集 。 

当 把 聚集 像 其 他 实体 集 一 样 看 待 时 ， 我 们 此 前 看 到 的 用 于 在 联系 集 上 创建 主 码 和 外 码 约束 的 规则 ， 
也 同样 可 以 应 用 于 与 聚集 相关 联 的 联系 集 。 聚 集 的 主 码 是 定义 该 聚集 的 联系 集 的 主 码 。 不 需要 单独 的 
关系 来 表示 至 集 ; 而 使 用 从 定义 该 聚集 的 联系 创建 出 来 的 关系 就 可 以 了 。 


7.9 数据 建 模 的 其 他 表示 法 


一 个 应 用 的 数据 模型 的 图 形 表示 对 于 数据 库 模式 的 设计 至 关 重 要 。 数 据 库 模 式 的 构建 不 仅 需要 数 
据 建 模 专家 ， 而 且 还 需要 了 解 应 用 的 需求 但 可 能 并 不 熟悉 数据 建 模 的 领域 专家 。 一 个 直观 的 图 形 表示 
使 两 类 专家 间 的 信息 沟通 变 得 简单 ， 因 而 尤其 重要 。 

目前 已 经 提出 了 许多 种 对 数据 建 模 的 表示 法 ， 其 中 E-R 图 和 UML 类 图 的 应 用 最 为 广泛 。 对 于 E-R 
表示 法 还 没有 一 个 统一 的 标准 ， 不 同 的 书籍 以 及 E-R 图 软件 使 用 不 同 的 表示 法 。 我 们 在 本 书 第 6 版 中 
选择 了 一 种 特定 的 表示 法 ， 它 不 同 于 本 书 以 往 版 本 使 用 的 表示 法 ， 我 们 将 在 本 节 的 稍 后 解释 原因 。 

在 本 节 剩 下 的 部 分 中 ,我们 学 习 一 些 可 选择 的 E-R 图 表示 法 ， 以 及 UML 类 图 表示 法 。 为 了 将 我 们 
的 表示 法 与 其 他 表示 法 比较 ， 图 7-24 总 结 了 我 们 此 前 在 E-R 图 表示 法 中 用 到 的 符号 集 。 

7.9.1 E-R 图 的 其 他 表示 法 

图 7-25 列 出 一 部 分 广泛 使 用 的 可 选择 的 E-R 表示 法 。 表 示 实 体 的 属性 的 一 种 可 选 的 方法 是 将 它们 
放 入 与 代表 实体 的 方 框 所 连接 的 椭圆 形 中 。 主 码 属性 以 下 划 线 表明 。 在 图 7-25 的 最 上 部 展示 了 上 述 表 
示 法 。 联 系 的 属性 也 可 以 用 类 似 的 方式 表示 ， 即 将 包含 属性 的 椭圆 与 表示 联系 的 萎 形 连接 起 来 。 

如 图 7-25 所 示 ， 联 系 上 的 基数 约束 可 以 用 多 种 不 同 的 方法 表示 。 在 图 7-25 的 左 部 展示 了 一 种 可 先 
择 的 方法 ， 即 在 联系 外 面 的 边 上 标记 * 和 1， 通常 用 来 表示 多 对 多 、 一 对 一 和 多 对 一 联系 。 一 对 多 的 
情况 与 多 对 一 的 情况 是 对 称 的 ， 在 此 没有 画 出 。 

在 图 7-25 的 右 部 展示 了 另 一 种 可 选择 的 表示 法 ， 联 系 集 是 用 实体 集 之 间 的 连 线 而 不 是 菱形 来 表 
示 ; 因此 只 有 二 元 联系 才 可 以 如 此 表示 。 如 图 7-25 所 示 ， 在 这 种 表示 法 中 基数 约束 用 “ 鸦 爪 形 "表示 法 
表示 。 在 El 和 E2 之 间 的 联系 RP, MMB MRA El 到 62 的 多 对 多 的 关系 。 在 这 个 表示 法 中 ， 坚 
线 代表 全 部 参与 。 不 过 要 注意 ， 在 实体 El M E 间 的 联系 中 ， 如 果 El X RERS, WERNE 
在 对 面 ， 即 靠近 52 的 位 置 ， 类 似 地 ， 在 对 面 画 一 个 圆圈 表示 部 分 参与 。 

图 7-25 的 底部 是 概 化 的 另 一 种 可 选择 的 表示 方法 ， 即 用 三 角形 替代 空心 箭头 。 
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属性 : 
42 简单 属性 (AD, 











以 及 主 码 41 


多 对 多 联系 


oon [E >] 
在 R 中 的 参与 
She > Eh 


部 分 的 (82) 


axe | | me OY AR SO 


图 7-25 ”其 他 可 选择 的 E-R 图 表示 法 





在 本 书 第 5 版 及 以 前 的 版 本 中 ， 我 们 用 椭圆 形 表示 属性 ， 用 三 角形 表示 概 化 ， 如 图 7-25 所 示 。 用 
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椭圆 形 表示 属性 并 用 菱形 表示 联系 的 表示 法 接近 于 Chen 在 他 引入 E-R 模型 概念 的 论文 中 所 用 的 E-R 图 
的 原始 形式 ， 那 种 表示 法 目前 称 为 陈 氏 表 示 法 。 

美国 国家 标准 和 技术 研究 院 于 1993 年 定义 了 一 个 称 为 IDEFIX 的 标准 ， 其 中 使 用 了 和 鸦 扑 形 符 号 并 
在 联系 的 边 上 加 上 坚 线 用 于 指明 全 部 参与 ， 加 上 空心 圆 表示 部 分 参与 ， 还 包括 了 其 他 没有 列 出 的 符号 。 

随 着 统一 标记 语言 ( Unified Markup Language, UML) (将 在 7. 9. 2 节 介 绍 ) 使 用 的 增多 ， 我 们 选择 更 
新 E-R 表示 法 ， 使 之 更 接近 UML 类 图 的 形式 ; 7.9.2 节 将 说 明 它 们 之 间 的 联系 。 和 此 前 的 表示 法 相 
比 ， 新 的 表示 法 对 属性 的 表示 更 加 紧凑 ， 并 且 更 接近 许多 E-R 建 模 工 具 所 支持 的 表示 法 ， 此 外 也 更 接 
近 UML 类 图 表示 法 。 

目前 有 多 种 用 于 构建 E-R 图 的 工具 ,每 个 工具 都 有 它 自 己 的 表示 法 变 体 。 其 中 的 一 些 工具 甚至 提 
供 在 几 种 不 同 的 E-R 表示 法 变 体 间 的 选择 。 更 多 信息 请 参考 文献 注解 部 分 的 引用 文献 。 

在 E-R 图 中 的 实体 集 与 从 这 些 实体 集 创 建 的 关系 模式 之 间 一 个 关键 的 不 同 点 在 于 ，E-R 联系 对 应 
的 关系 模式 中 的 属性 ， 比 如 instructor 的 属性 dept_name， 在 E-R 图 中 的 实体 集中 并 没有 表示 出 来 。 一 些 
数据 建 模 工具 允许 用 户 在 同一 个 实体 的 两 种 视图 间 选 择 ， 一 种 是 不 包含 这 些 属性 的 实体 视图 ， 而 另 一 
种 是 包含 这 些 属性 的 关系 视图 。 

7.9.2 统一 建 模 语言 UML 

实体 -联系 图 有 助 于 对 软件 系统 的 数据 表示 部 分 建 模 。 然 而 ， 数 据 表 示 只 构成 整个 系统 设计 的 一 
部 分 。 其 他 部 分 包括 系统 用 户 界面 的 建 模 、 系 统 功能 模块 的 规范 定义 以 及 它们 之 间 的 交互 等 。 统 一 建 
模 语言 (Unified Modeling Language,-UML) 是 由 对 象 管 理 组 织 (Object Management Group, OMG) 主持 开发 
的 一 个 标准 ， 它 是 为 了 建立 软件 系统 不 同 部 分 的 规范 定义 而 提出 的 。UML 的 一 些 组 成 部 分 为 : 

。 类 图 (class diagram), AIA E-R 图 相 类 似 。 本 节 将 说 明 类 图 的 一 些 特征 及 其 与 E-R 图 的 关系 。 

° 用 况 图 (use case diagram)。 用 况 图 说 明了 用 户 和 系统 之 间 的 交互 ， 特 别 是 用 户 所 执行 的 任务 中 

的 每 一 步 操作 (如 取 钱 或 注册 课程 ) 。 

© 活动 图 (activity diagram) 。 活 动 图 说 明了 系统 不 同 部 分 之 间 的 任务 流 。 

。 实现 图 (implementation diagram) 。 实 现 图 在 软件 构件 层 和 硬件 构件 层 说 明了 系统 的 各 组 成 部 分 
以 及 它们 之 间 的 联系 。 

在 这 里 我 们 不 准备 提供 UML 各 部 分 的 细节 。 关 于 UML 的 参考 文献 请 参看 文献 注解 。 不 过 ， 我 们 
将 通过 一 些 例子 来 说 明 UML 中 与 数据 建 模 有 关 的 部 分 的 一 些 特 征 。 

图 7-26 显示 了 几 个 E-R 图 的 构造 和 与 它们 等 价 的 UML 类 图 的 构造 。 我 们 将 在 下 面 描述 这 些 构 造 。 
事实 上 UML 为 对 象 建 模 ， 而 E-R 为 实体 建 模 。 对 象 和 实体 很 像 ， 也 有 属性 ， 但 是 另外 还 提供 一 组 函数 
( 称 为 方法 ) ， 它 们 可 在 对 象 属性 的 基础 上 调用 以 计算 值 ， 或 更 新 对 象 本 身 。 类 图 除了 可 以 说 明 属 性 
外 ， 还 可 以 说 明 方法 。 我 们 在 第 22 章 讨论 对 象 。UML 不 支持 复合 或 多 值 属性 ， 派 生 属 性 与 不 带 参 数 
的 函数 等 价 。 由 于 类 支持 封装 ， 因 此 UML 允许 属性 和 函数 带 有 前 级 ”+”、“ "或 “#"” ， 这 分 别 表 示 公 
共 、 私 有 以 及 受 保护 的 访问 。 私 有 属性 只 能 在 类 的 方法 中 使 用 ， 而 受 保 护 的 属性 只 能 在 类 和 它 的 子 类 
的 方法 中 使 用 ; 了 解 Java、C ++ 或 C# 的 人 应 该 对 此 很 熟悉 。 

在 UML 术语 中 ， 联 系 集 称 为 关联 (association ) ; 为 了 与 E-R 术语 一 致 ， 我 们 将 仍 称 它们 为 联系 集 。 
在 UML 中 我 们 通过 划一 条 线段 连接 实体 集 来 表示 二 元 联系 集 。 我 们 将 联系 集 的 名 称 写 在 线段 的 附近 。 
我 们 还 可 以 通过 将 角色 的 名 称 写 在 靠近 实体 集 的 线段 上 ,来 说 明 联 系 集中 一 个 实体 集 的 角色 。 另 一 种 
方法 是 ， 我 们 可 将 联系 集 的 名 字 写 在 方 框 里 ， 和 联系 集 的 属性 写 在 一 起 ， 并 用 虚线 把 这 个 方 框 连接 到 
表示 联系 集 的 连 线 上 。 这 个 方 框 可 以 看 作 一 个 实体 集 ， 如 同 E-R 图 中 的 聚集 一 样 ， 也 可 以 与 其 他 实体 
集 一 起 参与 联系 。 

从 UML 1.3 版 开始 ，UML 通过 使 用 与 E-R 图 中 使 用 的 一 样 的 菱形 表示 法 支持 非 二 元 联系 。 而 在 更 
早 版 本 的 UML 中 无 法 直接 表示 非 二 元 联系 一 一 非 二 元 联系 必须 用 我 们 在 7. 7. 3 节 中 看 见 的 技术 转换 成 
二 元 联系 。 即 使 对 于 二 元 联系 ，UML 也 人 允许 使 用 菱形 表示 法 ， 但 是 大 部 分 设计 者 使 用 线段 表示 法 。 

基数 约束 在 UML 中 和 下 -R APRH L. h 的 形式 表示 ， 其 中 ! 表示 参与 联系 的 实体 的 最 小 个 数 ， 
h 则 表示 最 大 个 数 。 然 而 ， 如 图 7-26 所 示 ， 你 应 该 注意 到 约束 的 位 置 和 在 E-R 图 中 约束 的 位 置 正好 相 
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反 。E2 边 上 的 约束 0..* 和 El 边 上 的 0..1 表示 每 个 62 实体 可 以 参与 至 多 一 个 联系 ， 而 每 个 E 实体 
可 以 参与 很 多 联系 ; 换 句 话说 ， 该 联系 是 从 E2 到 Ll 多 对 一 的 。 

像 1 或 * 这 样 的 单个 值 可 以 写 在 边 上 ; 边 上 的 单个 值 1 视 为 与 1..1 等 价 ， 而 * 等 价 于 0.. *。 
UML 支持 概 化 ， 表 示 法 与 E-R 表示 法 基本 相同 ， 包 括 不 相交 概 化 和 重合 概 化 的 表示 方式 。 

UML 类 图 还 包含 一 些 其 他 的 表示 法 ， 与 我 们 见 过 的 E-R 表示 法 并 不 对 应 。 例 如 ， 连 接 两 个 实体 集 
的 一 条 线 的 一 端 有 一 个 小 凌 形 ， 表 示 萎 形 这 一 端的 实体 集 包 含 另 一 个 实体 集 ( 包含 关系 在 UML 术语 中 
称 为 聚合 ”， 不 要 将 聚合 的 这 种 用 法 同 E-R 模型 中 聚集 的 含义 混淆 ) 。 例 如 ， 一 个 车 辆 实体 可 能 包含 
一 个 发 动机 实体 。 

UML 类 图 还 提供 了 表示 面向 对 象 语 言 的 特征 的 表示 法 ， 例 如 接口 。 关 于 UML 类 图 的 更 多 信息 ， 
请 参看 文献 注解 中 的 引用 文献 。 


E-R 图 表示 法 等 价 的 UML 表 示 法 

TE) sanean = CE] Am 

EN 复合 多 值 、 派 生 ) [A | -私有 的 HPS) 
的 实体 的 类 o 


faa Pk Ree | 一 元 联系 [a lel role? 7] 
an Pp 2E] 联系 属性 EI role | 


[POH semester} pa 





图 7-26 UML 类 图 表示 法 中 使 用 的 符号 
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本 章 对 模式 设计 的 扩展 讨论 可 能 会 造成 模式 设计 是 数据 库 设计 的 唯一 组 成 部 分 的 错误 印象 。 我 们 
将 在 后 续 章 节 中 更 完整 地 讲述 一 些 其 他 的 考虑 ， 而 在 此 ， 我 们 先 简 要 地 概览 一 下 。 
7.10.1 数据 约束 和 关系 数据 库 设 计 

我 们 已 经 看 到 ， 使 用 SQL 可 以 表达 多 种 数据 约束 ， 包 括 主 码 约束 、 外 码 约束 、check 约束 、 断 言 
和 触发 器 。 约 束 用 于 多 种 目的 。 最 明显 的 一 个 目的 是 自动 的 一 致 性 保持 。 通 过 在 SQL 数据 定义 语言 中 
表达 约束 ,设计 者 能 够 确保 数据 库 系统 自己 执行 这 些 约束 。 这 比 让 每 个 应 用 程序 自己 独立 地 执行 约束 
要 可 靠 得 多 。 同 时 ， 这 种 机 制 也 为 更 新 和 添加 约束 提供 了 一 个 集中 的 位 置 。 

显 式 声 明 约束 的 男 一 个 优点 是 一 些 约束 在 关系 数据 库 模 式 的 设计 中 特别 有 用 。 例 如 ， 如 果 我 们 知 
道 社会 保障 号 唯一 地 标识 一 个 人 ， 那 么 我 们 就 可 以 使 用 一 个 人 的 社会 保障 号 来 关联 与 这 个 人 相关 的 数 
据 ， 即 使 这 些 数据 出 现在 多 个 关系 中 。 与 此 相反 ， 比 如 ,眼睛 的 颜色 不 是 唯一 标识 符 。 眼 睛 的 颜色 不 
能 用 于 关联 与 某 个 人 相关 的 多 个 关系 中 的 数据 ， 因 为 这 样 就 无 法 将 一 个 人 的 数据 同 其 他 具有 同样 眼睛 
颜色 的 人 的 相关 数据 区 分 开 来 。 
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在 7.6 节 中 ,通过 使 用 设计 中 指定 的 约束 ， 我 们 为 一 个 给 定 的 E-R 设计 生成 了 一 个 关系 模式 集合 。 
在 第 8 章 中 ,我 们 将 这 个 思想 及 其 相关 约束 形式 化 ， 并 展示 它 将 如 何 辅助 关系 数据 库 模 式 的 设计 。 关 
系数 据 库 设计 的 规范 化 方法 使 我 们 能 够 在 给 定 的 设计 是 好 的 设计 时 用 准确 的 方式 进行 表述 ， 并 且 能 够 
把 不 好 的 设计 转变 为 较 好 的 设计 。 我 们 将 看 到 ， 这 个 从 实体 - 联系 设计 开始 并 根据 该 设计 规则 地 生成 
关系 模式 的 过 程 给 整个 设计 过 程 提供 了 一 个 好 的 开始 。 

数据 约束 在 确定 数据 的 物理 结构 时 同样 有 用 ， 可 以 将 彼此 紧密 相关 的 数据 存储 在 磁盘 上 邻近 的 区 
域 ， 以 便 在 磁盘 访问 时 提高 效率 。 当 索引 建立 在 主 码 上 时 ， 索 引 结构 工作 得 更 好 。 

每 次 数据 库 更 新 时 ， 执 行 约束 会 在 性 能 上 带 来 潜在 的 高 代价 。 对 于 每 次 更 新 ， 系 统 都 必须 检查 所 
有 的 约束 ， 然 后 要 么 拒绝 与 约束 冲突 的 更 新 ， 要 么 运行 相应 的 触发 器 。 性 能 损失 的 严重 性 不 仅仅 取决 
于 更 新 的 频率 ， 而 且 依赖 于 数据 库 的 设计 方式 。 对 某 些 类 型 的 约束 进行 检测 的 真实 效率 ， 是 第 8 章 中 
对 关系 数据 库 模式 设计 的 讨论 的 一 个 重要 方面 。 

7. 10.2 使 用 需求 : 查询 、 性 能 

数据 库 系 统 的 性 能 是 绝 大 多 数 企业 信息 系统 的 一 个 关键 因素 。 人 性 能 不 仅 与 计算 能 力 的 有 效 利 用 以 
及 所 使 用 的 存储 硬件 有 关 ， 而 且 受 到 与 系统 交互 的 人 的 效率 以 及 依赖 数据 库 数据 的 处 理 的 效率 的 影响 。 

以 下 是 效率 的 两 个 主要 度量 方法 : 

© 吞吐 量 ( throughput) 一 一 每 单位 时 间 里 能 够 处 理 的 查询 或 更 新 (通常 指 事务 ). 的 平均 数量 。 

e 响应 时 间 (response time) 一 一 单个 事务 从 开始 到 结束 所 需 的 平均 时 间或 者 最 长 时 间 。 

以 批量 的 方式 处 理 大 量 事务 的 系统 关注 于 达到 高 吞吐 量 。 与 人 交互 或 者 时 间 苛 刻 的 系统 则 通常 关 
注 于 响应 时 间 。 这 两 个 度量 并 不 等 价 。 高 吞吐 量 的 目的 是 为 了 获得 系统 部 件 的 高 利用 率 。 这 样 做 的 时 
候 可 能 会 导致 某 些 事务 延迟 ， 直 到 它们 能 更 高 效 地 运行 的 时 候 才 处 理 。 所 以 这 些 延 迟 的 事务 的 响应 时 
间 就 很 差 。 

大 多 数 商 用 数据 库 系 统 长 期 以 来 都 关注 于 吞吐 量 ， 但 是 ， 包 括 基 于 Web 的 应 用 和 电信 信息 系统 等 
在 内 的 许多 应 用 都 要 求 好 的 平均 响应 时 间 和 适当 限制 内 的 最 差 响 应 时 间 。 

了 解 预期 最 频繁 的 查询 的 类 型 有 助 于 设计 过 程 。 涉 及 连接 的 查询 比 不 涉及 连接 的 查询 需要 更 多 的 
资源 用 以 计算 。 在 需要 连接 的 情况 下 ， 数 据 库 管理 员 可 以 选择 创建 一 个 索引 ， 加 快 连接 的 计算 。 对 于 
查询 一 一 不 论 是 否 涉及 连接 一 一 可 以 创建 索引 以 加 速 常常 出 现在 查询 中 的 选择 谓词 ( SQL 的 where F 
句 ) 的 计算 。 查 询 中 另 一 个 影响 索引 选择 的 因素 是 更 新 和 读 操 作 的 混合 。 当 一 个 索引 可 能 加 速 查询 的 同 
时 ， 它 也 可 能 减缓 更 新 的 速度 ， 因 为 更 新 会 为 维护 索引 的 准确 性 而 强制 性 地 带 来 额外 的 工作 。 
7.10.3 授权 需求 

授权 约束 同样 会 影响 数据 库 的 设计 ， 因 为 SQL 允许 在 数据 库 逻 辑 设计 组 件 的 基础 上 将 访问 权限 授 
予 用 户 。 一 个 关系 模式 可 能 需要 分 解 为 两 个 或 多 个 模式 ， 以 便于 在 SQL 中 授予 访问 权限 。 比 如 ， 一 个 
雇员 记录 可 以 包括 与 工资 单 、 工 作 职责 和 医疗 保险 相关 的 数据 。 由 于 企业 的 不 同 管理 部 门 分 别管 理 该 
数据 的 不 同 部 分 ， 有 些 用 户 需 要 访问 工资 数据 ， 但 却 不 能 访问 工作 数据 和 医疗 数据 等 。 如 果 这 些 数据 
在 一 个 表 中 ， 和 希望 得 到 的 访问 划分 通过 使 用 视图 尽管 依然 可 行 ， 但 更 加 麻烦 。 当 数据 在 一 个 计算 机 网 
络 中 的 多 个 系统 中 分 散 存放 时 ， 这 种 方式 的 数据 划分 则 是 必 不 可 少 的， 这 个 问题 将 在 第 19 章 讨论 。 
7. 10.4 数据 流 、 工 作 流 

数据 库 应 用 通常 是 大 型 企业 应 用 的 一 部 分 ， 这 样 的 应 用 不 仅 与 数据 库 系统 交互 ， 而 且 会 同 各 种 专 
门 的 应 用 交互 。 例 如 ， 在 一 个 制造 公司 中 ,计算 机 辅助 设计 (CAD) 系统 会 用 于 辅助 新 产品 的 设计 
CAD 系统 可 以 通过 SQL 语句 从 数据 库 中 抽取 数据 ， 在 其 内 部 处 理 这 些 数据 也许 同时 和 产品 设计 人 员 
进行 交互 ， 然 后 再 更 新 数据 库 。 在 这 个 过 程 中 ， 数 据 的 控制 权 会 在 几 个 产品 设计 人 员 和 其 他 人 之 间 传 
递 。 再 看 一 个 例子 ， 考 虑 一 个 差旅费 报告 。 它 由 一 个 出 差 归来 的 雇员 写成 (可 能 利用 某 个 专门 的 软件 
包 ) ， 然 后 依次 交 给 该 雇员 的 经 理 ， 可 能 的 其 他 高 层 经 理 ， 最 后 交 到 了 财务 部 门 以 报销 费用 (在 此 处 它 
将 与 该 企业 的 财务 信息 系统 交互 ) 。 

术语 工作 流 表示 一 个 流程 中 的 数据 和 任务 的 组 合 ， 前 面 给 出 了 这 种 流程 的 两 个 例子 。 当 工作 流 在 
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用 户 间 移 动 以 及 用 户 执 行 他 们 在 工作 流 中 的 任务 时 ， 工 作 流 会 与 数据 库 系统 交互 。 除 了 工作 流 操作 的 
数据 之 外 ， 数 据 库 还 可 以 存储 工作 流 自身 的 数据 ， 包 括 构成 工作 流 的 任务 以 及 它们 在 用 户 之 间 移 动 的 
路 径 。 因 此 工作 流 可 以 列 出 一 系列 对 数据 库 的 查询 和 更 新 ， 而 这 些 可 能 会 作为 数据 库 设 计 过 程 的 一 个 
部 分 考虑 进来 。 换 名 话说， 对 企业 建 模 要 求 我 们 不 仅 要 理解 数据 的 语义 ， 还 要 理解 使 用 这 些 数据 的 业 


务 流 程 。 
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7. 10.5 数据 库 设计 的 其 他 问题 

数据 库 设计 通常 不 是 一 个 一 跳 而 就 的 工作 。 一 个 组 织 的 需求 不 断 发 展 ， 它 所 需要 存储 的 数据 也 会 
相应 地 发 展 。 在 最 初 的 数据 库 设 计 阶段 ， 或 者 在 应 用 的 开发 中 ,数据库 设计 者 都 有 可 能 意识 到 在 概念 、 
逻辑 和 物理 模式 层次 上 要 有 所 改变 。 模 式 上 的 改变 会 影响 到 数据 库 应 用 的 方方面面 。 一 个 好 的 数据 库 
设计 会 预先 估计 一 个 组 织 将 来 的 需要 ， 设 计 出 的 模式 在 需求 发 展 时 只 需要 做 最 少 的 改动 即 可 满足 要 求 。 

区 分 预期 持久 的 基本 约束 和 预期 要 改变 的 约束 非常 重要 。 例 如 ,教师 编号 能 唯一 地 标识 一 名 教师 
的 约束 是 基本 的 。 另 一 方面 ， 大 学 可 能 有 一 项 规定 ， 一 名 教师 只 能 属于 一 个 系 ， 这 条 规定 也 许 会 在 将 
来 改变 ， 如 果 人 允许 联合 任命 的 话 。 只 允许 每 个 教师 属于 一 个 系 的 数据 库 设 计 在 允许 联合 任命 时 会 需要 
较 大 的 改动 。 只 要 每 个 教师 只 有 一 个 主 系 ， 这 种 联合 任命 就 可 以 通过 新 添 一 个 关系 来 表示 ， 而 不 需要 
修改 instructor 关系 。 而 如 果 规 定 改 成 允许 一 个 教师 有 多 个 主 系 时 ， 则 数据 库 设 计 就 需要 进行 较 大 的 改 
动 。 一 个 好 的 设计 应 该 不 止 考虑 当前 的 规定 ， 还 应 该 避免 或 者 最 小 化 由 预计 或 有 可 能 发 生 的 改变 而 带 
来 的 改动 。 

进一步 说 ， 数 据 库 所 服务 的 企业 很 可 能 会 与 其 他 企业 交互 ， 因 此 ， 多 个 数据 库 可 能 需要 进行 交互 。 
不 同 模式 之 间 的 数据 转换 在 现实 世界 的 应 用 中 是 一 个 重要 的 问题 。 对 于 这 个 问题 提出 了 很 多 解决 方案 。 
我 们 将 在 第 23 章 学 习 的 XML 数据 模型 ， 在 不 同 应 用 间 交 换 数据 时 ， 广 泛 用 于 表示 数据 。 

最 后 ， 不 言 而 喻 ， 数据库 设 计 在 两 个 意义 上 是 面向 人 的 工作 : 系统 的 最 终 用 户 是 人 (即使 有 应 用 程 
序 位 于 数据 库 和 最 终 用 户 之 间 ); 数据 库 设计 者 需要 与 应 用 领域 的 专家 进行 广泛 交互 以 理解 应 用 的 数 
据 需求 。 所 有 涉及 数据 的 人 都 有 需要 和 偏好 ， 为 了 数据 库 设计 和 部 署 在 企业 中 获得 成 功 ， 这 些 都 应 当 
考虑 到 。 


7.11 总 结 


。 数据 库 设计 主要 涉及 数据 库 模式 的 设计 。 实 体 - 联系 ( Entity-Relationship ，E-R) 数据 模型 是 一 个 广泛 
用 于 数据 库 设 计 的 数据 模型 。 它 提供 了 一 个 方便 的 图 形 化 表示 方法 以 查看 数据 、 联 系 和 约束 。 

。 下 -R 模型 主要 用 于 数据 库 设计 过 程 。 它 的 发 展 是 为 了 帮助 数据 库 设 计 ， 这 是 通过 人 允许 定义 企业 模式 

(enterprise schema) 实现 的 。 这 种 企业 模式 代表 数据 库 的 全 局 逻辑 结构 ， 该 全 局 结构 可 以 用 E-R 图 

(E-R diagram) 图 形 化 地 表示 。 

实体 (entity ) 是 在 现实 世界 中 存在 并 且 区 别 于 其 他 对 象 的 对 象 。 我 们 通过 把 每 个 实体 同 描述 该 实体 的 

一 组 属性 相关 联 来 表示 区 别 。 

© 联系 (relationship) 是 多 个 实体 间 的 关联 。 相 同类 型 的 联系 的 集合 为 联系 集 ( relationship set), ， 相 同类 
型 的 实体 的 集合 为 实体 集 ( entity set) 。 

© 术语 超 码 ( superkey) 、 候 选 码 ( candidate key) 以 及 主 码 (primary key) 同 适 用 于 关系 模式 一 样 适 用 于 实 
体 和 联系 集 。 在 确定 一 个 联系 集 的 主 码 时 需要 小 心 ， 因 为 它 由 来 自 一 个 或 多 个 相关 的 实体 集 的 属性 
组 成 。 

© PRET HW ( mapping cardinality ) 表示 通过 联系 集 可 以 和 另 一 实体 相关 联 的 实体 的 个 数 。 

不 具有 足够 属性 构成 主 码 的 实体 集 称 为 弱 实 体 集 ( weak entity set) 。 具 有 主 码 的 实体 集 称 为 强 实体 集 

(strong entity set) 。 

E-R 模型 的 各 种 性 质 为 数据 库 设 计 者 提供 了 大 量 的 选择 ， 使 设计 人 员 可 以 最 好 地 表示 被 建 模 的 企业 。 

在 某 些 情况 中 ， 概 念 和 对 象 可 以 用 实体 、 联 系 或 属性 来 表示 。 企 业 总 体 结构 的 各 方面 可 以 用 弱 实 体 

集 、 概 化 、 特 化 或 聚集 很 好 地 描述 。 设 计 者 通常 需要 在 简单 的 、 紧 凑 的 模型 与 更 精确 但 也 更 复杂 的 

模型 之 间 进 行 权衡 。 
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© 用 E-R 图 定义 的 数据 库 设计 可 以 用 关系 模式 的 集合 来 表示 。 数 据 库 的 每 个 实体 集 和 联系 集 都 有 唯一 
的 关系 模式 与 之 对 应 ， 其 名 称 即 为 相应 的 实体 集 或 联系 集 的 名 称 。 这 是 从 E-R 图 转换 为 关系 数据 库 
设计 的 基础 。 

© 特 化 ( specialization) 和 概 化 ( generalization) 定义 了 一 个 高 层 实体 集 和 一 个 或 多 个 低层 实体 集 之 间 的 包 
含 关系 。 特 化 是 取出 高 层 实 体 集 的 一 个 子 集 来 形成 一 个 低层 实体 集 。 概 化 是 用 两 个 或 多 个 不 相交 的 
(低层 ) 实 体 集 的 并 集 形成 一 个 高 层 实体 集 。 高 层 实体 集 的 属性 被 低层 实体 集 继承 。 

© FES (aggregation) 是 一 种 抽象 ， 其 中 联系 集 ( 和 跟 它们 相关 的 实体 集 一 起 ) 被 看 作 高 层 实体 集 ， 并 且 
可 以 参与 联系 。 

。 UML 是 一 种 常用 的 建 模 语言 。UML 类 图 广泛 用 于 对 类 建 模 以 及 一 般 的 数据 建 模 。 









































术语 回顾 
。 实体 -联系 数据 模型 口 超 码 、 候 选 码 以 及 主 码 口 分 辩 符 属性 
。 实体 和 实体 集 口 角色 标识 联系 
属性 口 自 环 联系 集 。 特 化 和 概 化 
口 域 e E-R 图 口 超 类 和 子 类 
口 简单 和 复合 属性 。 映射 基数 口 属性 继承 
O 单 值 和 多 值 属性 口 一 对 一 联系 口 单 和 多 继承 
口 空 值 口 一 对 多 联系 DO 条件 定义 的 和 用 户 定义 
口 派生 属性 口 多 对 一 联系 的 成 员 资格 
© 超 码 、 候 选 码 以 及 主 码 口 多 对 多 联系 O 不 相交 概 化 和 重叠 概 化 
。 联系 和 联系 集 。 参与 口 全 部 概 化 和 部 分 概 化 
口 二 元 联系 集 口 全 部 参与 。 RE 
O 联系 集 的 度 口 部 分 参与 e UML 
口 描述 性 属性 © 弱 实 体 集 和 强 实体 集 e UML 类 图 
实践 习题 


El 


12 


73 


7.4 


ks 


7.6 


为 车 辆 保险 公司 构建 一 个 E-R 图 ， 它 的 每 个 客户 有 一 辆 或 多 辆 车 。 每 辆 车 关联 零 次 或 任意 次 事故 的 记 

录 。 每 张 保险 单 为 一 辆 或 多 辆 车 保险 ， 并 与 一 个 或 多 个 保费 支付 相关 联 。 每 次 支付 只 针对 特定 的 一 段 

时 间 ， 具 有 关联 的 到 期 日 和 缴费 日 。 

考虑 一 个 用 于 记录 学 生 在 不 同 开课 ( section ) 的 不 同 考试 中 所 得 成 绩 的 数据 库 。 

。 为 数据 库 构 造 一 个 E-R 图 ， 其 中 ,将 考试 建 模 为 实体 并 使 用 一 个 三 元 联系 。 

。 构造 男 一 个 E-R 图 ， 其 中 ， 只 用 students 和 section 间 的 二 元 联系 。 保 证 在 特定 student 和 section 对 之 
间 只 存在 一 个 联系 ; 而 且 你 可 以 表示 出 学 生 在 不 同 考试 中 所 得 成 绩 。 

设计 一 个 E-R 图 用 于 跟踪 记录 你 最 喜欢 的 球 队 的 成 绩 。 你 应 该 保存 打 过 的 比赛 ， 每 场 比赛 的 比分 ， 每 

场 比赛 的 上 场 队 员 以 及 每 个 队员 在 每 场 比赛 中 的 统计 数据 。 总 的 统计 数据 应 该 被 建 模 成 派生 属性 。 

考虑 一 个 E-R 图 ， 其 中 相同 实体 集 出 现 数 次 ， 且 它 的 属性 重复 出 现 多 次 。 为 什么 这 样 的 元 余 是 应 尽量 

避免 的 不 良 设 计 ? 

E-R 图 可 视 为 一 个 图 。 下 面 这 些 术语 对 于 一 个 企业 模式 的 结构 意味 着 什么 ? 

a. 图 是 非 连通 的 。 

b. 图 是 有 环 的 。 

如 7.7.3 节 描 述 及 图 7-27b 所 示 ( 属 性 没有 列 出 ) ， 考 虑 用 多 个 二 元 联系 来 表示 一 个 三 元 联系 。 

a BH EE, A, B, Cy Ri, Ry FUR, 的 一 个 简单 实例 ， 这 个 实例 不 能 对 应 于 4、B、C 和 RR 的 任何 实例 。 

b. 修改 图 7-27b 的 E-R K, SIAR, HRE, A, B, C, Ri, Ry A Re 的 任意 满足 约束 的 实例 将 对 
应 于 4、B、C 和 RR 的 一 个 实例 。 

c. 修改 以 上 的 转换 以 处 理 该 三 元 联系 上 的 全 部 参与 约束 。 

d. 以 上 表示 方式 需要 我 们 为 5 创建 一 个 主 码 属 性 。 试 问 如 何 将 E 看 成 弱 实 体 集 从 而 不 需要 主 码 属性 ? 
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图 7-27 实践 习题 7.6 和 习题 7.24 的 E-R 图 


一 个 弱 实 体 集 总 可 以 通过 往 自 己 的 属性 中 加 入 其 标识 实体 集 的 主 码 属性 而 变 成 一 个 强 实体 集 。 概 括 一 
下 如 果 我 们 这 么 做 会 产生 什么 样 的 元 余 。 

考虑 一 个 关系 ， 例 如 sec_course， 产 生 于 多 对 一 的 联系 sec_course。 在 这 个 关系 上 创建 的 主 码 约束 和 外 码 

约束 是 否 强制 实施 多 对 一 的 基数 约束 ?解释 为 什么 。 

假设 advisor 联系 是 一 对 一 的 。 为 了 确保 执行 一 对 一 基数 约束 ， 在 关系 advisor 上 需要 哪些 额外 的 约束 ? 
考虑 实体 集 4 和 B 之 间 多 对 一 的 联系 R, 假设 从 RR 生成 的 关系 和 4 生成 的 关系 合并 了 。 在 SQL 中 ， 
参与 外 码 约束 的 属性 可 以 为 空 。 解 释 如 何 使 用 SQL 上 的 not null 约束 来 强制 实施 4 在 R 中 的 全 部 参 
与 约束 。 
在 SQL 中 ， 外 码 约束 只 能 参照 被 参照 关系 的 主 码 属 性 ， 或 者 其 他 用 unique 约束 声明 为 超 码 的 属性 。 
这 导致 多 对 多 联系 (或 者 一 对 多 联系 的 “一 ” 方 ) 上 的 全 部 参与 约束 在 从 该 联系 创建 的 关系 上 无 法 用 关 
系 上 的 主 码 、 外 码 以 及 非 空 约束 强制 实施 。 
a. 解释 为 什么 。 
b. 解释 如 何 使 用 复杂 的 check 约束 或 断言 ( 见 4.4.7 节 ) 强 制 实施 全 部 参与 约束 。( 遗憾 的 是 ， 在 目前 

广泛 使 用 的 数据 库 中 并 不 支持 这 些 特性 。) 
图 7-28 所 示 为 概 化 和 特 化 的 一 个 格 结构 (属性 没有 给 出 ) 。 针 对 
KERA BAC, WAWA REKKE X A Y ARAE it 
论 X 的 一 个 属性 和 了 的 某 个 属性 同名 时 应 如 何 处 理 。 
时 间 变化 (temporal change) : E-R 图 通常 对 一 个 企业 在 某 个 时 
间 点 的 状态 建 模 。 假 设 我 们 希望 追踪 时 间 变 化 ， 即 数据 随时 
间 的 变化 。 例 如 ， 张 可 能 在 2005 年 9 月 1 日 至 2009 年 5 月 
31 日 之 间 是 一 名 学 生 ， 而 Shankar 在 2008 年 5 月 31 日 至 2008 年 12 H 5 日 以 及 2009 年 6 月 1 日 
至 2010 年 1 月 5 日 期 间 的 导师 是 Einstein。 类 似 地 ， 一 个 实体 或 联系 的 属性 值 会 随时 间 发 生变 
化 ， 例 如 course 的 title 和 credits, instructor 的 salary 甚至 name, 以 及 student 的 tot_cred 
对 时 间 变 化 建 模 的 一 种 方法 如 下 。 我 们 定义 一 个 新 的 数据 类 型 有 效 时 间 (valid_time) ， 它 是 

一 个 时 间 段 或 者 时 间 段 的 集合 。 然 后 我 们 将 每 一 个 实体 和 联系 都 与 一 个 valid_time 属性 关联 起 
来 ， 记 录 实 体 或 联系 有 效 的 时 间 段 。 一 个 时 间 段 的 结束 时 间 可 以 是 无 穷 ， 例 如 ， 如 果 Shankar 在 
2008 年 9 月 2 日 成 为 学 生 ， 并 且 目 前 仍 为 学 生 ， 我 们 可 以 将 Shankar 实体 valid_time 时 间 段 的 结 
束 时 间 表 示 为 无 穷 。 类 似 地 ， 我 们 将 值 随时 间 变 化 的 属性 建 模 为 值 的 集合 ， 每 一 个 值 具 有 自己 
的 valid_time , 

a. 画 一 个 包含 student 和 instructor 实体 以 及 advisor 联系 并 具有 上 述 扩展 以 追踪 时 间 变 化 的 E-R 图 . 

b. 将 上 面 的 E-R 图 转换 为 一 个 关系 集合 。 

很 明显 ， 上 面 产生 的 关系 集 非 常 复 杂 ， 使 得 像 写 SQL 语句 这 样 的 任务 比较 难 完成 。 另 一 种 使 用 得 
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图 7-28 实践 习题 7. 12 的 E-R 图 
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比较 多 的 方法 是 在 设计 E-R 模型 的 时 候 忽略 时 间 变 化 (尤其 是 属性 值 随时 间 变 化 ) ， 然 后 修改 由 E-R 模 [316 
型 生成 的 关系 以 追踪 时 间 变 化 ，8. 9 节 将 对 此 进行 讨论 。 318 


7.14 解释 主 码 、 候 选 码 和 超 码 这 些 术 语 之 间 的 区 别 。 
7.15 为 医院 构建 一 个 包含 一 组 病人 和 一 组 医生 的 E-R 图 。 为 每 个 病人 关联 一 组 不 同 的 检查 和 化 验 记 录 。 
7.16 为 实践 习题 7. 1 ~7. 3 中 的 每 个 E-R 图 构建 适当 的 关系 模式 。 
7.17 扩展 实践 习题 7.3 中 的 E-R 图 ， 以 追踪 整个 联赛 中 所 有 队伍 的 相同 信息 。 
7.18 解释 弱 实 体 集 和 强 实体 集 之 间 的 区 别 。 
7.19 我 们 可 以 通过 简单 地 增加 一 些 适 当 的 属性 ， 将 任意 弱 实体 集 转变 成 强 实体 集 。 那 么 ， 我 们 为 什么 还 要 
弱 实体 集 呢 ? 
7.20 考虑 图 7-29 中 的 E-R 图 ， 它 对 一 家 网 上 书店 建 模 。 
a. 列 出 实体 集 及 其 主 码 。 
b. 假设 书店 向 其 展览 的 商品 中 增加 了 蓝光 光盘 和 可 下 载 视频 。 相 同 的 商品 可 能 在 一 种 格式 中 存在 ， 
或 在 两 种 格式 中 都 存在 且 具 有 不 同 的 价格 。 扩 展 E-R 图 来 为 这 个 新 增 需 求 建 模 ， 忽 略 对 购物 篮 的 
影响 。 
。 现在 用 概 化 来 扩展 E-R 图 ， 从 而 对 包含 书 、 蓝 光 光 盘 或 可 下 载 视频 的 任意 组 合 的 购物 篮 进行 建 模 。 
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图 7-29 习题 7.20 AY E-R 图 


7.21 为 一 个 汽车 公司 设计 一 个 数据 库 ， 用 于 协助 它 的 经 销 商 维护 客户 记录 以 及 经 销 商 库 存 ， 并 协助 销售 人 
员 订 购车 辆 。 
每 辆 车 由 车 辆 编号 ( Vehicle Identification Number, VIN) 唯一 标识 ， 每 辆 单独 的 车 都 是 公司 提供 的 
特定 品牌 的 特定 模型 (例如 ，XF 是 塔 塔 汽车 捷豹 品牌 的 模型 )。 每 个 模型 都 可 以 有 不 同 的 选项 ， 但 是 
一 辆 车 可 能 只 有 一 些 (或 没有 ) 可 用 的 选项 。 数 据 库 需要 保存 关于 模型 、 品 牌 、 选 项 的 信息 ， 以 及 每 
个 经 销 商 、 顾 客 和 车 的 信息 。 
你 的 设计 应 该 包括 E-R 图 、 关 系 模式 的 集合 ， 以 及 包括 主 码 约 束 和 外 码 约束 的 一 组 约束 。 

















7. 22 ”为 全 球 性 的 快递 公司 (例如 DHL 或 者 FedEX) 设 计 一 个 数据 库 。 数 据 库 必 须 能 够 追踪 ( 寄 件 的 ) 客户 和 [319 








( 收 件 的 ) 客 户 ; 有 些 客户 可 能 两 者 都 是 。 由 于 每 个 包 夺 必须 是 可 标识 且 可 追踪 的 ， 因 此 数据 库 必须 
能 够 存储 包 庄 的 位 置信 息 以 及 它 的 历史 位 置 。 位 置 包 插 卡车、 飞机、 机场 和 仓库 。 
你 的 设计 应 该 包括 E-R 图 、 关 系 模式 的 集合 ， 以 及 包括 主 码 约束 和 外 码 约 束 的 一 组 约束 。 
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7.23 ”为 航空 公司 设计 一 个 数据 库 。 数 据 库 必 须 追 踪 客户 和 他 们 的 预订 、 航 班 、 他 们 在 航班 上 的 状态 、 座 位 
分 配 ， 以 及 未 来 航班 的 时 刻 表 和 飞行 路 线 。 
你 的 设计 应 该 包括 E-R 图 、 关 系 模式 的 集合 ， 以 及 包括 主 码 约 束 和 外 码 约 束 的 一 组 约束 。 

7.24 在 7.7.3 节 ， 我 们 用 多 个 二 元 联系 (如 图 7-27b 所 示 ) 来 表示 一 个 三 元 联系 ( 见 图 7-27a)。 考 虑 图 7- 
27c 中 的 另 一 种 方式 。 讨 论 这 两 种 用 多 个 二 元 联系 来 表示 一 个 三 元 联系 的 方式 的 相对 优点 。 

7.25 考虑 7.6 节 中 所 示 从 图 7-15 的 E-R 图 转化 而 来 的 关系 模式 。 对 于 每 个 模式 ， 指 出 应 该 创建 的 外 码 约 
束 ( 如 果 有 的 话 ) 。 

7.26 为 机 动车 辆 销售 公司 设计 一 个 概 化 一 特 化 层次 结构 。 该 公司 出 售 摩托 车 、 小 客车 、 货 车 和 大 巴 。 论 述 
你 在 层次 结构 的 各 层 设 定 属性 位 置 的 合理 性 。 说 明 为 什么 它们 不 应 放 在 较 高 的 层次 或 较 低 的 层次 。 

7.27 说 明 条 件 定义 的 和 用 户 定义 的 约束 的 差别 。 系 统 能 自动 检查 哪 种 约束 ?解释 你 的 答案 。 

7.28 ”说 明 不 相交 约束 和 重 又 约束 之 间 的 区 别 。 

7.29 解释 全 部 约束 和 部 分 约束 之 间 的 区 别 。 


工具 


许多 数据 库 系统 提供 支持 E-R 图 的 数据 库 设计 工具 。 这 些 工具 有 助 于 设计 者 创建 ERA, 并且 它们 可 
在 数据 库 中 自动 创建 相应 的 表 。 可 参看 第 1 章 文献 注解 中 给 出 的 数据 库 系 统 厂 商 的 网 址 。 

还 存在 一 些 独立 于 数据 库 并 且 支 持 E-R 图 和 UML 类 图 的 数据 建 模 工具 。 画 图 工具 Dia 是 一 款 免 费 软件 ， 
支持 E-R 图 和 UML 类 图 。 商 用 工具 包括 IBM Rational Rose( www. ibm. com/software/rational ) 、Microsoft Visio 
( 见 www. microsoft. com/office/ visio), CA 的 ERwin ( www. ca. com/us/datamodeling. aspx ) Poseidon for UML 





(www. gentleware. com) 和 SmartDraw ( www. smartdraw. com) 。 


文献 注解 


E-R 数据 模型 由 Chen[ 1976 ] 提出。 使 用 扩展 E-R 模型 的 关系 数据 库 的 逻辑 设计 方法 学 由 Teorey 等 
[1986] 给 出 。 由 美国 国家 标准 与 技术 研究 院 (NIST) 所 发 布 的 信息 建 模 综合 定义 (IDEF1X ) 标准 IDEFIX 
[1993] EXT E-R 图 标准 。 然 而 ， 目 前 使 用 的 E-R 表示 法 有 很 多 种 。 

Thalheim[ 2000] 提供 了 关于 E-R 建 模 研 究 的 一 本 详尽 的 教科 书 。Batini 等 [1992] 以 及 ElMasri 和 Navathe 
[ 2006 ] 给 出 了 与 此 相关 的 基本 教材 。Davis 等 [ 1983 ] 提供 了 关于 E-R 模型 的 论文 集 。 

到 2009 年 为 止 ，UML 的 版 本 已 经 升 至 2.2， 而 UML 2. 3 版 本 也 接近 最 终 版 。 关 于 UML 标准 及 工具 的 更 
多 信息 ， 请 参看 www. uml. org, 
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关系 数据 库 设 计 


在 本 章 中 ,我们 考虑 为 关系 数据 库 设计 模式 的 问题 。 其 中 的 许多 问题 和 我 们 在 第 7 章 中 使 用 E-R 
模型 时 所 考虑 的 设计 问题 相似 。 

一 般 而 言 ， 关 系数 据 库 设计 的 目标 是 生成 一 组 关系 模式 ， 使 我 们 存储 信息 时 避免 不 必要 的 宛 余 ， 
并 且 让 我 们 可 以 方便 地 获取 信息 。 这 是 通过 设计 满足 适当 范式 ( normal form) 的 模式 来 实现 的 。 要 确定 
一 个 关系 模式 是 否 属于 期 望 的 范式 ， 我 们 需要 数据 库 所 建 模 的 真实 企业 的 信息 。 其 中 的 一 部 分 信息 存 
在 于 设计 良好 的 E-R 图 中 ,但 是 可 能 还 需要 关于 该 企业 的 额外 信息 。 

本 章 介 绍 基 于 函数 依赖 概念 的 关系 数据 库 设 计 的 规范 方法 。 然 后 根据 函数 依赖 及 其 他 类 型 的 数据 
依赖 来 定义 范式 。 不 过 ,我 们 首先 从 给 定 实 体 -联系 设计 转换 得 到 的 模式 的 角度 ， 考 察 关系 设计 的 
问题 。 


8.1 好 的 关系 设计 的 特点 


第 7 章 对 实体 -联系 设计 的 研究 为 创建 关系 数据 库 设计 提供 了 一 个 很 好 的 起 点 。 我 们 在 7.6 节 中 
看 到 ， 可 以 直接 从 E-R 设计 生成 一 组 关系 模式 。 显 然 ， 生 成 的 模式 集 的 好 (或 差 ) 首 先 取决 于 E-R 设计 
的 质量 。 本 章 后 面 将 研究 评价 一 组 关系 模式 的 满意 度 的 精确 方法 。 不 过 ， 通 过 利用 我 们 已 学 过 的 概念 ， 
我 们 可 以 向 好 的 设计 迈 一 大 步 。 

为 了 易于 参照 ， 我 们 在 图 8-1 中 重复 大 学 数据 库 的 模式 。 


classroom(building, room_number, capacity) 

department(dept_name, building, budget) 

course(course_id, title, dept name, credits) 

instructor(ID, name, dept_name, salary) 

section(course_id, secid, semester, year, building, room_number, time_slot_id) 
teaches(ID, course_id, secid, semester, | year) 

student(ID, name, dept name, tot-cred) 

takes(ID, course_id, sec id, semester, year, grade) 

advisor(s_ID, i 1D) 

time_slot(time_slotid, day, start_time, end_time) 

prereq(course_id, prereq id) 


图 8-1 大 学 数据 库 模 式 





































8.1.1 设计 选择 : 更 大 的 模式 

现在 ， 让 我 们 探究 一 下 这 个 关系 数据 库 设计 的 特点 ， 以 及 一 些 其 他 的 选择 方案 。 假 定 我 们 用 以 下 
这 个 模式 代替 instructor 模式 和 department 模式 : 

inst_dept (ID, name, salary, dept_name, building , budget ) 

这 表示 在 instructor 和 department 对 应 的 关系 上 进行 自然 连接 的 结果 。 这 似乎 是 个 好 主意 ， 因 为 某 些 查 
询 可 以 用 更 少 的 连接 来 表达 ， 除 非 我 们 仔细 考虑 产生 我 们 的 E-R 设计 的 大 学 的 实际 状况 。 

让 我 们 考虑 图 8-2 中 inst_dept 关系 的 实例 。 注 意 ， 我 们 对 系 里 的 每 个 教师 都 不 得 不 重复 一 遍 系 信 
息 ( building” 和 “budget”)。 例 如 ,关于 计算 机 科学 系 的 信息 是 (Taylor，100000)， 教 师 Katz, 
Srinivasan 和 Brandt 的 元 组 中 均 包 含 该 信息 。 
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所 有 这 些 元 组 的 预算 数额 统一 这 一 点 很 重要 ， 否 则 我 们 的 数据 库 将 会 不 一 致 。 在 使 用 instructor 和 
department 的 原始 设计 中 ， 对 每 个 预算 数额 存储 一 次 。 这 说 明 使 用 inst_dept 是 一 个 坏 主意 ， 因 为 它 重复 
存储 预算 数额 ， 且 要 承担 某 些 用 户 可 能 更 新 一 条 元 组 而 不 是 所 有 元 组 中 的 预算 数额 ， 并 因此 产生 不 一 
致 的 风险 。 

即使 我 们 决定 容许 元 余 的 问题 ，inst_dept 模式 仍 存 在 其 他 问题 。 假 设 我 们 在 大 学 里 创立 一 个 新 系 
在 上 面 的 设计 选择 中 ,我 们 无 法 直接 表示 关于 一 个 系 的 信息 (dept_name，building，budget) ， 除 非 该 系 
在 学 校 中 有 至 少 一 位 教师 。 这 是 因为 inst_dept 表 中 的 元 组 需要 ID, name 和 salary 的 值 。 这 意味 着 我 们 
不 能 记录 新 成 立 的 系 的 信息 ， 直 到 该 新 系 录用 了 第 一 位 教师 为 止 。 在 旧 的 设计 中 ,模式 department 可 
以 处 理 这 个 情况 ,但 是 在 修改 的 设计 中 ， 我 们 将 不 得 不 创建 一 条 building 和 budget 为 空 值 的 元 组 。 在 
一 些 情况 下 ， 空 值 会 带 来 麻烦 ， 正 如 我 们 在 SQL 的 学 习 中 所 看 到 的 。 然 而 ， 如 果 我 们 认为 这 种 情况 对 
于 我 们 不 是 问题 的 话 ， 那 么 我 们 可 以 继续 使 用 该 修改 的 设计 。 














ID name salary | deptname building | budget 
| 22222 | Einstein 95000 | Physics Watson | 70000 
12121 | Wu 90000 | Finance Painter | 120000 
32343 | El Said 60000 | History Painter 50000 
45565 | Katz 75000 | Comp. Sci. | Taylor 100000 
98345 | Kim 80000 | Elec. Eng. Taylor 85000 
76766 | Crick 72000 | Biology Watson 90000 
10101 | Srinivasan | 65000 | Comp.Sci. | Taylor | 100000 
58583 | Califieri 62000 | History Painter | 50000 
83821 | Brandt 92000 | Comp. Sci. | Taylor 100000 
15151 | Mozart 40000 | Music Packard | 80000 
33456 | Gold 87000 | Physics Watson 70000 
76543 | Singh 80000 | Finance | Painter 120000 























图 8-2 inst_dept # 


8.1.2 设计 选择 : 更 小 的 模式 

再 假定 我 们 从 inst_dept 模式 开始 。 我 们 将 如 何 发 现 它 需 要 信息 重复 ， 且 应 该 分 成 instructor 和 
department 两 个 模式 呢 ? 

通过 观察 模式 inst_dept 上 实际 关系 的 内 容 ， 我 们 能 够 注意 到 为 每 位 与 系 关联 的 教师 都 要 列 一 遍 办 
公 楼 和 预算 所 导致 的 信息 重复 。 但 是 ， 这 是 一 个 不 可 靠 的 处 理 方式 。 一 个 真实 的 数据 库 拥 有 大 量 模式 
以 及 数量 甚至 更 多 的 属性 。 元 组 的 数量 可 以 为 数 百 万 或 更 多 。 探 查 重复 将 代价 高 昂 。 这 个 方法 还 存在 
一 个 甚至 更 根本 的 问题 。 它 使 我 们 无 法 确定 没有 重复 是 否 仅仅 是 一 个 “幸运 的 "特别 情况 ， 或 者 它 是 否 
为 一 般 规则 的 表现 。 在 我 们 的 例子 中 ,我 们 将 如 何 知道 在 我 们 的 大 学 中 每 个 系 (由 系 名 唯一 标识 ) 必须 
位 于 单个 办 公 楼 中 并 且 必 须 具 有 单个 预算 数额 呢 ? 计算 机 科学 系 的 预算 数额 出 现 三 次 且 完 全 相同 的 情 
况 仅 是 一 个 巧合 吗 ? 如 果 不 回 到 企业 本 身 并 了 解 它 的 规则 ， 我 们 就 无 法 回答 这 些 问 题 。 特 别 是 ， 我 们 
将 需要 发 现 大 学 要 求 每 个 系 ( 由 系 名 唯一 标识 ) 必须 只 有 一 个 办 公 楼 和 一 个 预算 值 。 

在 inst_dept 的 例子 中 ， 我 们 创建 E-R 设计 的 过 程 成 功 避 免 了 这 种 模式 的 产生 。 但 是 ， 这 个 幸运 的 
情况 并 不 总 出 现 。 因 此 ， 我 们 需要 让 数据 库 设 计 者 即使 在 dept_name 不 是 所 讨论 模式 的 主 码 的 情况 下 ， 
也 能 定义 如 “ dept_name 的 每 个 特定 的 值 对 应 至 多 一 个 budget” 这样 的 规则 。 换 句 话 说， 我 们 需要 写 这 样 
一 条 规则 “如 果 存 在 模式 ( dept_name，budget) ， 则 dept_name 可 以 作为 主 码 ”。 这 条 规则 被 定义 为 函数 依 
赖 (functional dependency) 

dept_name 一 budget 


给 定 这 样 一 条 规则 ， 我 们 现在 就 有 足够 的 信息 来 发 现 inst_dept 模式 的 问题 了 。 由 于 dept_name 不 能 是 
inst_dept 的 主 码 (因为 一 个 系 可 能 在 模式 inst_dept 上 的 关系 中 需要 多 条 元 组 ) ， 因 此 预算 数额 可 能 会 
重复 。 

类 似 于 这 些 的 观察 及 由 它们 导出 的 规则 (在 此 为 函数 依赖 ) 让 数据 库 设计 者 可 以 发 现 一 个 模式 应 拆 
分 或 分 解 成 两 个 或 多 个 模式 的 情况 。 不 难 发 现 ， 分 解 inst_dept 的 正确 方法 是 同 原始 设计 一 样 分 解 成 模 
3X instructor 和 department。 对 于 具有 大 量 属性 和 多 个 函数 依赖 的 模式 ， 找 到 正确 的 分 解 要 难得 多 。 为 了 
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处 理 这 种 情况 ,我 们 将 依靠 本 章 后 面 所 介绍 的 规范 方法 。 

并 不 是 所 有 的 模式 分 解 都 是 有 益 的 。 考 虑 我 们 拥有 的 所 有 模式 都 由 一 个 属性 构成 这 样 一 个 极端 的 
情况 。 任 何 类 型 的 有 意义 的 联系 都 无 法 表示 。 现 在 考虑 一 个 不 那么 极端 的 情况 ， 我 们 把 employee 模式 
( 见 7.8 节 ) : 

employee (ID, name, street, city, salary) 
分 解 为 以 下 两 个 模式 : 

omployest (I; nom) 

employee2 (name, street, city, salary) 
这 个 分 解 的 缺陷 在 于 企业 可 能 拥有 两 个 同名 的 雇员 。 在 实际 中 这 不 是 不 可 能 的 ， 因 为 许多 文化 中 都 有 
某 些 非常 流行 的 名 字 。 当 然 ， 每 个 人 都 要 有 一 个 唯一 的 雇员 号 ， 这 就 是 ID 能 够 作为 主 码 的 原因 。 举 例 
来 说 ， 让 我 们 假定 两 个 雇员 ， 均 名 为 Kim， 在 该 大 学 工作 ， 并 且 在 原始 设计 中 的 employee 模式 上 的 关 
系 中 有 以 下 元 组 : 

(57766, Kim, Main, Perryridge , 75000 ) 

(98776, Kim, North, Hampton, 67000) 
图 8-3 所 示 为 这 些 元 组 、 利 用 分 解 产生 的 模式 所 生成 的 元 组 ， 以 及 我 们 试图 用 自然 连接 重新 生成 原始 
元 组 所 得 到 的 结果 。 如 我 们 在 图 8-3 中 看 到 的 ， 那 两 个 原始 元 组 伴随 着 两 个 新 的 元 组 出 现 于 结果 中 ， 
这 两 个 新 的 元 组 将 属于 这 两 个 名 为 Kim 的 职员 的 数据 值 错误 地 混合 在 一 起 。 虽 然 我 们 拥有 较 多 的 元 组 ， 
但 是 实际 上 从 以 下 意义 来 看 我 们 拥有 较 少 的 信息 。 我 们 能 够 指出 某 个 街道 、 城 市 和 工资 信息 属于 一 个 
名 为 Kim 的 人 ， 但 是 我 们 无 法 区 分 是 哪 一 个 Kim。 因 此 ， 我 们 的 分 解 无 法 表达 关于 大 学 雇员 的 某 些 重 
要 的 事实 。 显 然 ， 我 们 想 要 避免 这 样 的 分 解 。 我 们 将 这 样 的 分 解 称 为 有 损 分 解 (lossy decomposition ) , 
反之 则 称 为 无 损 分 解 (lossless decomposition) 。 
















































ID name | street city salary 
57766 | Kim Main | Perryridge | 75000 
98776 | Kim North | Hampton 67000 
雇员 
Come sve u Ta 
| Kim | Main Perryridge | 75000 
| Kim | North | Hampton 67000 
P 
自然 连接 
[CD ae | mr [iy] sary] 


57766| Kim | Main | Perryridge | 75000 
57766| Kim | North | Hampton 67000 
Main | Perryridge | 75000 
North | Hampton 67000 








图 8-3 ”由 不 好 的 分 解 导致 的 信息 丢失 


8.2 原子 域 和 第 一 范式 


E-R 模型 允许 实体 集 和 联系 集 的 属性 具有 某 些 程度 的 子 结构 。 特 别 地 ， 它 允许 像 图 7-11 中 的 
phone_number 这 样 的 多 值 属性 以 及 组 合 属 性 (诸如 具有 子 属 性 street, city, state 以 及 zip 的 属性 address) 。 
当 从 包含 这 些 类 型 的 属性 的 E-R 设计 创建 表 时 ， 要 消除 这 种 子 结构 。 对 于 组 合 属性 ， 让 每 个 子 属 性 本 
身 成 为 一 个 属性 。 对 于 多 值 属 性 ， 为 多 值 集合 中 的 每 个 项 创建 一 条 元 组 。 
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在 关系 模型 中 ， 我 们 将 属性 不 具有 任何 子 结构 这 个 思想 形式 化 。 一 个 域 是 原子 的 (atomic) ， 如 果 
该 域 的 元 素 被 认为 是 不 可 分 的 单元 。 我 们 称 一 个 关系 模式 R 属于 第 一 范式 (First Normal Form, 1NF), 
如 果 R 的 所 有 属性 的 域 都 是 原子 的 。 

名 字 的 集合 是 一 个 非 原 子 值 的 例子 。 例 如 ， 如 果 关 系 employee 的 模式 包含 一 个 属性 children， 它 的 
域 元 素 是 名 字 的 集合 ， 该 模式 就 不 属于 第 一 范式 。 

组 合 属 性 ， 比 如 包含 子 属性 street, city, state Fil zip 的 属性 address， 也 具有 非 原子 域 。 

假定 整数 是 原子 的 ， 那 么 整数 的 集合 是 一 个 原子 域 ; 然而 ， 所 有 整数 集 的 集合 是 一 个 非 原 子 域 。 
区 别 在 于 ， 我 们 一 般 不 认为 整数 具有 子 部 分 ， 但 是 我 们 认为 整数 的 集合 具有 子 部 分 一 一 构成 该 集合 的 
那些 整数 。 不 过 ， 重 要 的 问题 不 是 域 本 身 是 什么 ， 而 是 在 数据 库 中 如 何 使 用 域 元 素 。 如 果 我 们 认为 每 
个 整数 是 一 列 有 序 的 数字 ， 那 么 全 部 整数 的 域 就 是 非 原子 的 。 

作为 上 述 观 点 的 实际 例证 ， 考 虑 一 个 机 构 ， 它 给 雇员 分 配 下 述 样式 的 标识 号 : 前 两 个 字母 表示 系 ， 
剩 下 的 四 位 数字 是 雇员 在 该 系 内 的 唯一 号 码 。 例 如 这 样 的 号 码 可 以 是 ”CS0012” 和 “EE1127”。 这 样 的 标 
识 号 可 以 分 成 更 小 的 单元 ， 因 此 是 非 原子 的 。 如 果 一 个 关系 模式 的 一 个 属性 的 域 是 由 如 上 编码 的 标识 
号 所 组 成 ， 则 该 模式 不 属于 第 一 范式 。 

当 采 用 这 种 标识 号 时 ， 雇 员 所 属 的 系 可 以 通过 编写 解析 标识 号 结构 的 代码 得 到 。 这 么 做 需要 额外 
的 编程 ， 而 且 信 息 是 在 应 用 程序 中 而 不 是 在 数据 库 中 编码 。 如 果 这 种 标识 号 用 作 主 码 ， 还 会 产生 进 一 
步 的 问题 : 当 一 个 雇员 换 了 系 时 ， 该 雇员 的 标识 号 在 它 所 出 现 的 每 个 地 方 都 必须 修改 (这 会 是 一 个 困难 
的 任务 )， 否 则 解释 该 号 码 的 代码 将 会 给 出 错误 的 结果 。 

根据 以 上 讨论 ,我们 可 能 会 使 用 形 如 “CS-101” 的 课程 标识 号 ， 其 中 “ CS” 表示 计 算 机 科学 系 ， 这 意 
味 着 课程 标识 号 的 域 不 是 原子 的 。 使 用 该 系统 的 人 认为 这 样 的 域 不 是 原子 的 。 然 而 ， 只 要 数据 库 应 用 
没有 将 标识 号 拆 开 并 将 标识 号 的 一 部 分 解析 为 系 的 缩写 ， 它 仍然 将 该 域 视 为 原子 的 。course 模式 将 系 名 

328] 作为 一 个 单独 的 属性 存储 ， 数 据 库 应 用 就 可 以 根据 这 个 属性 值 找到 课程 所 属 系 ， 而 不 需要 解析 课程 标 
识 号 中 特定 的 字母 。 因 此 ， 我 们 的 大 学 模式 可 以 被 认为 属于 第 一 范式 。 

使 用 以 集合 为 值 的 属性 会 导致 元 余 存储 数据 的 设计 ， 进 而 会 导致 不 一 致 。 比 如 ， 数 据 库 设 计 者 可 
能 不 将 教师 和 课程 安排 之 间 的 联系 表示 为 一 个 单独 的 关系 teaches ， 而 是 尝试 为 每 一 个 教师 存储 一 个 课 
程 段 标识 号 的 集合 ， 并 为 每 一 个 课程 段 存 储 一 个 教师 标识 号 的 集合 。(section 和 instructor 的 主 码 用 作 标 
识 号 ,) 每 当 关于 哪 位 教师 讲授 哪个 课程 段 的 数据 变化 时 ， 必 须 在 两 个 地 方 执行 更 新 : 课程 段 的 教师 集 
合 ， 以 及 教师 的 课程 段 集合 。 对 两 个 更 新 的 执行 失败 ， 会 导致 数据 库 处 于 不 一 致 的 状态 。 只 保留 其 中 
一 个 集合 ， 即 要 么 课程 段 的 教师 集合 ， 要 么 教师 的 课程 段 集合 ， 将 避免 重复 的 信息 ; 然而 ， 只 保留 其 
中 一 个 集合 将 使 某 些 查询 变 得 复杂 ， 并 且 也 不 好 确定 保留 哪 一 个 。 

有 些 类 型 的 非 原子 值 使 用 的 时 候 要 小 心 ， 但 是 它们 可 能 很 有 用 。 人 例如， 组合 值 属性 常常 很 有 用 ， 
而 且 很 多 情况 下 以 集合 为 值 的 属性 也 是 有 用 的 ， 所 以 在 E-R 模型 里 这 两 种 值 都 是 支持 的 。 在 许多 含有 
复杂 结构 的 实体 域 中 ， 强 制 使 用 第 一 范式 会 给 应 用 程序 员 造 成 不 必要 的 负担 ， 他 必须 编写 代码 把 数据 
转换 成 原子 形式 。 从 原子 形态 来 回转 换 数据 也 会 有 运行 时 的 额外 开销 。 所 以 在 这 样 的 域 里 支持 非 原子 
的 值 是 很 有 用 的 。 事 实 上 ， 如 我 们 将 在 第 22 章 看 到 的 ， 现 代数 据 库 系统 确实 支持 很 多 类 型 的 非 原 子 
值 。 然 而 ， 本 章 我 们 限定 只 讨论 属于 第 一 范式 的 关系 ， 因 此 ， 所 有 的 域 都 是 原子 的 。 


8.3 使 用 函数 依赖 进行 分 解 


在 8.1 节 中 ， 我 们 知道 存在 一 个 规范 方法 判断 一 个 关系 模式 是 否 应 该 分 解 。 这 个 方法 基于 码 和 也 
数 依赖 的 概念 。 
在 讨论 关系 数据 库 设 计 的 算法 时 ,我 们 需要 针对 任意 的 关系 及 其 模式 讨论 ， 而 不 只 是 讨论 例子 。 
回想 第 2 章 对 关系 模型 的 介绍 ， 我 们 在 这 里 对 我 们 的 表示 法 进行 概述 。 
。 一 般 情况 下 ， 我们 用 希腊 字母 表示 属性 集 (例如 a) 。 我 们 用 一 个 小 写 的 罗马 字母 后 面 跟 一 个 用 
一 对 圆 括号 括 住 的 大 写字 母 来 指 关系 模式 (例如 r(R) ) 。 我 们 用 表示 法 r(R) 表 示 该 模式 是 关系 
ri, RR 表示 属性 集 ， 不 过 当 我 们 不 关心 关系 的 名 字 时 经 常 简化 我 们 的 表示 法 而 只 用 Ro 
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当然 ， 一 个 关系 模式 是 一 个 属性 集 ， 但 是 并 非 所 有 的 属性 集 都 是 模式 。 当 使 用 一 个 小 写 的 (329 | 
希腊 字母 时 ， 我 们 是 指 一 个 有 可 能 是 模式 也 可 能 不 是 模式 的 属性 集 。 当 我 们 希望 指明 属性 集 一 
定 为 一 个 模式 时 ， 就 使 用 罗马 字母 。 
。 当 属 性 集 是 一 个 超 码 时 ， 我 们 用 天 表示 它 。 超 码 属 于 特殊 的 关系 模式 ， 因 此 我 们 使 用 术语 “天 
是 r( R) 的 超 码 "。 
。 我 们 对 关系 使 用 小 写 的 名 字 。 在 我 们 的 例子 中 ,这 些 名 字 是 企图 有 实际 含义 的 (例如 
instructor) ， 而 在 我 们 的 定义 和 算法 中 ， 我 们 使 用 单个 字母 ， 比 如 r。 
。 当然 ， 一 个 关系 在 任意 给 定时 间 都 有 特定 的 值 ; 我 们 将 那 看 作 一 个 实例 并 使 用 术语 “r 的 实例 ”。 
当 我 们 明显 在 讨论 一 个 实例 时 ， 我们 可 以 仅 用 关系 的 名 字 ( 例如 7) 。 
8. 3.1 码 和 函数 依赖 
一 个 数据 库 对 现实 世界 中 的 一 组 实体 和 联系 建 模 。 在 现实 世界 中 ， 数 据 上 通常 存在 各 种 约束 ( 规 
则 )。 例 如 ， 在 一 个 大 学 数据 库 中 预计 要 保证 的 一 些 约束 有 : 
。 学 生 和 教师 通过 他 们 的 ID 唯一 标识 。 
。 每 个 学 生 和 教师 只 有 一 个 名 字 。 
。 每 个 教师 和 学 生 只 ( 主要) 关联 一 个 系 。? 
。 每 个 系 只 有 一 个 预算 值 ， 且 只 有 一 个 关联 的 办 公 楼 。 
一 个 关系 的 满足 所 有 这 种 现实 世界 约束 的 实例 ， 称 为 关系 的 合法 实例 (legal instance); 在 一 个 数据 
库 的 合法 实例 中 所 有 关系 实例 都 是 合法 实例 。 
几 种 最 常用 的 现实 世界 约束 可 以 形式 化 地 表示 为 码 ( 超 码 、 候 选 码 以 及 主 码 ) ， 或 者 下 面 所 定义 的 
函数 依赖 。 
在 2.3 节 中 ， 曾 定义 超 码 的 概念 为 可 以 唯一 标识 关系 中 一 条 元 组 的 一 个 或 多 个 属性 的 集合 。 在 这 
里 重新 表述 该 定义 如 下 : 令 r(R) 是 一 个 关系 模式 。R 的 子 集 K 是 r(R) 的 超 码 (superkey ) 的 条 件 是 : 在 
关系 r(R) 的 任意 合法 实例 中 ， 对 于 7 的 实例 中 的 所 有 元 组 对 t 和 4 总 满足 , Bex, We K) = 
t[K]。 也 就 是 说 ， 在 关系 r(R) 的 任意 合法 实例 中 没有 两 条 元 组 在 属性 集 K 上 可 能 具有 相同 的 值 。 显 [330 
然 ， 如 果 r 中 没有 两 条 元 组 在 开 上 具有 相同 的 值 ， 那么 在 > 中 一 个 天 值 唯一 标识 一 条 元 组 。 
鉴于 超 码 是 能 够 唯一 标识 整 条 元 组 的 属性 集 ， 函 数 依赖 让 我 们 可 以 表达 唯一 标识 某 些 属性 的 值 的 
约束 。 考 虑 一 个 关系 模式 r(R), FSaCRABCR., 
© 给 定 r(R) 的 一 个 实例 ， 我 们 说 这 个 实例 满足 (satisfy ) 函数 依赖 a 一 B 的 条 件 是 : 对 实例 中 所 有 
元 组 对 二 At,, 若 ii[la]=blal], 则 #1[B] =4[B). 
。 MRE rR) 的 每 个 合法 实例 中 都 满足 函数 依赖 a 一 B， 则 我 们 说 该 函数 依赖 在 模式 r(R) 上 成 
立 (hold) 。 
使 用 函数 依赖 这 一 概念 ， 我 们 说 如 果 函 数 依赖 K 一 RR 在 r(R) 上 成 立 ， 则 KK 是 r(R) 的 一 个 超 码 。 
也 就 是 说 ， 如 果 对 于 r(R) 的 每 个 合法 实例 ， 对 于 实例 中 每 个 元 组 对 t M, MÆ LK] =t,[K]， 总 有 
t,(R] =R] (Bit =)， 则 KK 是 一 个 超 码 。° 
函数 依赖 使 我 们 可 以 表示 不 能 用 超 码 表示 的 约束 。 在 8. 1. 2 节 中 我 们 曾 考虑 模式 : 
inst_dept (ID, name, salary, dept_name, building, budget) 
在 该 模式 中 函数 依赖 dept_name — budget 成 立 ， 因 为 对 于 每 个 系 ( 由 dept_name 唯一 标识 ) 都 存在 唯一 的 


预算 数额 。 
属性 对 (万 ，dept_name) 构 成 inst_dept 的 一 个 超 码 ， 我 们 将 这 一 事实 记 做 : 








名 “一 个 教师 或 一 个 学 生 可 以 和 多 个 系 相 关联 ， 例 如 兼职 教师 或 者 辅修 系 。 我 们 简化 的 大 学 模式 只 对 每 个 教师 或 学 
生 所 关联 的 主 系 建 模 。 一 个 实际 的 大 学 模式 会 在 另外 的 关系 中 表示 次 要 的 关联 。 

O 注意 ,我们 在 这 里 假设 关系 为 集合 。SQL 处 理 多 集 ， 并 且 SQL 中 声明 一 个 属性 集 K 为 主 码 不 仅 需要 当 
[K] =w[K] 时 t=t,。， 还 需要 没有 重复 的 元 组 。SQL 还 要 求 K 集 中 的 属性 不 能 赋予 空 值 。 
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ID, dept_name — name, salary, building, budget 


我 们 将 以 两 种 方式 使 用 函数 依赖 : 
© 判定 关系 的 实例 是 否 满足 给 定 函数 依赖 集 Fo 
© 说 明 合法 关系 集 上 的 约束 。 因 此 ， 我们 将 只 关心 满足 给 定 函数 依赖 集 的 那些 关系 实例 。 如 果 我 
们 希望 只 考虑 模式 R 上 满足 函数 依赖 集 F 的 关系 ,我 们 说 下 在 r(R) 上 成 立 。 
让 我 们 考虑 图 8-4 中 的 关系 的 实例 ， 看 看 它 满足 什么 函数 依赖 。 注 意 到 4 一 C 是 满足 的 。 存 在 














两 条 元 组 的 4 值 为 w, 。 这 些 元 组 具有 相同 的 C 值 , c 。 类 似 地 ,4 值 ee | 
H a, 的 两 条 元 组 具有 相同 的 C 值 ，c,。 没 有 其 他 元 组 对 具有 相同 的 4 ath fa] a | 
值 。 但是， 函数 依赖 C 一 4 是 不 满足 的 。 为 了 说 明 这 一 点 ， 考 虑 元 | 
Ht =(a,, bs, c,, di) MICH t, =(a;, b3, ce, 必 )。 这 两 条 元 组 具有 as.) be | ea | te | 
相同 的 C 值 ，c ， 但 它们 具有 不 同 的 A 值 ， 分 别 为 a, 和 a;。 因 此 ， a a Jea d tla 











我 们 找到 一 对 元 组 t 和 i,, 使 得 i[C] =t[LCj, [A] #4[A], 图 8-4 关系 7 的 实例 的 例子 
有 些 函 数 依赖 称 为 平凡 的 (trivial) ， 因 为 它们 在 所 有 关系 中 都 满 
E. 例如，4 一 4 在 所 有 包含 属性 4 的 关系 中 满足 。 从 字面 上 看 函数 依赖 的 定义 ， 我 们 知道 ， 对 所 有 
满足 [4] =t,[4] 的 元 组 t Me, At [A] =t,l4]。 同 样 ，4B 一 4 也 在 所 有 包含 属性 4 的 关系 中 满 
足 。 一 般 地 ， 如 果 B C a， 则 形 如 a — B 的 函数 依赖 是 平凡 的 。 
重要 的 是 ， 要 认识 到 一 个 关系 实例 可 能 满足 某 些 函数 依赖 ， 它 们 并 不 需要 在 关系 的 模式 上 成 立 。 

















在 图 8-5 的 classroom 关系 的 实例 中 ， 我 们 发 现 room _number 一 ‘building | roomnumber | capacity | 
capacity 是 满足 的 。 但 是 ， 我 们 相信 ， 在 现实 世界 中 ， 不 同 建筑 里 | Packard | 101 500 | 
的 两 个 教室 可 以 具有 相同 的 房间 号 ， 但 具有 不 同 的 空间 大 小 - 因 Sees | ee 
此 ， 有 时 有 可 能 存在 一 个 classroom 关系 的 实例 , 不 满足 room_ | Watson | 100 30 
number 一 :capacity。 所 以 ， 我 们 不 将 room_number — capacity 包含 于 | Watson | 120 50 





classroom 关系 的 模式 上 成 立 的 函数 依赖 集中 。 然 而 ， 我 们 会 期 望 画图 8-5 classroom 关系 的 实例 
数 依 赖 building, room_number — capacity 在 classroom 模式 上 成 立 。 

给 定 关 系 r(R) ERKKA FAT RE SoHE DBT h SEE ih A R RK EFT KAR E 
立 。 例 如 ， 给 定 模 式 r(4, B, C) ， 如 果 函 数 依 赖 4 一 8B 和 8B 一 C 在 r 上 成 立 ， 可 以 推出 函数 依赖 4 一 
C 也 一 定 在 + 上 成 立 。 这 是 因为 ， 给 定 4 的 任意 值 ， 仅 存在 B 的 一 个 对 应 值 ， 且 对 于 B 的 那个 值 ， 只 
能 存在 C 的 一 个 对 应 值 。 我 们 稍 后 将 在 8. 4. 1 节 学 习 如 何 进行 这 种 推导 。 

我 们 将 使 用 天 "符号 来 表示 下 集合 的 闭 包 ( closure) ， 也 就 是 能 够 从 给 定 下 集合 推导 出 的 所 有 函数 依 
MHRA. MA, F 包含 中 所 有 的 函数 依赖 。 
8.3.2 Boyce-Codd 范式 

我 们 能 达到 的 较 满 意 的 范式 之 一 是 Boyce-Codd 范式 ( Boyce-Codd Normal Form，BCNF ) 。 它 消除 所 
有 基于 函数 依赖 能 够 发 现 的 元 余 ， 虽然 ， 如 我 们 将 在 8. 6 节 中 看 到 的 ， 可 能 有 其 他 类 型 的 元 余 还 保留 
着 。 具 有 函数 依赖 集 F 的 关系 模式 尺 属 于 BCNF AEE, X F 中 所 有 形 如 a 一 B 的 函数 依赖 (其 中 
aC R 且 BC R)， 下 面 至 少 有 一 项 成 立 : 

。 a 一 B 是 平凡 的 函数 依赖 ( 即 , 6Ca)。 

© a 是 模式 R 的 一 个 超 码 。 

一 个 数据 库 设 计 属 于 BCNF 的 条 件 是 ， 构 成 该 设计 的 关系 模式 集中 的 每 个 模式 都 属于 BCNF, 

我 们 已 经 在 8. 1 节 中 见 过 了 不 属于 BCNF 的 关系 模式 的 例子 : 

inst_dept (ID, name, salary, dept name, building, budget ) 

函数 依赖 dept_name — budget 在 inst_dept 上 成 立 ， 但 是 dept_name 并 不 是 超 码 (因为 一 个 系 可 以 有 多 个 
不 同 的 教师 ) 。 在 8. 1. 2 节 中 ,我 们 看 到 把 inst_dept 分 解 为 instructor 和 department 是 一 个 更 好 的 设计 。 
模式 instructor 属于 BCNF。 所 有 成 立 的 非 平凡 的 函数 依赖 ， 例 如 : 


ID 一 name, dept_name, salary 


第 8 章 ”关系 数据 库 设计 


在 箭头 的 左 侧 包含 ID, H. ID 是 instructor 的 一 个 超 码 (事实 上 ， 在 这 个 例子 中 ， 是 主 码 ) 。( 也 就 是 
说 ， 在 不 包含 ID 的 另 一 侧 上 ， 对 于 name, dept_name 和 salary 的 任意 组 合 不 存在 非 平 凡 的 顶 数 依赖 。) 
KE, instructor 属于 BCNF, 

类 似 地 ，department 模式 属于 BCNF， 因 为 所 有 成 立 的 非 平凡 函数 依赖 ， 例 如 : 

dept_name — building, budget 
在 箭头 的 左 侧 包含 dept_name, H. dept_name 是 department 的 一 个 超 码 ( 和 主 码 )。 因 此 ，department 属于 
BCNF, 

我 们 现在 讲述 分 解 不 属于 BCNF 的 模式 的 一 般 规则 。 设 R 为 不 属于 BCNF 的 一 个 模式 。 则 存在 至 
少 一 个 非 平 凡 的 函数 依赖 a 一 B， 其 中 a 不 是 R 的 超 码 。 我 们 在 设计 中 用 以 下 两 个 模式 取代 RR: 

e (a UB) 

© (R = (B= a)) 

在 上 面 的 ?pst_dept 例子 中 ，a = dept_name, B= | building, budget} ， 且 inst_dept 被 取代 为 : 

e (a U B) = (dept_name, building, budget) 

e (R - (B - a)) =(ID, name, dept_name, salary) 

在 这 个 例子 中 ， 结 果 是 B6 -a=B。 我 们 需要 像 上 述 那 样 的 表述 规则 ， 从 而 正确 处 理 稍 头 两 边 都 出 
现 的 属性 的 函数 依赖 。 技 术 上 的 原因 我 们 会 在 8. 5. 1 节 介 绍 。 

当 我 们 分 解 不 属于 BCNF 的 模式 时 ， 产 生 的 模式 中 可 能 有 一 个 或 多 个 不 属于 BCNF。 在 这 种 情况 
中 ， 需 要 进一步 分 解 ， 其 最 终结 果 是 一 个 BCNF 模式 集合 。 

8. 3.3 BCNF 和 保持 依赖 

我 们 已 经 看 到 多 种 表达 数据 库 一 致 性 约束 的 方式 : 主 码 约束 、 函 数 依赖 、check 约束 、 断 言 和 触发 
器 。 在 每 次 数据 库 更 新 时 检查 这 些 约束 的 开销 很 大 ， 因 此 ,将 数据 库 设计 成 能 够 高 效 地 检查 约束 是 很 
有 用 的 。 特 别 地 ， 如 果 函 数 依 赖 的 检验 仅 需要 考虑 一 个 关系 就 可 以 完成 ， 那 么 检查 这 种 约束 的 开销 就 
很 低 。 我 们 将 看 到 ， 在 有 些 情 况 下 ， 到 BCNF 的 分 解 会 妨碍 对 某 些 函数 依赖 的 高 效 检查 。 

对 此 举例 ， 假 定 我 们 对 我 们 的 大 学 机 构 做 一 个 小 的 改动 。 在 图 7-15 的 设计 中 ,一 位 学 生 只 能 有 一 
位 导师 。 这 是 由 从 student 到 advisor 的 联系 集 advisor 为 多 对 一 而 推断 出 的 。 我 们 要 做 的 “小 ”改动 是 一 个 
教师 只 能 和 单个 系 关联 ， 且 一 个 学 生 可 以 有 多 个 导师 ， 但 是 一 个 给 定 的 系 中 至 多 一 位 。 

利用 E-R 设计 实现 这 个 改动 的 一 种 方法 是 ， 把 联系 集 advisor 替换 为 涉及 实体 集 instructor, student 
和 department 的 三 元 联系 集 dept_advisor， 它 是 从 | instructor, student} 对 到 department 多 对 一 的 ， 如 图 8-6 
所 示 。 该 E-R 图 指明 了 “一 个 学 生 可 以 有 多 位 导师 , 但 是 对 应 于 一 个 给 定 的 系 最 多 只 有 一 个 ”的 约束 。 


| 


dept_name 
building 
budget 


se 
ID dept_advisor ID 
name name 


salary tot_cred 





图 8-6 HK AE dept_advisor 


对 应 于 新 的 E-R A, instructor, department 和 student 的 模式 没有 变 。 然 而 ， 从 dept_advisor 导出 的 模 
式 现 在 为 : 
dept_advisor (s_ID, i_ID, dept_name) 


虽然 没有 在 E-R 图 中 指明 ， 不 过 假定 我 们 有 附加 的 约束 “一 位 教师 只 能 在 一 个 系 担任 导师 。 





O ”这样 的 安排 对 于 双 专 业 的 学 生 是 有 意义 的 - 
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那么 ， 下 面 的 函数 依赖 在 dept_advisor 上 成 立 : 


i_ID 一 dept_name 
s_ID, dept_name 一 i_ID 


第 一 个 函数 依赖 产生 于 我 们 的 需求 “一 位 教师 只 能 在 一 个 系 担任 导师 ”。 第 二 个 函数 依赖 产生 于 我 们 的 
需求 “对 于 一 个 给 定 的 系 ， 一 个 学 生 可 以 有 至 多 一 位 导师 ”。 

注意 ， 在 这 种 设计 中 ， 每 次 一 名 教师 参与 一 个 dept_advisor 联系 的 时 候 ， 我 们 都 不 得 不 重复 一 次 系 
的 名 称 。 我 们 看 到 dept_advisor 不 属于 BCNF, AX i ID 不 是 超 码 。 根 据 BCNF 分 解 规则 ， 得 到 : 

(s_ID, i_ID) 

(i_ID, dept_name) 
上 面 的 两 个 模式 都 属于 BCNF。( 事 实 上 ， 你 可 以 验证 ， 按 照 定 义 任何 只 包含 两 个 属性 的 模式 都 属于 
BCNF。) 然 而 注意 ,在 BCNF 设计 中 ， 没 有 一 个 模式 包含 函数 依赖 s_ID, dept_name — i_ID 中 出 现 的 所 
有 属性 。 

由 于 我 们 的 设计 使 得 该 函数 依赖 的 强制 实施 在 计算 上 很 困难 ， 因 此 我 们 称 我 们 的 设计 不 是 保持 依 
赖 的 (dependency preserving), “由 于 常常 希望 保持 依赖 ， 因 此 我 们 考虑 另外 一 种 比 BCNF 弱 的 范式 ， 
它 允 许 我 们 保持 依赖 。 该 范式 称 为 第 三 范式 。” 

8.3.4 第 三 范式 

BCNF 要 求 所 有 非 平 凡 函 数 依赖 都 形 如 a 一 B6， 其 中 a 为 一 个 超 码 。 第 三 范式 (3NF ) 稍微 放宽 了 这 
个 约束 ， 它 允许 左 侧 不 是 超 码 的 某 些 非 平 凡 函 数 依赖 。 在 定义 3NF 之 前 ， 我 们 回想 到 候选 码 是 最 小 的 
超 码 一 一 任何 真子 集 都 不 是 超 码 的 超 码 。 

具有 函数 依赖 集 玉 的 关系 模式 只 属于 第 三 范式 (third normal form) 的 条 件 是 : WFP 中 所 有 形 如 
a 一 B 的 函数 依赖 (其 中 aC R 且 BC R)， 以 下 至 少 一 项 成 立 : 

。 a 一 BB 是 一 个 平凡 的 函数 依赖 。 

e a 是 RR 的 一 个 超 码 。 

。 B - a 中 的 每 个 属性 4 都 包含 于 RR 的 一 个 候选 码 中 。 
注意 上 面 的 第 三 个 条 件 并 没有 说 单个 候选 码 必 须 包 含 B - a 中 的 所 有 属性 ; 6 - a 中 的 每 个 属性 4 可 
能 包含 于 不 同 的 候选 码 中 。 

前 两 个 条 件 与 BCNF 定义 中 的 两 个 条 件 相同 。3NF 定义 中 的 第 三 个 条 件 看 起 来 很 不 直观 ， 并 且 它 
的 用 途 也 不 是 显而易见 的 。 在 某 种 意义 上 ， 它 代表 BCNF 条 件 的 最 小 放宽 ， 以 确保 每 一 个 模式 都 有 保 
持 依赖 的 3NF 分 解 。 它 的 用 途 在 后 面 介绍 3NF 分 解 时 会 变 得 更 清楚 。 

注意 任何 满足 BCNF 的 模式 也 满足 3NF， 因 为 它 的 每 个 函数 依赖 都 将 满足 前 两 个 条 件 中 的 一 条 。 
所 以 BCNF 是 比 3NF 更 严格 的 范式 。 

3NF 的 定义 允许 某 些 BCNF 中 不 允许 的 函数 依赖 。 只 满足 3NF 定义 中 第 三 个 条 件 的 依赖 a 一 B 在 
BCNF 中 是 不 允许 的 ， 但 在 3NF PERAK. © 

现在 我 们 再 次 考虑 联系 集 dept_advisor， 它 具有 以 下 也 数 依赖 : 


i_ID — dept_name 
s_ID, dept_name — i_ID 


在 8.3.3 节 中 我 们 说 函数 依赖 “i_ID 一 dept_name” 5} 3X dept_ advisor 模式 不 属于 BCNF。 注 意 这 里 
a=i_ID, B= dept_name, -H.B -a= dept_name, FHF PARK Hi s_ID, dept_name 一 i_ID 在 dept_ 
advisor 上 成 立 ， 于 是 属性 dept_name 包含 于 一 个 候选 码 中 ， 因 此 dept_advisor 属于 3NF。 





名 ”从 技术 上 来 说 ， 由 于 存在 逻辑 上 蕴涵 该 依赖 的 其 他 依赖 ， 因 此 属性 在 任何 一 个 模式 中 都 不 完全 出 现 的 依赖 也 隐 
含 地 强制 实施 了 。 稍 后 我 们 将 在 8. 4. 5 节 讨 论 这 个 问题 。 

© “ 你 可 能 注意 到 我 们 跳 过 了 第 二 范式 。 第 二 范式 只 有 历史 意义 ， 已 经 不 在 实际 中 使 用 了 。 

© 这 些 依赖 是 传递 依赖 (transitive dependency) 的 例子 (参见 实践 习题 8. 16 ) .3NF 的 原始 定义 就 是 由 传递 依赖 而 来 
的 ， 我 们 所 使 用 的 定义 与 之 等 价 但 更 容易 理解 。 
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我 们 已 经 看 到 ， 当 不 存在 保持 依赖 的 BCNF 设计 时 ， 必 须 在 BCNF 和 3NF 之 间 进 行 权衡 。 这 些 权 
衡 将 在 8.5.4 节 详 细 讨论 。 
8.3.5 更 高 的 范式 
在 某 些 情况 中 ， 使 用 函数 依赖 分 解 模式 可 能 不 足以 避免 不 必要 的 信息 重复 。 考 虑 在 instructor 实体 
集 定义 中 的 小 变化 ， 我 们 为 每 个 教师 记录 一 组 孩子 名 字 以 及 一 组 电话 号 码 。 电 话 号 码 可 以 被 多 个 人 共 
享 。 因此 ，phone_number 和 child_name 将 是 多 值 属 性 ， 并 且 根 据 我 们 从 E-R 设计 生成 模式 的 规则 ， 我 
们 会 有 两 个 模式 ， 多 值 属性 phone_number 和 child_name 中 每 个 属性 对 应 一 个 模式 : 
(ID, child_name) 
(ID, phone_number ) 
如 果 我 们 合并 这 些 模式 而 得 到 
(ID, child_name, phone_number) 
我 们 会 发 现 该 结果 属于 BCNF， 因 为 只 有 平凡 的 函数 依赖 成 立 。 因 此 我 们 可 能 认为 这 样 的 合并 是 个 好 主 
意 。 然 而 ， 通 过 考虑 有 两 个 孩子 和 两 个 电话 号 码 的 教师 的 例子 ， 我 们 会 发 现 这 样 的 合并 是 一 个 坏 主 意 。 
例如 ， 令 ID H 99999 的 教师 有 两 个 孩子 ， 叫 作 * David” 和 “William”， 以 及 有 两 个 电话 号 码 ，512 - 555 - 
1234 和 512 -555 -4321。 在 合并 的 模式 中 ， 我 们 必须 为 每 个 家 属 重复 一 次 电话 号 码 : 
(99999, David, 512 -555 — 1234 ) 
(99999, David, 512 - 555 -4321) 
(99999, William, 512 -555 - 1234) 
(99999, William, 512 -555 -4321 ) 
如 果 我 们 不 重复 电话 号 码 ， 且 只 存储 第 一 条 和 最 后 一 条 元 组 ， 我 们 就 记录 了 家 属 名 字 和 电话 号 码 ， 
但 是 结果 元 组 将 暗 指 David 对 应 于 512 -555 - 1234, mi William 对 应 于 512 -555 -4321。 我 们 知道 ， 这 
是 不 正确 的 。 
由 于 基于 函数 依赖 的 范式 并 不 足以 处 理 这 样 的 情况 ， 因 此 定义 了 另外 的 依赖 和 范式 。 我 们 在 8. 6 
和 8. 7 节 对 此 进行 讲述 。 


8.4 ”函数 依赖 理论 

在 例子 中 我 们 已 经 看 到 ， 作 为 检查 模式 是 否 属于 BCNF 或 3NF 这 一 过 程 的 一 部 分 ， 能够 对 函数 依 
赖 进行 系统 地 推理 是 很 有 用 的 。 
8.4.1 函数 依赖 集 的 闭 包 

我 们 将 会 看 到 ， 给 定 模式 上 的 函数 依赖 集 尺 ， 我 们 可 以 证 明 某 些 其 他 的 函数 依赖 在 模式 上 也 成 立 


我 们 称 这 些 函 数 依赖 被 F 逻辑 蕴涵 ”。 当 检验 范式 时 ， 只 考虑 给 定 的 函数 依赖 集 是 不 够 的 ; 除 此 以 外 ， 
还 需要 考虑 模式 上 成 立 的 所 有 函数 依赖 。 


更 正式 地 ， 给 定 关系 模式 r(R) ， 如 果 r(R) 的 每 一 个 满足 的 实例 也 满足 f， 则 R 上 的 函数 依赖 / 


被 + 上 的 函数 依赖 集 F 逻辑 蕴涵 (logically imply) 。 
假设 我 们 给 定 关系 模式 r (A, B, C, G, H, 1) 及 函数 依赖 集 : 
A—B 
4 一 (C 
CC 一 H 
CC 一/ 
B — H 


那么 函数 依赖 


A— H 


被 逻辑 蕴涵 。 也 就 是 说 ， 我 们 可 以 证 明 ， 一 个 关系 只 要 满足 给 定 的 函数 依赖 集 ， 这 个 关系 也 一 定 满足 
4 一 有。 假设 元 组 t, Kn 满足 
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t,[A] =4,[A] 
由 于 已 知 4 一 B， 因 此 由 函数 依赖 的 定义 推出 

[B] =2,[B] 
那么 ， 又 由 于 已 知 B 一 万 ,因此 由 函数 依赖 的 定义 推出 

t,(H] =4,[ 4] 


因此 ， 我们 证 明了 ， 对 任意 两 个 元 组 t, Me, , RELLA] =4[A], REA [H] = 六 [五 ] 。 而 这 正 是 
4 > H fie Xo 

令 玉 为 一 个 函数 依赖 集 。F 的 闭 包 是 被 逻辑 蕴涵 的 所 有 函数 依赖 的 集合 ， 记 作 瑚 - 。 给 定 PF, 可 
以 由 函数 依赖 的 形式 化 定义 直接 计算 出 * 。 如 果 下 很 大 ， 则 这 个 过 程 将 会 很 长 而 且 很 难 。 这 一 Fiz 
算 需 要 论证 ， 就 像 刚 才 用 于 证 明 4 一 克 在 依赖 集 例 子 的 闭 包 中 的 那 种 论证 。 

公理 (axiom) ， 或 推理 规则 ， 提 供 了 一 种 用 于 推理 函数 依赖 的 更 为 简单 的 技术 。 在 下 面 的 规则 中 ， 
我 们 用 希腊 字母 (a, B6，y，…) 表 示 属 性 集 ， 用 字母 表 中 从 开头 起 的 大 写 罗马 字母 表示 单个 属性 。 我 
们 用 aB 表示 a U Bo 

我 们 可 以 使 用 以 下 三 条 规则 去 寻找 逻辑 蕴涵 的 函数 依赖 。 通 过 反复 应 用 这 些 规则 ， 可 以 找 出 给 定 
下 的 全 部 六 。 这 组 规则 称 为 Armstrong 公理 ( Armstrong's axiom) ， 以 纪念 首次 提出 这 一 公理 的 人 。 

© ARF (reflexivity rule), # a 为 一 属性 集 且 BSa, Mla — B 成立。 

。 增补 律 (augmentation rule), Aa > 6 成 立 且 7 为 一 属性 集 ， 则 ya 一 yB 成 立 。 

o 传递 律 (transitivity rule), Ga—>BAMB— yR, 则 a 一 成立。 

Armstrong 公理 是 正确 有 效 的 (sound) ， 因 为 它们 不 产生 任何 错误 的 函数 依赖 。 这 些 规 则 是 完备 的 
(complete) ， 因 为 ， 对 于 给 定 函数 依赖 集 尺 ， 它 们 能 产生 全 部 F 。 文 献 注解 提供 了 对 正确 有 效 性 和 完 
备 性 的 证 明 的 参考 。 

虽然 Armstrong 公理 是 完备 的 ， 但 是 直接 用 它们 计算 严 会 很 麻烦 。 为 进一步 简化 ， 我 们 列 出 另外 
的 一 些 规 则 。 可 以 用 Armstrong 公理 证 明 这 些 规则 是 正确 有 效 的 (参见 实践 习题 8.4、8. 5 及 习题 8.26) 。 

。 合并 律 (union rule), Æ a > 6 M a — y È, Wa 一 By 成 立 。 

© 分 解 律 (decomposition) 。 若 a — By ÈL, 则 a 一 B 和 a 一 yy 成立。 

© 伪 传 递 律 (pseudotransitivity rule), Æ a — B Fil yB > RSL, WM ay 一 5 成 立 。 

让 我 们 将 规则 应 用 于 模式 R= (A, B, C, G, H, 1) 及 函数 依赖 集 F |A — B, A— C, CG +H, CC 一 
I, B 一 Hl。 这 里 列 出 F' 中 的 几 个 依赖 : 

e 4A 一 且 。 由 于 4 一 B 和 B 一 成立， 因此 使 用 传递 律 。 可 以 看 到 使 用 Armstrong 公理 证 明 4 一 

有 成 立 比 本 节 前 面 直接 使 用 定义 论证 要 简单 得 多 。 
e CG 一 HI。 由 于 CG 一 及 和 CG 一 1 成 立 ， 因 此 由 合并 律 推出 CG 一 > HI。 








e AG 一 J。 由 于 有 4 一 C 且 CG 一 1， 因此 由 伪 








传递 律 推出 AG — 7 成立。 dr 
AG 一 了 的 另 一 种 推理 方法 如 下 : 我 们 在 4 > CE aie A eo 
l pes j 

使 用 增补 律 从 而 推出 AG 一 CG。 在 这 个 依赖 和 CG 一 7 将 结果 加 入 到 严 * 中 
上 使 用 传递 率 ， 我 们 推出 AG 一 I。 for each F* 中 的 一 对 函数 依赖 六 和 卢 

图 8-7 给 出 形式 化 地 示范 如 何 使 用 Armstrong 公理 证 轧 和 卢 可 以 使 用 传递 律 结合 起 来 
计算 P 的 过 程 。 在 这 个 过 程 中 ， 当 一 个 函数 依赖 加 入 iin TTR 
F* 时 ， 它 可 能 已 经 存在 了 ， 这 时 F 没有 变化 。 我 们 oe 
将 在 8. 4. 2 节 看 到 另 一 种 计算 F' 的 算法 。 图 8-7 计算 F* 的 过 程 


函数 依赖 的 左边 和 右边 都 是 R 的 子 集 。 由 于 包含 ”个 元 素 的 集合 有 2 ATE, KHA?” x 2" = 
2 ”个 可 能 的 函数 依赖 ， 其 中 是 及 中 的 属性 个 数 。 除 最 后 一 次 迭代 外 ， 每 一 次 执行 repeat 循环 都 至 少 
往 F* 里 加 入 一 个 函数 依赖 。 因 此 ， 该 过 程 保证 可 以 终止 。 
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8.4.2 属性 集 的 闭 包 
如 果 a 一 B， 我 们 称 属性 B 被 a 函数 确定 (functionally determine ) 。 要 判断 集合 a 是 否 为 超 码 ， 我 们 必 
须 设计 一 个 算法 ， 用 于 计算 被 a 函数 确定 的 属性 集 。 一 种 方法 是 计算 ， 找 出 所 有 左 半 部 为 a 的 函数 
依赖 ， 并 合并 这 些 函 数 依赖 的 右 半 部 。 但 是 这 么 做 开销 很 大 ， 因 为 PF TREK. 

在 本 节 后 面 我 们 将 看 到 ， 一 个 用 于 计算 被 a 函数 确定 的 属性 集 的 高 效 算 法 不 仅 可 以 用 来 判断 a 是 
否 为 超 码 ， 还 可 以 用 于 其 他 的 一 些 任务 。 

Sa 为 一 个 属性 集 。 我 们 将 函数 依赖 集 F F a 函数 确定 的 所 有 属性 的 集合 称 为 下 下 a 的 闭 包 ， 


记 为 wo” 。 图 8-8 是 以 伪 码 写 的 计算 a 的 算法 。 输 入 是 函数 依赖 集 和 属性 集 w。 输 出 存储 在 变量 
result 中 。 





result: = Q; 


t 
for each pKa Hi B—r in F do 
begin 
if BC result then result := result U y; 
end 
until (result 不 变 ) 











图 8-8 HA FTF aE a 的 算法 


为 解释 该 算法 如 何 进 行 ， 我 们 将 用 它 计 算 8. 4. 1 节 中 定义 的 函数 依赖 集 下 的 (4C) ” 。 开 始 时 result = 
4C。 在 第 一 次 执行 repeat 循环 测试 各 个 函数 依赖 时 ， 我 们 发 现 

e 由 4 一 B， 于 是 将 B 加 入 result。 这 是 因为 ,我 们 观察 到 4 — BJEFF, A Cresult( 即 4G)， 所 

VW result: = result U B, 

e HA—C, result ZH ABCC, 

e 由 CG — H, result 8) ABCGH, 

e 由 CG — 1, result 变 为 ABCGHI, 
我 们 第 二 次 执行 repeat 循环 时 ， 没 有 新 属性 加 入 result, 算法 终止 。 

让 我 们 看 看 图 8-8 的 算法 为 什么 正确 。 第 一 步 正确 ， 因 为 a 一 a 总 是 成 立 ( 由 自 反 律 ) 。 我 们 说 ， 
对 result 的 任意 子 集 8， 有 a 一 B。 由 于 开始 repeat 循环 时 a— result 为 真 ， 因 此 只 要 BCresult H8 — 
y， 就 可 将 y 加 入 result 中 。 而 由 自 反 律 得 到 result 一 B， 故 由 传递 律 得 到 a 一 B。 再 应 用 传递 律 就 得 到 
a 一 y( 由 a 一 B 及 B 一 y)。 由 合并 律 可 推出 a result U y， 所 以 a 函数 确定 repeat 循环 中 产生 的 任 
意 新 结果 。 也 就 是 说 ,该 算法 所 返回 的 任意 属性 都 属于 a 。 

容易 证 明 ， 该 算法 找 出 a 的 全 部 属性 。 在 执行 当中 ， 如 果 存 在 属性 属于 a 却 还 不 属于 result, W 
必定 存在 函数 依赖 B 一 y( 其 中 BCresult) 并 且 y 中 至 少 有 一 个 属性 不 在 result 中 。 当 该 算法 结束 时 ， 所 
有 的 函数 依赖 都 已 经 处 理 过 ，y 中 的 属性 都 已 经 加 到 result 中 ; 因此 我 们 可 以 确定 a’ 中 的 所 有 属性 都 
在 result 中 。 
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经 证 明 ， 在 最 坏 情况 下 ， 该 算法 的 执行 时 间 为 集合 规模 的 二 次 方 。 有 一 个 更 快 的 算法 (但 略微 


复杂 一 点 儿 ) ， 执 行 时 间 与 下 的 规模 呈 线 性 关系 ; 这 个 算法 作为 实践 习题 8. 8 的 一 部 分 进行 介绍 。 
属性 闭 包 算法 有 多 种 用 途 : 
。 为 了 判断 a 是 否 为 超 码 ， 我 们 计算 a`, RE a 是 否 包 含 R 中 的 所 有 属性 。 
。 通过 检查 是 否 B6Ca* ,我 们 可 以 检查 函数 依赖 a 一 B 是 否 成 立 (或 换 句 话说 ， 是 否 属于 Ff* )。 也 就 
是 说 ,我 们 用 属性 闭 包 计算 a* ， 看 它 是 否 包含 B。 本 章 后 面 我 们 将 会 看 到 这 种 检查 非常 有 用 。 
© 该 算法 给 了 我 们 另 一 种 计算 F 的 方法 : 对 任意 的 yGER， 我 们 找 出 闭 包 y ; 对 任意 的 SCy”， 
我 们 输出 一 个 函数 依赖 y 一 S。 
8.4.3 ”正则 覆盖 
假设 我 们 在 一 个 关系 模式 上 有 一 个 函数 依赖 集 F。 每 当 用 户 在 该 关系 上 执行 更 新 时 ， 数 据 库 系统 
必须 确保 此 更 新 不 破坏 任何 函数 依赖 ， 也 就 是 说 , F 中 的 所 有 函数 依赖 在 新 数据 库 状态 下 仍然 满足 。 
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如 果 更 新 操作 破坏 了 下 上 的 任 一 个 函数 依赖 ， 系 统 必 须 回 滚 该 更 新 操作 。 

我 们 可 以 通过 测试 与 给 定 函数 依赖 集 具 有 相同 闭 包 的 简化 集 的 方式 来 减 小 检测 冲突 的 开销 。 因 为 
简化 集 和 原 集 具 有 相同 的 闭 包 ， 所 以 满足 函数 依赖 简化 集 的 数据 库 也 一 定 满足 原 集 ， 反 之 亦 然 。 但 是 ， 
简化 集 更 便于 检测 。 稍 后 我 们 将 看 到 简化 集 是 如 何 构造 的 。 首 先 ， 我 们 需要 一 些 定义 。 

如 果 去 除 函 数 依赖 中 的 一 个 属性 不 改变 该 函数 依赖 集 的 闭 包 ， 则 称 该 属性 是 无 关 的 (extraneous ) 。 
无 关 属 性 (extraneous attribute) 的 形式 化 定义 如 下 : 考虑 函数 依赖 集 正 及 下 中 的 函数 依赖 a 一 B。 

。 WRA saw 并且 下 逻辑 芍 含 (FF - ja 一 Bl) U l(a - A) 一 Bl， 则 属性 4 在 a 中 是 无 关 的 。 

。 MRA eB 并 且 函 数 依赖 集 (F - ia 一 Bl) U la> (B-A) EHAS F, 则 属性 4 在 B 中 是 

无 关 的 。 

例如 ， 假 定 我 们 在 正中 有 函数 依赖 4B 一 C 和 4 一 C, 那么 B 在 4B 一 C 中 是 无 关 的 。 再 比如 ， 假 
ERIE F FARKE AB 一 CD 和 4 一 C, 那么 C 在 4B 一 CD 的 右 半 部 中 是 无 关 的 

使 用 无 关 属 性 的 定义 时 注意 蕴涵 的 方向 : 如 果 将 左 半 部 与 右 半 部 交换 ， 蕴 含 关系 将 总 是 成 立 的 。 
也 就 是 说 , (F - la 一 Bl) U |(a - A) 一 BB1| 总 是 逻辑 蕴涵 同时 下 也 总 是 逻辑 蕴涵 (所 - 
la 一 Bl)Uila 一 (6 - 4A)}。 

下 面 介绍 如 何 有 效 检验 一 个 属性 是 否 无 关 。 令 及 为 一 关系 模式 ， 且 下 是 在 尺 上 成 立 的 给 定 函 数 依 
赖 集 。 考 虑 依赖 a 一 B 中 的 一 个 属性 4。 

。 WRA e B， 为 了 检验 4 是 否 是 无 关 的 ， 考虑 集合 

F' = (F - {a—B}) U la= (B = A)} 
并 检验 acA 是 否 能 够 由 FHH, Auk, HAF Pia (a 的 闭 包 ); MRa AAA, 则 4 在 B 
中 是 无 关 的 。 
。 如果 4 ca, 为 了 检验 4 是 否 是 无 关 的 , 令 y=a-|4} ,并且 检 查 y 一 B 是否 可 以 由 下 推出 。 
Alt, WAP Py (yA); WR y 包含 B 中 的 所 有 属性 ， 则 4 在 a 中 是 无 关 的 。 
例如 ， 假 定 下 包含 4B 一 CD, A+ EMEC, 为 检验 C 在 4B 一 CD 中 是 否 是 无 关 的 , RINA F = 
14B 一 D, A — E, E — C} F AB 的 属性 闭 包 。 闭 包 为 4BCDE， 包含 CD， 所 以 我 们 推断 出 C 是 无 关 的 . 

下 的 正则 覆盖 ( canonical cover) F, 是 一 个 依赖 集 ， 使 得 下 逻辑 蕴含 中 的 所 有 依赖 ， 并且 FP, 逻辑 
蕴涵 F 中 的 所 有 依赖 。 此 外 ，F. 必须 具有 如 下 性 质 : 

o F. 中 任何 函数 依赖 都 不 含 无 关 属 性 。 

e F. 中 函数 依赖 的 左 半 部 都 是 唯一 的 。 即 ，F. 中 不 存在 两 个 依赖 a 一 B 和 a, 一 B,， 满 足 

QI =QA,0 

函数 依赖 集 F 的 正则 覆盖 可 以 按 图 8-9 中 描述 的 那样 计算 。 需 要 重视 的 一 点 是 ， 当 检验 一 个 属性 
GAA, RON AA F. 当前 值 中 的 函数 依赖 ， 而 不 是 下 中 的 依赖 。 如 果 一 个 函数 依赖 的 右 半 部 
只 包含 一 个 属性 ， 例 如 4 一 C， 并 且 这 个 属性 是 无 关 的 ， 那 么 我 们 将 得 到 一 个 右 半 部 为 空 的 函数 依赖 。 
这 样 的 函数 依赖 应 该 删除 。 


Fo=F 
repeat 
使 用 合并 律 将 F. 中 所 有 形 如 mw 一 B 和 a 一 B, 的 依赖 
替换 为 a,— Bp, 
E F, 中 寻找 一 个 函数 依赖 a 一 B， 它 在 a 或 在 B 中 
具有 一 个 无 关 属 性 
/* 注意 ,使 用 F. 而 非 下 检验 无 关 属性 */ 
如 果 找 到 一 个 无 关 属 性 ， 则 将 它 从 F. 中 的 a 一 p 中 删除 
until (F, 不 变 ) | 


图 8-9 ”计算 正则 覆盖 


可 以 证 明 的 正则 覆盖 F. 与 FF 具有 相同 的 闭 包 ; 因此 ， 验 证 是 否 满足 F, 等 价 于 验证 是 否 满足 Fo 
但 是 ， 从 某 种 意义 上 说 ,F. 是 最 小 的 一 一 它 不 含 无 关 属 性 ， 并 且 它 合并 了 具有 相同 左 半 部 的 郴 数 依 
赖 。 所 以 验证 F, 比 验证 下 本 身 更 容易 。 
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考虑 模式 (4, B, C) 上 的 如 下 函数 依赖 集 F: 
4 一 BC 
BC 
A—B 
AB 一 C 

让 我 们 来 计算 F 的 正则 覆盖 。 

© 存在 两 个 函数 依赖 在 箭头 左边 具有 相同 的 属性 集 : 
4 一 BC 
4 一 了 

我 们 将 这 些 函 数 依赖 合并 成 4 一 BC, 
。 AfTEAB>CHEAKHN, AA F BRAM - |AB->C}) U 18 一 Cl。 这 个 断言 为 真 ， 因 


H B — C 已 经 在 函数 依赖 集中 。 
© CEA — BC 中 是 无 关 的 ,， AAA — BC RA — BAB — C 逻辑 蕴涵 。 
于 是 ， 正 则 覆盖 为 : 
4 一 有 
B—C 


给 定 函 数 依赖 集 ， 可 能 集合 中 有 一 整 条 函数 依赖 都 是 无 关 的 ， 也 就 是 说 删 掉 它 不 改变 下 的 闭 包 。 
我 们 可 以 证 明太 的 正则 覆盖 F. 不 包含 这 种 无 关 的 函数 依赖 。 利 用 反 证 法 ,假设 FP. 中 存在 这 种 无 关 函 
数 依赖 ， 则 依赖 的 右 半 部 分 属性 将 是 无 关 的 ， 这 与 正则 覆盖 的 定义 矛盾 。 
正则 覆盖 未 必 是 唯一 的 。 例 如 ， 考 虑 函数 依赖 集 = 14 一 BC, B 一 AC, C 一 4B| 。 如 果 我 们 对 [342 
A 一 BC 进行 无 关 性 检验 ， 会 发 现在 下 B 和 C 都 是 无 关 的 。 然 而 ， 两 个 都 删 掉 是 不 对 的 ! 计算 正则 覆 | 344 
盖 的 算法 选择 其 中 一 个 删除 。 那 么 ， 
1. 如 果 删 除 C， 我 们 得 到 集合 所 = | 4 一 B,B 一 AC, C 一 4B |。 WE, HERP, A> BA 
部 B 就 不 是 无 关 的 了 。 继 续 执 行 算法 ,我 们 发 现 C 一 AB 右 半 部 的 4 和 B 都 是 无 关 的 ， 这 导致 两 种 正 
则 覆盖 





ND Vey, ey vi 
F. =A — B, B — AC, C — B} 
2. 如 果 删 除 ， 我 们 得 到 集合 14 — C, B 一 AC, C 一 4B8| 。 这 种 情况 与 前 面 的 情况 是 对 称 的 ， 将 
导致 两 种 正则 覆盖 
F=|1A—C,C—B,B—A4| 
F.=|A—C, B—C, C — AB} 
作为 练习 ， 你 能 再 找到 一 个 下 上 的 正则 覆盖 吗 ? 
8.4.4 无 损 分 解 
令 r(R) 为 一 个 关系 模式 ,下 为 r(R) 上 的 函数 依赖 集 。 令 尺 AR, AR 的 分 解 。 如 果 用 两 个 关系 模 
式 (Ri) 和 7,(R,) 替 代 r(R) 时 没有 信息 损失 ， 则 我 们 称 该 分 解 是 无 损 分解 (lossless decomposition), E 
精确 地 说 ， 我 们 称 分 解 是 无 损 的 ， 如 果 对 于 所 有 的 合法 数据 库 实 例 ( 即 满足 指定 的 函数 依赖 和 其 他 约束 
的 数据 库 实 例 ) ， 关 系 r 包 含 与 下 述 SQL 查询 结果 相同 的 元 组 集 : 
tia R, from r) 
natural join 
(select R, from r) 


这 用 关系 代数 可 以 更 简洁 地 表示 为 : 
II (> II =" 
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换 句 话说 ， 如 果 我 们 把 7 投影 至 R, AR, 上 ， 然 后 计算 投影 结果 的 自然 连接 ， 我 们 仍然 得 到 一 模 一 样 
的 r。 不 是 无 损 分 解 的 分 解 称 为 有 损 分 解 (lossy decomposition ) 。 无 损 连 接 分 解 lossless-join decom- 
position ) 和 有 损 连 接 分 解 (lossy-join decomposition ) 这 两 个 术语 有 时 用 来 代替 无 损 分 解 和 有 损 分 解 。 

345 作为 有 损 连 接 的 一 个 例子 ， 回 想 8. 1. 2 节 中 employee 模式 的 分 解 : 


employee| (ID, name) 
employee2 (name, street, city, salary) 


如 图 8-3 所 示 ，employeel M employee2 的 结果 是 原 关系 employee 的 一 个 超 集 ， 但 是 分 解 是 有 损 的 ， 因 为 
当 有 两 个 或 多 个 雇员 具有 相同 的 名 字 时 ， 连 接 的 结果 丢失 了 关于 哪个 雇员 标识 和 哪个 地 址 及 工资 相关 
联 的 信息 。 

我 们 可 以 用 函数 依赖 来 说 明 什 么 情况 下 分 解 是 无 损 的 。 令 RR、 尺 、 尺 和 下 如 上 。R AR, RA 
无 损 分 解 ， 如 果 以 下 函数 依赖 中 至 少 有 一 个 属于 三 : 

eR ARR, 

e RIN R—>R, 
换 句 话说 ， 如 果 R OR, 是 R, 或 R, 的 超 码 ，R 上 的 分 解 就 是 无 损 分 解 。 正 如 我 们 前 面 看 到 的 ， 我 们 可 
以 用 属性 闭 包 的 方法 来 高 效 地 检验 超 码 。 

为 举例 说 明 ， 考 虑 模式 

inst_dept (ID, name, salary, dept_name, building, budget ) 

我 们 在 8. 1. 2 节 中 将 其 分 解 为 instructor 和 department 模式 : 


instructor (ID, name, dept_name, salary) 
department ( dept_name, building, budget ) 


考虑 这 两 个 模式 的 交集 ， 即 dept_name。 我 们 发 现 ， 由 于 dept_name 一 dept_name, building, budget, [Ast 
满足 无 损 分 解 条 件 。 

对 于 一 个 模式 一 次 性 分 解 成 多 个 模式 的 情况 ， 判 定 无 损 分 解 就 更 复杂 了 。 参 看 文献 注解 的 相关 
主题 。 

虽然 对 二 元 分 解 的 测试 显然 是 无 损 连 接 的 一 个 充分 条 件 ,但 只 有 当 所 有 约束 都 是 函数 依赖 时 它 才 
是 必要 条 件 。 后 面 我 们 将 看 到 几 种 其 他 类 型 的 约束 (特别 是 8. 6. 1 节 讨 论 的 称 为 多 值 依赖 的 一 种 约束 类 
型 )， 它 们 即使 在 不 存在 函数 依赖 的 情况 下 仍 可 保证 一 个 分 解 是 无 损 连 接 的 。 

8.4.5 保持 依赖 
346 使 用 函数 依赖 理论 描述 保持 依赖 ， 要 比 我 们 在 8. 3. 3 节 中 采用 的 即席 方法 容易 得 多 。 

令 下 为 模式 R 上 的 一 个 函数 依赖 集 ，R,，R,，…，R, 为 R 的 一 个 分 解 。F 在 R; 上 的 限定 
(restriction) Æ 中 所 有 只 包含 R; 中 属性 的 函数 依赖 的 集合 玉 。 由 于 一 个 限定 中 的 所 有 函数 依赖 只 涉 
及 一 个 关系 模式 的 属性 ， 因 此 判定 这 种 依赖 是 否 满足 可 以 只 检查 一 个 关系 。 

注意 定义 限定 时 用 到 的 是 F* 中 的 所 有 函数 依赖 ， 而 不 仅仅 是 下 中 的 。 例 如 ,假设 上 = 14 一 B, 
B 一 Cl ， 且 我 们 有 一 个 到 4C 和 4B 的 分 解 。F 在 AC 上 的 限定 则 包含 4 一 C， 因 为 4 一 C 属 于 三 ， 
尽管 它 并 没有 在 下 中 。 

REF, Fy, ot. F, 的 集合 是 能 高 效 检查 的 依赖 集 。 我 们 现在 必须 要 问 是 否 只 检查 这 些 限定 就 够 
To $ F'=F U FUU 及 。 忆 是 模式 尺 上 的 一 个 函数 依赖 集 ， 不 过 通常 F F BÆ, BHE F = 
F， 也 有 可 能 Fr =F* 。 如 果 后 者 为 真 ， 则 严 中 的 所 有 依赖 都 被 FEAA, AH., WRR F 
是 满足 的 ， 则 我 们 就 证 明了 下 也 满足 。 我 们 称 具 有 性质 FO = F* 的 分 解 为 保持 依赖 的 分 解 
( dependency-preserving decomposition ) 。 

图 8-10 给 出 了 判定 保持 依赖 性 的 算法 。 输 入 是 分 解 的 关系 模式 集 D = |R, R, 0, R, | ARRU 
EF, AAR FF ， 所 以 这 个 算法 的 开销 很 大 。 我 们 将 考虑 另外 两 个 方法 来 替代 图 8- 10 中 的 
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首先 ， 请 注意 如 果 下 中 的 每 一 个 函数 依赖 都 可 以 在 分 解 得 到 的 某 一 个 关系 上 验证 ， 那 么 这 个 分 解 














就 是 保持 依赖 的 。 这 是 一 种 简单 的 验证 保持 依赖 ae 
性 的 方法 ; 但 是 , 它 并 不 总 是 有 效 。 有 些 情况 下 ， for each D 中 的 模式 R, do 
尽管 这 个 分 解 是 保持 依赖 的 ， 但 是 在 中 存在 一 begin 
个 依赖 ， 它 无 法 在 分 解 后 的 任意 一 个 关系 上 验证 。 TE 
所 以 这 个 验证 方法 只 能 用 作 一 个 易于 检查 的 充分 Fiz 0 
条 件 ， 如 果 验 证 失败 我 们 也 不 能 断定 该 分 解 就 不 for each 限定 F, do 
是 保持 依赖 的 ， 而 是 将 不 得 不 采用 一 般 化 的 验证 a 
方法 。 

我 们 现在 给 出 第 二 种 避免 计算 严 - 的 验证 保持 HAF; 
依赖 的 方法 。 我 们 会 在 列 出 验证 方法 之 后 解释 该 ee ee ee 
方法 的 思想 。 该 验证 方法 对 下 中 的 每 一 个 wa > B 
使 用 下 面 的 过 程 : 图 8-10 保持 依赖 性 的 验证 


for each 分 解 后 的 R, 
t= (result N R)’ OR, 
result = result U t 

until (result 没有 变化 ) 


这 里 的 属性 闭 包 是 函数 依赖 集 F 下 的 。 如 果 result 包含 B 中 的 所 有 属性 ， 则 函数 依赖 a 一 B 保持 。 分 解 
是 保持 依赖 的 当 且 仅 当 上 述 过 程 中 下 的 所 有 依赖 都 保持 。 
上 述 验证 方法 背后 的 两 个 关键 的 思想 如 下 : 
。 第 一 个 思想 是 验证 下 中 的 每 个 函数 依赖 a 一 B， 看 它 是 否 在 严 中 保持 ( 严 的 定义 如 图 8-10 所 
示 )。 为 此 ， 我们 计算 F' 下 a 的 闭 包 ; 当 该 闭 包 包含 6 时 ， 该 依赖 得 以 保持 。 该 分 解 是 保持 依 
赖 的 当 ( 且 仅 当 )F 中 的 所 有 函数 依赖 都 保持 。 
。 第 二 个 思想 是 使 用 修改 后 的 属性 闭 包 算法 计算 严 下 的 闭 包 ， 不 用 先 真正 计算 出 Fr'。 我 们 希望 避 
fF’ Witte, 因为 计算 开销 很 大 。 注 意 到 下 是 F, 的 并 集 , 而 F Æ FER EKRE, ZAH 
算出 FR 上 (result N R;) 的 属性 闭 包 ,并 与 R, 的 闭 包 求 交 ， 然 后 将 结果 属性 集 加 入 result; 这 一 系 
列 步骤 等 价 于 计算 F, 下 的 result 闭 包 。 在 while 循环 中 对 每 个 i 重复 该 步骤 就 得 到 了 F F 
result 闭 包 。 
为 了 理解 这 个 修改 后 的 属性 闭 包 算法 运算 正确 的 原因 ， 我 们 注意 到 对 于 每 个 yC R, yoy BF 
中 的 一 个 函数 依赖 ， 并 且 7y 一 六 下 是 天 在 及 上 的 限定 天 中 的 函数 依赖 。 反 之 ， 如 果 ?y s 出现 
EF P, WS y OR WFR. 
该 判定 方法 的 代价 是 多 项 式 时 间 ， 而 不 是 计算 F 所 需 的 指数 时 间 的 代价 。 


8.5 分 解 算法 
现实 世界 的 数据 库 模 式 要 比 能 装 在 书页 中 的 例子 大 得 多 。 因 此 ， 我 们 需要 能 生成 属于 适当 范式 的 [347 
设计 的 算法 。 本 节 给 出 BCNF 和 3NF 的 相应 算法 。 348 


8. 5.1 BCNF 分 解 


BCNF 的 定义 可 以 直接 用 于 检查 一 个 关系 是 否 属于 BCNF, 但 是 , 计算 斑 是 一 个 繁重 的 任务 。 下 
面 首先 描述 判定 一 个 关系 是 否 属于 BCNF 的 简化 检验 方法 。 如 果 一 个 关系 不 属于 BCNF， 它 可 以 被 分 解 
以 创建 属于 BCNF 的 关系 。 本 节 后 面 将 描述 一 种 创建 关系 的 无 损 分 解 的 算法 ,使 得 该 分 解 属于 BCNF, 

8.5.1.1 BCNF 的 判定 方法 

在 某 些 情况 下 ， 判 定 一 个 关系 是 否 属于 BCNF 可 以 作 如 下 简化 : 
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342 
350 


e 为 了 检查 非 平凡 的 函数 依赖 w 一 B 是 否 违反 BCNF， 计 算 w (ea 的 属性 闭 包 ) ， 并 且 验 证 它 是 否 
包含 RR 中 的 所 有 属性 ， 即 验证 它 是 否 是 R 的 超 码 。 
© 检查 关系 模式 R 是 否 属 于 BCNF， 仅 须 检查 给 定 集合 正中 的 函数 依赖 是 否 违反 BCNF 就 足够 了 ， 
不 用 检查 FO 中 的 所 有 函数 依赖 。 
我 们 可 以 证 明 如 果 Fp RA RAUKE BCNF, A F* 中 也 不 会 有 函数 依赖 违反 BCNF, 
遗憾 的 是 ， 当 一 个 关系 分 解 后 ， 后 一 步 过 程 就 不 再 适用 。 也 就 是 说 ， 当 我 们 判定 尽 上 的 一 个 分 解 
R, 是 否 违反 BCNF 时 ， 只 用 下 就 不 够 了 。 例 如 ， 考 虑 关系 模式 R(4, B, C, D, 已) ， 其 函数 依赖 集 下 包 
{5 A — BAI BC — D., {Ri R TRR (A, B)AIR,(A, C, D, E), RE, AAP 中 没有 一 个 函数 依赖 
只 包含 来 自 (4, C, D, E) 的 属性 ， 所 以 我 们 也 许 会 误 认为 R, WE BCNF, KRE, F* 中 有 一 个 函数 依 
HAC 一 D( 可 以 由 伪 传 递 律 从 下 中 的 两 个 依赖 推出 )， 这 表明 R, 不 属于 BCNF。 所 以 ,我 们 也 许 需要 
一 个 属于 F' 但 不 属于 的 依赖 ,来 证 明 一 个 分 解 后 的 关系 不 属于 BCNF, 
BCNF 的 男 一 种 判定 方法 有 时 会 比 计算 FR* 上 的 所 有 函数 依赖 简单 。 为 了 检查 RR 分 解 后 的 关系 R, 是 
否 属于 BCNF ， 我 们 应 用 如 下 判定 : 
。 对 于 R; 中 属性 的 每 个 子 集 w， 确 保 aw (FT 下 wa 的 属性 闭 包 ) ZAREE R,- a 的 任何 属性 ， 要 
么 包含 R: 的 所 有 属性 。 
WRR, 上 有 某 个 属性 集 a 违反 该 条 件 ， 考 虑 如 下 的 函数 依赖 ， 可 以 证 明 它 出 现在 中: 
a—>la* -a) NR, 
上 面 这 个 函数 依赖 说 明 R; 违反 BCNF, 
8.5.1.2 BCNF 分 解 算法 
我 们 现在 能 给 出 一 个 关系 模式 分 解 的 一 般 方 法 以 满足 BCNF。 图 8-11 所 示 为 实现 该 过 程 的 一 个 算 
HK RAF BCNF， 则 可 用 这 个 算法 将 RR 分解 成 一 组 BCNF 模式 R, R, =, Ro KAGAN 
违反 BCNF 的 依赖 进行 分 解 。 





result:= |R}; 
done: = false; 
WHF’; 
while (not done) do 
if (result 中 存在 模式 R, 不 属于 BCNF) 
then begin 
令 a 一 BB 为 一 个 在 R, 上 成 立 的 非 平凡 函数 依赖 ,满足 a 一 R ARP PF, 并 且 a B=9; 
result:= (result -R;,) U (R,-B) U (a, B); 
end 
else done; = true; 














图 8-11 BCNF 分 解 算法 


用 这 个 算法 产生 的 分 解 不 仅 是 一 个 BCNF 分 解 ， 而 且 是 一 个 无 损 分 解 。 来 看 一 下 为 什么 该 算法 只 
产生 无 损 分解 ， 我 们 注意 到 ， 当 我 们 用 (R; - B) 和 (a, B) 取 代 模 式 R, 时 ,依赖 a 一 BOT, 而且 
(R,- B) N (a, B) =a. 

如 果 我 们 没有 要 求 a N B= Ø, BAa N B 中 的 那些 属性 就 不 会 出 现在 模式 (R, - B6) 中 ， 而 依赖 
a > B 也 不 再 成 立 。 

容易 看 出 在 8. 3. 2 节 中 对 inst_dept 的 分 解 结 果 可 以 通过 应 用 该 算法 获得 。 函 数 依赖 dept_name 一 
building , budget 满足 a N B = 条件， 因此 被 选择 用 来 分 解 该 模式 。 

BCNF 分 解 算 法 所 需 时 间 为 原始 模式 规模 的 指数 级 别 ， 因 为 该 算法 检查 分 解 中 的 一 个 关系 是 否 满 
足 BCNF 的 代价 可 以 达到 指数 级 。 文 献 注解 提供 了 一 个 算法 的 参考 文献 ， 该 算法 能 够 在 多 项 式 时 间 内 
计算 BCNF 分 解 。 但 是 ， 这 个 算法 可 能 “过 于 规范 化 ”， 即 ， 分 解 不 必要 分 解 的 关系 。 

举 一 个 更 长 的 使 用 BCNF 分 解 算 法 的 例子 ， 假 定 我 们 有 一 个 数据 库 设 计 使 用 了 以 下 的 class 模式 : 


class ( course_id, title, dept_name, credits, sec_id, semester, year, building, room_number, capacity, time_slot_id) 
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我 们 要 求 在 class 上 成 立 的 函数 依赖 集合 为 


course_id — title, dept_name, credits 
building, room_number — capacity 
course_id, sec_id, semester, year — building, room_number , time_slot_id 


该 模式 的 一 个 候选 码 是 | course_id, sec_id, semester, year} 。 
我 们 可 以 按 如 下 方式 将 图 8-11 的 算法 用 于 class 例子 : 
© KAKE: 


course_id — title, dept_name, credits 


成 立 ， 但 course_id 不 是 超 码 。 因 此 ，class 不 属于 BCNF。 我 们 将 class 替换 为 : 


course (course_id, title, dept_name, credits ) 
class — 1 (course_id, sec_id, semester, year, building, room_number , capacity, time_slot_id ) 


course 上 成 立 的 唯一 一 个 非 平凡 函数 依赖 的 箭头 左 侧 包含 course_id。 由 于 course_id 是 course 的 
码 ， 因 此 关系 course 属于 BCNF, 
© class —1 的 一 个 候选 码 为 | course_id, sec_id, semester, year), PRA: 
building , room_number — capacity 
在 class -1 上 成 立 , 但 | building, room_number| 不 是 class -1 的 超 码 。 我 们 将 class -1 RH: 


classroom ( building, room_number, capacity ) 
section (course_id, sec_id, semester, year, 
building, room_number , time_slot_id) 


classroom 和 section 属于 BCNF, 
FE, clas 分 解 为 三 个 关系 模式 course, classroom 和 section， 它 们 都 属于 BCNF。 这 些 模式 对 应 于 
我 们 在 本 章 和 前 面 章节 使 用 的 模式 。 你 可 以 验证 该 分 解 既是 无 损 的 ， 又 是 保持 依赖 的 。 





8.5.2 3NF 分 解 | 5 F, 为 斑 的 正则 种 盖 ; 
图 8-12 给 出 了 将 模式 转化 为 3NF 的 保持 依赖 。 | i:= 0; 
且 无 损 的 分 解 的 算法 。 该 算法 中 使 用 的 依赖 集 F， | Tor each PAREREA aA 
是 三 的 正则 覆盖 。 注 意 ， 该 算法 考虑 的 是 模式 R, Ris ops 
WHE (G=1, 2, =, i); 初始 i=0 且 该 集合 if MSCR,,j=1,2,... ,i 都 不 包含 R 的 候选 码 
为 空 。 g i+ l; 
让 我 们 将 该 算法 用 于 8.3.4 节 中 的 例子 ， 我 R,:= RR 的 任意 候选 码 ; 
们 曾 证 明 /* (可 选 ) 移 除 宛 余 关系 * / 
dept_advisor (s_ID, i_ID, dept_name) si HRR 包含 于 另 一 个 模式 R, 中 
是 属于 3NF AY, 虽然 它 不 属于 BCNF。 该 算法 使 用 ae 
下 中 以 下 的 函数 依赖 : hive Re á 
fı: i ID — dept_name ae i 7 l; 
fa: s_ID, dept_name — i_ID until 不 再 有 可 以 删除 的 R, 
在 下 的 任意 一 个 函数 依赖 中 都 不 存在 无 关 属 ETE e BO 


性 ， 因 此 F, 包含 fh 和 所 。 该 算法 生成 模式 (i_1D， 











图 8-12 到 3NF 的 保持 依赖 且 无 损 的 分 解 


dept_name) 作 为 R， 以 及 模式 (s_ID, dept_name, i_ID) 作 为 R,。 该 算法 随即 发 现 R, 包含 一 个 候选 码 ， 
因此 不 再 继续 创建 关系 模式 。 

生成 的 模式 集 可 能 会 包含 元 余 的 模式 ， 即 一 个 模式 R 包含 男 一 个 模式 R 所 有 的 属性 。 例 如 ， 上 [351 
面 的 R, BE R 所 有 的 属性 。 这 个 算法 会 删除 所 有 这 种 包含 于 其 他 模式 的 模式 。 在 删除 的 RR 上 验证 的 |352 
任意 一 个 依赖 在 相应 的 关系 R, 上 也 验证 ， 即 使 删除 了 尺 ， 分 解 仍旧 是 无 损 的 。 

现在 我 们 再 次 考虑 8. 5. 1. 2 节 中 的 class 模式 ， 并 运用 3NF 分 解 算法 。 我 们 所 列 出 的 函数 依赖 集 恰 
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好 是 正则 有 覆盖。 因此， 该 算法 给 出 同样 的 三 个 模式 course, classroom 和 section, 

上 例 说 明了 3NF 算法 的 一 个 有 趣 的 特性 。 有 时 ， 结 果 不 仅 属 于 3NF， 而 且 也 属于 BCNF。 这 暗示 了 
生成 BCNF 设计 的 另 一 个 方法 。 首 先 使 用 3NF 算法 ,然后 对 于 3NF 设计 中 任何 一 个 不 属于 BCNF 的 模 
式 ， 用 BCNF 算法 分 解 。 如 果 结 果 不 是 保持 依赖 的 ， 则 还 原 到 SNF 设计 。 

8.5.3 3NF 算法 的 正确 性 

SNF 算法 通过 为 正则 覆盖 中 的 每 个 依赖 显 式 地 构造 一 个 模式 确保 依赖 的 保持 。 该 算法 通过 保证 至 
少 有 一 个 模式 包含 被 分 解 模式 的 候选 码 ， 确 保 该 分 解 是 一 个 无 损 分 解 。 实 践 习题 8. 14 深入 审视 这 种 算 
法 足以 保证 无 损 分 解 的 证 据 。 

这 个 算法 也 称 为 3NF 合成 算法 (3NF synthesis algorithm ) ， 因为 它 接受 一 个 依赖 集合 ， 每 次 添加 一 
个 模式 ， 而 不 是 对 初始 的 模式 反复 地 分 解 。 该 算法 的 结果 不 是 唯一 确定 的 ， 因 为 一 个 函数 依赖 集 有 不 
止 一 个 正则 覆盖 ， 而 且 ， 某 些 情况 下 该 算法 的 结果 依赖 于 该 算法 考虑 F, 中 的 依赖 的 顺序 。 该 算法 有 可 
能 分 解 一 个 已 经 属于 3NF 的 关系 ; 不 过 ,仍然 保证 分 解 是 属于 3NF 的 。 

如 果 一 个 关系 R 在 由 该 合成 算法 产生 的 分 解 中 ， 则 R 属于 3NF。 回 想 当 我 们 判定 SNF 时 ， 考 虑 
右 半 部 是 单个 属性 的 函数 依赖 就 足够 了 。 因 此 ， 要 看 尺 是 否 属 于 3NF， 你 必须 确认 R, 上 的 任意 函数 依 
赖 y 一 下 满足 3NF 的 定义 。 假 定 该 合成 算法 中 产生 R; 的 函数 依赖 是 we 一 B。 现在， 因为 B 属 于 R,， 而 
且 a 一 B 产 生 R,， 所 以 B 一 定 属于 a 或 6。 让 我 们 考虑 以 下 三 种 可 能 情况 : 

© B 既 属 于 a 又 属于 B。 在 这 种 情况 下 ， 依赖 a 一 B 将 不 可 能 属于 下 ,否则 B 在 B 中 将 是 无 关 的 。 

所 以 这 种 情况 不 成 立 。 
。B 属 于 B6 但 不 属于 a。 考 虑 两 种 情况 : 

口 y 是 一 个 超 码 。 满 足 3NF 的 第 二 个 条 件 。 

y 不 是 超 码 。 则 a 必定 包含 某 些 不 在 y 中 的 属性 。 现 在 , 由 于 y BEF}, Alte 
是 通过 使 用 y 上 的 属性 闭 包 算法 从 到 . 推导 出 来 的 。 该 推导 不 可 能 用 到 a 一 B， 否则 a 一 定 包 
含 在 y 的 属性 闭 包 里 ， 而 这 是 不 可 能 的 ， 因 为 我 们 假定 y 不 是 超 码 。 现 在 ,使 用 a 一 (B - 
18| ) 和 YY 一 B， 我们 可 以 推导 出 ae 一 B( 由 于 yCaoapB; 并 且 因 为 y 一 B 是 非 平凡 的 ， 因 此 y 
不 包含 B)。 这 表明 B 在 a 一 8B 的 右 半 部 是 无 关 的 ,这 也 是 不 可 能 的 ， 因 为 a 一 B 属于 正则 
BaF. MA, WRBRFB, 那么 y 一 定 是 超 码 并 且 满 足 3NF 的 第 二 个 条 件 。 

se。 也 属于 wa 但 不 属于 B。 

因为 a 是 候选 码 ， 所 以 满足 3NF 定义 中 的 第 三 个 条 件 。 

有 趣 的 是 ， 我 们 描述 的 3NF 分 解 算 法 可 以 在 多 项 式 时 间 内 实现 ， 尽 管 判 定 给 定 关 系 是 否 属于 3NF 
是 NP -hard 的 (这 意味 着 设计 一 个 多 项 式 时间 的 算法 来 解决 该 问题 是 不 太 可 能 的 ) 。 

8.5.4 BCNF 和 3NF 的 比较 


对 于 关系 数据 库 模式 的 两 种 范式 一 一 3NF 和 BCNF，3NF 的 一 个 优点 是 我 们 总 可 以 在 满足 无 损 并 保 
持 依赖 的 前 提 下 得 到 3NF 设计 。 然 而 3NF 也 有 一 个 缺点 : 我 们 可 能 不 得 不 用 空 值 表示 数据 项 间 的 某 些 
可 能 有 意义 的 联系 ， 并 且 存 在 信息 重复 的 问题 。 

我 们 对 应 用 函数 依赖 进行 数据 库 设计 的 目标 是 : 

1. BCNF。 

2. 无 损 。 

3. 保持 依赖 。 
由 于 不 是 总 能 达到 所 有 这 三 个 目标 ， 因 此 我 们 也 许 不 得 不 在 BCNF 和 保持 依赖 的 3NF 中 做 出 选择 。 

值得 注意 的 是 ， 除 了 可 以 通过 用 主 码 或 者 唯一 约束 来 声明 超 码 的 特殊 情况 外 ，SQL 不 提供 指定 函 
数 依 赖 的 途径 。 通 过 写 断 言 来 保证 函数 依赖 (参见 实践 习题 8. 9 ) 虽然 有 点 麻烦 ， 但 也 是 有 可 能 的 。 遗 
憾 的 是 ， 目 前 没有 数据 库 系统 支持 强制 实施 函数 依赖 所 需 的 复杂 断言 ， 而 且 检 查 这 些 断 言 的 开销 很 大 。 
所 以 即使 我 们 有 一 个 保持 依赖 的 分 解 ， 但 如 果 我 们 使 用 标准 SQL， 我 们 只 能 对 那些 左 半 部 是 码 的 函数 
依赖 进行 高 效 的 检查 。 
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虽然 在 分 解 不 能 保持 依赖 时 ， 对 函数 依赖 的 检查 可 能 会 用 到 连接 ， 但 倘若 数据 库 系 统 支持 物化 视 
图 上 的 主 码 约 束 ， 我 们 就 可 以 通过 使 用 物化 视图 的 方法 来 降低 开销 ， 这 是 许多 数据 库 系统 都 支持 的 。 
给 定 一 个 非 保持 依赖 的 BCNF 分 解 ， 我 们 考虑 正则 覆盖 FP. 里 每 一 个 在 分 解 中 未 保持 的 依赖 。 对 于 每 一 
个 这 样 的 依赖 a 一 B， 我 们 定义 一 个 物化 视图 对 分 解 中 所 有 的 关系 计算 连接 ， 并 且 将 结果 投影 到 ap 
上 。 利 用 一 个 约束 unique(a ) 或 者 primary key(a)， 就 可 以 在 物化 视图 上 很 容易 地 检查 函数 依赖 。 

从 负面 来 看 ， 物 化 视图 会 带 来 一 些 时 间 和 空间 的 额外 开销 ; 但 是 从 正面 来 看 ， 应 用 程序 员 不 需要 
写 代码 来 保持 元 余数 据 在 更 新 上 的 一 致 性 。 维 护 物化 视图 是 数据 库 系 统 的 工作 ， 即 在 数据 库 更 新 时 做 
出 相应 的 更 新 。( 本 书后 面 的 13. 5 节 对 数据 库 系 统 如 何 高 效 地 进行 物化 视图 的 维护 进行 了 概述 。) 

遗憾 的 是 ， 目 前 绝 大 多 数 数据 库 系统 不 支持 物化 视图 上 的 约束 。 虽 然 Oracle 数据 库 支 持 物化 视图 
上 的 约束 ， 但 它 默 认 当 访问 视图 时 进行 视图 维护 ， 而 不 是 更 新 底层 关系 时 ; 2 结果 是 ， 约 束 冲突 有 可 
能 在 更 新 已 经 执行 之 后 才 检测 出 来 ， 这 使 得 该 检测 没有 用 。 

因此 ， 在 不 能 得 到 保持 依赖 的 BCNF 分 解 的 情况 下 ， 通 常 我 们 倾向 于 选择 BCNF ， 因 为 在 SQL 中 检 
查 非 主 码 约束 的 函数 依赖 很 困难 。 


8.6 使 用 多 值 依 赖 的 分 解 


有 些 关 系 模式 虽然 属于 BCNF, 但 从 某 种 意义 上 说 仍 存 在 信息 重复 的 问题 ， 所 以 看 起 来 没有 充分 规 
范 化 。 考 虑 大 学 的 例子 ， 一 个 教师 可 以 和 多 个 系 相 关联 。 


inst (ID, dept_name, name, street, city) 


敏锐 的 读者 将 发 现 这 个 模式 是 一 个 非 BCNF 模式 ， 因 为 有 函数 依赖 


ID 一 name, street, city 
F¢ AID AEE inst 的 码 。 

进一步 假设 一 个 教师 可 以 有 多 个 地 址 ( 比如 说 ， 一 个 冬天 的 家 和 一 个 夏天 的 家 ) 。 那 么 ,我 们 不 再 
想 强制 实施 函数 依赖 *1D street, city”， 不 过 当然 ， 我 们 仍 想 强制 实施 “1D -name"( 即 大 学 不 处 理 有 
多 个 别名 的 教师 的 情况 ) 。 根 据 BCNF 分 解 算法 ， 得 到 两 个 模式 : 355 

ri (ID, name) 

r,(ID, dept_name, street, city) 
这 两 个 模式 都 属于 BCNF (回想 到 一 个 教师 可 以 和 多 个 系 关 联 ， 并 且 一 个 系 可 以 有 多 名 教师 ， 因 此 ”有 
一 dept_name” Ñl“ dept_name — ID” #878 AIT.) 。 

RE r, JAF BCNF， 但 是 元 余 仍然 存在 。 对 于 一 名 教师 所 关联 的 每 个 系 都 要 将 该 教师 的 每 一 个 居 

住地 址 信息 重复 一 次 。 为 了 解决 这 个 问题 ， 可 以 把 7, 进一步 分 解 为 : 
ra (dept_name, ID) 
Tya (ID, street, city) 

但 是 ， 并 不 存在 任何 约束 来 引导 我 们 进行 这 个 分 解 。 

为 处 理 这 个 问题 ， 我 们 必须 定义 一 种 新 的 约束 形式 ， 称 为 多 值 依 赖 。 正 如 我 们 对 函数 依赖 所 做 的 
一 样 ， 我 们 将 利用 多 值 依赖 定义 关系 模式 的 一 种 范式 。 这 种 范式 称 为 第 四 范式 (Fourth Normal Form, 
4NF) ， 它 比 BCNF 的 约束 更 严格 。 我 们 将 看 到 每 个 4NF 模式 也 都 属于 BCNF， 但 有 些 BCNF 模式 不 属 
于 4NF。 


8.6.1 多 值 依赖 

函数 依赖 规定 了 某 些 元 组 不 能 出 现在 关系 中 。 如 果 4 一 中 成 立 ， 我 们 就 不 能 有 两 个 元 组 在 4 上 的 
值 相同 而 在 B 上 的 值 不 同 。 从 另 一 个 角度 出 发 ， 多 值 依赖 并 不 排除 某 些 元 组 的 存在 ， 而 是 要 求 某 种 形 
式 的 其 他 元 组 存在 于 关系 中 。 由 于 这 个 原因 ， 函 数 依赖 有 时 称 为 相等 产生 依赖 ( equality-generating 
dependency) ， 而 多 值 依赖 称 为 元 组 产生 依赖 (tuple-generating dependency) 。 
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4 r(R) 为 一 关系 模式 ,并 令 aC R 且 BC R。 多 值 依赖 (multivalued dependency) 
a ——> B 
在 R 上 成 立 的 条 件 是 ， 在 关系 r(R) 的 任意 合法 实例 中 ， 对 于 7 PERO E tla] =t,Laj 的 元 组 对 
ti Alt,, r 中 都 存在 元 组 ts 和 ti,， 使 得 


t:[@] =t,[a] =t,[@] =t,[a] 
[8] =t [8] 
t [R - B] =t,[R - B] 
t, [8] = [8] 
aah ua[R -B] =n[R - 8] 
这 个 定义 看 似 复杂 ， 实 则 不 然 。 图 8-13 AL. t, t Mt 的 表格 图 。 直 观 地 ， 多 值 依赖 a 一 一 B 


iia 和 有 之 间 的 联系 独立 于 ac AR -BB 之 间 的 联系 。 若 模式 R 上 的 所 有 关系 都 满足 多 值 依 赖 a 一 一 
B， 则 a 一 一 8 是 模式 尺 上 平凡 的 多 值 依赖 。 因 此 ， 如 果 B C a 或 BU a =R, ct ab lh ban 
为 说 明 函 数 依赖 和 多 值 依赖 的 区 别 ， 我 们 再 次 考虑 模式 r, 及 
图 8-14 中 所 示 的 该 模式 上 的 一 个 关系 的 例子 。 我 们 必须 为 教师 的 
每 个 地 址 重复 一 遍 系 名 ， 并 且 必 须 为 教师 关联 的 每 个 系 重复 地 址 。 
这 种 重复 是 不 必要 的 ， 因 为 教师 与 其 地 址 间 的 联系 独立 于 教师 与 系 
间 的 联系 。 如 果 一 个 ID 为 22222 的 教师 与 物理 系 关联 ， 我 们 希望 图 8-13 a 一 一 B 的 表格 表示 
这 个 系 与 该 教师 的 所 有 地 址 者 关联。 因此， 图 8-15 的 关系 是 非法 
的 。 要 使 该 关系 合法 化 ， 需 要 向 图 8- 15 的 关系 中 加 入 元 组 (Physics，22222，Main，Manchester ) 及 
(Math, 22222, North, Rye). 














dept name | street city 


Physics North 
Physics Main 
Finance Lake 


图 8-14 一 个 BCNF 模式 上 的 关系 中 有 元 余 的 例子 
ID | deptname | street | city 


22222 | Physics North | Rye 
22222 | Math Main Manchester 


图 8-15 一 个 非法 的 r, 关系 
将 前 面 这 个 例子 与 多 值 依赖 的 定义 相 比 较 ， 我 们 发 现 我 们 需要 多 值 依赖 


ID 一 一 street, city 


成 立 。( 多 值 依赖 ID 一 一 dept_name 也 可 以 。 我 们 不 久 将 会 看 到 它们 是 等 价 的 。) 

与 函数 依赖 相同 ， 我 们 将 以 两 种 方式 使 用 多 值 依 赖 : 

1. 检验 关系 以 确定 它们 在 给 定 的 函数 依赖 集 和 多 值 依赖 集 下 是 否 合 法 。 

2. 在 合法 关系 集 上 指定 约束 ; 因此 我 们 将 只 考虑 满足 给 定 函 数 依赖 集 和 多 值 依赖 集 的 关系 。 

请 注意 ， 若 关系 r 不 满足 给 定 多 值 依 赖 ， 我 们 可 以 通过 向 上 中 增加 元 组 构造 一 个 确实 满足 多 值 依赖 
的 关系 ro 

A DD 表示 函数 依赖 和 多 值 依赖 的 集合 。D 的 闭 包 D* 是 由 D 逻辑 蕴涵 的 所 有 函数 依赖 和 多 值 依赖 
的 集合 。 与 函数 依赖 相同 ,我们 可 以 用 函数 依赖 和 多 值 依赖 的 规范 定义 根据 D 计算 出 D*。 我们 可 以 
用 这 样 的 推理 处 理 非常 简单 的 多 值 依 赖 。 幸 运 的 是 ， 实 际 问 题 中 遇 到 的 多 值 依赖 都 很 简单 。 对 于 复杂 
的 依赖 ， 用 推理 规则 系统 来 推导 出 依赖 集会 更 好 。 

由 多 值 依赖 的 定义 ,我 们 可 以 得 出 以 下 规则 ， 对 于 a, BCR: 

。 若 a 一 B， 则 a 一 一 B。 换 句 话说 ,每 一 个 函数 依赖 也 是 一 个 多 值 依赖 。 

© 若 a 一 一 B, 则 a 一 一 R -a -B. 





22222 
22222 
12121 


Rye 
Manchester 
Horseneck 
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附录 C. 1. 1 列 出 了 多 值 依赖 的 一 个 推理 规则 系统 。 
8.6.2 第 四 范式 
再 次 考虑 BCNF 模式 的 例子 


r,(ID, dept_name, street, city) 


其 中 多 值 依赖 万 一 一 street, city” KIL. RIIE 8.6 节 的 开头 看 到 ， 尽 管 该 模式 属于 BCNF， 但 是 这 个 
设计 并 不 理想 ， 因 为 我 们 必须 为 每 个 系 重 复 教师 的 地 址 信息 。 我 们 将 看 到 ， 我 们 可 以 用 给 定 的 多 值 依 
赖 改 进 数据 库 的 设计 ， 将 该 模式 分 解 为 第 四 范式 。 

函数 依赖 和 多 值 依赖 集 为 D 的 关系 模式 r(R) 属 于 第 四 范式 (4NF) 的 条 件 是 ， 对 D 中 所 有 形 如 |357 | 

a 一 一 B 的 多 值 依赖 (其 中 aCR 且 BCR)， 至 少 有 以 下 之 一 成 立 : 
。 a 一 一 B 是 一 个 平凡 的 多 值 依赖 。 

。 au 是 尺 的 一 个 超 码 。 
数据 库 设 计 属 于 4NF 的 条 件 是 构成 该 设计 的 关系 模式 集中 的 每 个 模式 都 属于 4NF。 

请 注意 ，4NF 定义 与 BCNF 定义 的 唯一 不 同 在 于 多 值 依赖 的 使 用 。4NF 模式 一 定 属 于 BCNF。 为 了 
TLS, RIERA, WRR r(R) 不 属于 BCNF, W R 上 存在 非 平凡 的 函数 依赖 a 一 B, H a 
不 是 超 码 。 由 于 a 一 B 就 意味 着 a 一 一 B， 因 此 r(R) 不 属于 4NF。 

& r(R) 为 关系 模式 ，r,(R,)，r,(R,)，…,r,(R,) 为 r(R) 的 分 解 。 要 检验 分 解 中 的 每 一 个 关系 模 
式 是 否 属于 4NF， 我 们 需要 找到 每 一 个 r; 上 成 立 的 多 值 依 赖 。 回 想到 对 于 函数 依赖 集 ， FÆR, 上 
的 限定 F; Æ F PRERE R 中 属性 的 函数 依赖 。 现 在 考虑 函数 依赖 和 多 值 依赖 的 集合 Do DER 上 
的 限定 是 集合 D;， 它 包含 

1. D' 中 所 有 只 含 R, 中 属性 的 函数 依赖 。 

2. 所 有 形 如 : 


[358 | 


a—>>ßNANR; 
的 多 值 依赖 ， 其 中 w CR, 且 a 一 一 8 属于 D。 
8.6.3 4NF 分 解 
我 们 可 以 将 4NF 与 BCNF 之 间 的 相似 之 处 应 用 到 4NF 模式 分 解 中 。 图 8-16 给 出 了 4NF 分 解 算 法 . 
它 与 图 8-11 的 BCNF AKAM, REAR D'ER 上 的 限定 。 





result:= |R}; 
done; = false; 
计算 也 ; 给 定 模式 R,, + D, HARD’ ER, 上 的 限定 
while (not done) do 
if (result 中 存在 R; 不 属于 4NF) 
then begin 
S a 一 一 B H R, 上 成 立 的 非 平凡 多 值 依 赖 
使 得 a 一 R FAF D, #HaN B=; 
result;= (result -R;) U (R,-B) U (a, B); 
end 
else done: = true; 











图 8-16 4NF 分 解 算法 


如 果 我 们 将 图 8-16 的 算法 应 用 于 ( 1D, dept_name, street, city) ， 我 们 发 现 万 一 一 dept_name 是 非 平 
凡 的 多 值 依赖 ， 并 且 ID 不 是 该 模式 的 超 码 。 按 照 该 算法 ， 我 们 将 它 替 换 为 两 个 模式 : 
ra (ID, dept_name) 
Tx (ID, street, city) 
这 对 模式 属于 4NF， 它 消除 了 我 们 前 面 所 遇 到 的 元 余 。 
与 单独 考虑 函数 依赖 时 一 样 ， 我 们 希望 得 到 无 损 的 和 保持 依赖 的 分 解 。 从 下 面 关 于 多 值 依赖 和 无 [359 
损 性 的 性 质 可 以 看 出 图 8-16 的 算法 只 产生 无 损 分 解 : 
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© 今 r(R) 为 一 关系 模式 , D 为 R 上 的 函数 依赖 和 多 值 依赖 的 集合 。 令 r (R) Flr, (R,) HR 
个 分 解 。 该 分 解 是 R 的 无 损 分 解 ， 当 且 仅 当下 面 的 多 值 依赖 中 至 少 有 一 个 属于 D”*: 
Rn a R, 
R, N R——>R, 
回想 我 们 在 8. 4. 4 节 提 到 的 , Æ R NO Rs 一 Ri 或 RN R> R, Wr (R,) Mr, (R,) H rR) WAH 
分 解 。 上 面 这 个 关于 多 值 依 赖 的 性 质 是 对 无 损 性 更 一 般 化 的 表述 。 它 指明 ， 对 于 每 个 将 r(R) 分 解 
为 两 个 模式 (R) 和 7,(R,) 的 无 损 分 解 ， 两 个 依赖 RN R, 一 一 R RN R, 一 一 R, 中 至 少 有 一 
A> BOT. 
当 我 们 对 存在 多 值 依赖 的 关系 模式 进行 分 解 时 ， 保 持 依赖 的 问题 变 得 更 加 复杂 。 附 录 C.1.2 将 
继续 讨论 这 个 问题 。 


8.7 更 多 的 范式 


第 四 范 绝 不 是 "最终 "的 范式 。 正 如 我 们 前 面 看 到 的 ， 多 值 依赖 有 助 于 我 们 理解 并 消除 某 些 形式 
的 信息 重复 ， 而 这 种 信息 重复 用 函数 依赖 是 无 法 理解 的 。 还 有 一 些 类 型 的 约束 称 作 连 接 依赖 (join 
dependency) ， 它 概 化 了 多 值 依赖 ， 并 引出 了 另 一 种 范式 称 作 投影 - 连接 范式 (Project-Join Normal 
Form，PJNF) (PJNF 在 某 些 书 中 称 为 第 五 范式 ，fifth normal form)。 还 有 一 类 更 一 般 化 的 约束 ， 它 引 
出 一 种 称 作 域 - 码 范式 (Domain-Key Normal Form，DKNF) 的 范式 。 

使 用 这 些 一 般 化 的 约束 的 一 个 实际 的 问题 是 ， 它 们 不 仅 难 以 推导 ， 而 且 也 还 没有 形成 一 套 具有 
正确 有 效 性 和 完备 性 的 推理 规则 用 于 约束 的 推导 。 因 此 PJNF 和 DKNF 很 少 使 用 。 附 录 C 将 更 详细 地 
介绍 这 些 范式 。 

很 明显 ， 我 们 的 讨论 中 没有 第 二 范式 (Second Normal Form，2NF ) 。 因 为 它 只 具有 历史 的 意义 ， 
所 以 我 们 没有 对 它 进行 讨论 。 在 实践 习题 8. 17 中 ， 我 们 对 它 简单 地 定义 ， 并 留 做 练习 


8.8 数据 库 设 计 过 程 


迄今 为 止 我 们 详细 讨论 了 范式 和 规范 化 的 问题 ， 本 节 将 研究 规范 化 是 如 何 熔 合 在 整体 数据 库 设 
计 过 程 中 的 。 

在 本 章 的 前 面 ， 从 8. 3 节 开 始 ， 我 们 假定 给 定 关系 模式 r(R) ， 并 对 之 进行 规范 化 。 我 们 可 以 采 
用 以 下 几 种 方法 得 到 模式 r(R): 

1.r(R) 可 以 是 由 E-R 图 向 关系 模式 集 进行 转换 时 生成 的 。 

2.7(R) 可 以 是 一 个 包含 所 有 有 意义 的 属性 的 单个 关系 。 然 后 规范 化 过 程 中 将 R 分 解 成 一 些 更 小 
的 模式 。 

3.7(R) 可 以 是 关系 的 即席 设计 的 结果 ， 然 后 我 们 检验 它们 是 否 满足 一 个 期 望 的 范式 。 

在 本 节 的 剩余 的 部 分 ， 我 们 将 考察 这 些 方法 之 间 的 潜在 关系 。 我 们 也 将 考察 数据 库 设计 中 一 些 
实际 的 问题 ,包括 为 了 保证 性 能 的 去 规范 化 ， 以 及 规范 化 时 没 检 测 到 的 不 良 设 计 的 例子 ， 
8.8.1 E-R 模型 和 规范 化 

当 我 们 小 心地 定义 E-R 图 ， 并 正确 地 识别 所 有 的 实体 时 ， 由 E-R 图 生成 的 关系 模式 应 该 就 不 需 
要 太 多 进一步 的 规范 化 。 然 而 ， 一 个 实体 的 属性 之 间 有 可 能 存在 函数 依赖 。 例 如 ， 假 设 instructor KE 
体 集 包含 属性 dept_name 和 dept_address， 并 且 存 在 函数 依赖 dept_name 一 dept_address。 那 么 我 们 就 要 
规范 化 从 instructor 生成 的 关系 。 

大 多 数 这 种 依赖 的 例子 都 是 由 不 好 的 E-R 图 设计 引起 的 。 在 上 面 的 例子 中 ， 如 果 我 们 正确 设计 
E-R 图 ， 我 们 将 创建 一 个 包含 属性 dept_address 的 department 实体 集 以 及 instructor 与 department 之 间 的 
一 个 联系 集 。 同 样 ， 包 含 两 个 实体 集 以 上 的 联系 集 有 可 能 会 使 产生 的 模式 不 属于 所 期 望 的 范式 。 由 
于 大 部 分 的 联系 集 都 是 二 元 的 ， 因 此 这 样 的 情况 相对 稀少 。( 事实 上 ， 某 些 变种 形式 的 上 E-R 图 实际 上 
很 难 或 者 不 可 能 指定 非 二 元 的 联系 集 。) 
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函数 依赖 有 助 于 我 们 检测 到 不 好 的 E-R 设计 。 如 果 生 成 的 关系 模式 不 属于 想 要 的 范式 ， 该 问题 
可 以 在 E-R 图 中 解决 。 也 就 是 说 ， 规 范 化 可 以 作为 数据 建 模 的 一 部 分 规范 地 进行 。 规 范 化 既 可 以 留 
给 数据 库 设 计 者 在 E-R 建 模 时 靠 直觉 实现 ， 也 可 以 从 下-R 模型 生成 的 关系 模式 上 规范 地 进行 ， 二 者 
可 任 选 其 一 。 

细心 的 读者 可 能 注意 到 ， 为 了 解释 多 值 依赖 和 第 四 范式 的 必要 性 ， 我 们 不 得 不 从 一 个 不 是 由 E-R 
设计 导出 的 模式 出 发 。 事 实 上 ,创建 E-R 设计 的 过 程 倾向 于 产生 4NF 设计 。 如 果 一 个 多 值 依赖 成 立 
是 不 是 被 相应 的 函数 依赖 所 隐 仿 的， 那么 它 通常 由 以 下 情况 引起 : 

© 一 个 多 对 多 的 联系 集 。 

。 实体 集 的 一 个 多 值 属性 。 

对 于 多 对 多 的 联系 集 ， 每 个 相关 的 实体 集 都 有 自己 的 模式 ， 并且 存 在 一 个 额外 的 模式 用 于 表示 
联系 集 。 对 于 多 值 属性 ， 会 创建 一 个 单独 的 模式 ,包含 该 属性 以 及 实体 集 的 主 码 ( 正 如 在 实体 集 
instructor 中 的 phone_number 属性 的 例子 一 样 ) 。 

关系 数据 库 设计 的 泛 关系 方法 从 一 个 假设 开始 ， 它 假定 存在 单个 关系 模式 包含 所 有 有 意义 的 属 
性 。 这 单个 模式 定义 了 用 户 和 应 用 程序 如 何 与 数据 库 交 互 。 

8. 8.2 属性 和 联系 的 命名 

数据 库 设 计 的 一 个 期 望 的 特性 是 唯一 角色 假设 (unique-role assumption) ， 这 意味 着 每 个 属性 名 在 
数据 库 中 只 有 唯一 的 含义 。 这 使 得 我 们 不 能 使 用 同一 个 属性 在 不 同 的 模式 中 表示 不 同 的 东西 。 例 如 ， 
相反 地 ， 我 们 可 能 考虑 使 用 属性 number 在 模式 instructor 中 表示 电话 号 码 ， 而 在 模式 classroom 中 表示 
房间 号 。 对 模式 instructor 上 的 一 个 关系 和 模式 classroom 上 的 一 个 关系 进行 连接 是 毫 无 意义 的 。 用 户 
和 应 用 程序 开发 人 员 必 须 小 心 操 作 以 保证 在 每 个 场合 使 用 了 正确 的 number， 而 对 电话 号 码 和 房间 号 
分 别 使 用 不 同 的 属性 名 则 能 减少 用 户 的 错误 。 





虽然 对 不 兼容 的 属性 使 用 不 同 的 名 字 是 个 好 主意 ,但 是 如 果 不 同 关 系 中 的 属性 有 相同 的 含义 ，. 


使 用 相同 的 名 字 可 能 就 是 个 好 主意 了 。 因 此 我 们 对 实体 集 instructor 和 student 使 用 相同 的 属性 名 
“name”。 如 果 不 这 样 ( 即 我 们 对 教师 和 学 生 的 名 字 用 不 同 的 命名 规范 ) ， 那 么 如 果 我 们 想 通过 创建 一 
个 实体 集 person 来 概 化 这 两 个 实体 集 ， 我 们 就 不 得 不 重 命名 属性 。 因 此 ， 即 使 我 们 当前 没有 对 
instructor 和 student 的 概 化 ， 然 而 如 果 我 们 预见 到 这 种 可 能 性 ， 最 好 还 是 在 这 两 个 实体 集 ( 和 关系 ) 中 
使 用 同样 的 名 字 。 

尽管 从 技术 上 看 ,一 个 模式 中 的 属性 名 的 顺序 无 关 紧 要 ， 然 而 习惯 上 把 主 码 属性 列 在 前 面 。 这 
会 使 得 查看 默认 输出 (例如 select * 的 输出 ) 更 加 容易 。 

在 大 的 数据 库 模式 中 ,联系 集 ( 及 其 导出 的 模式 ) 常 常 以 相关 实体 集 名 称 的 拼接 来 命名 ， 可 能 使 
用 连 字符 或 下 划 线 连接 。 我 们 已 经 使 用 了 几 个 这 样 的 名 字 ， 例 如 inst_sec 和 student_sec。 我 们 使 用 名 
字 teaches 和 takes 而 不 使 用 更 长 的 拼接 名 字 。 由 于 对 于 少数 几 个 联系 集 ， 想 起 它们 的 相关 实体 集 并 不 
难 ， 因 而 这 是 可 以 接受 的 。 我 们 无 法 一 直通 过 简单 的 拼接 创建 联系 集 的 名 字 ; 例如 ， 雇 员 之 间 的 管 
理 者 或 被 管理 联系 ， 如 果 我 们 称 之 为 employee_employee 就 没有 什么 意义 。 相 似 地 ， 如 果 一 对 实体 集 
间 可 能 有 多 个 联系 集 ， 联 系 集 的 名 字 就 必须 包含 额外 的 部 分 以 区 别 这 些 联系 集 。 

不 同 的 组 织 对 于 命名 实体 集 有 不 同 的 习惯 。 举 例 来 说 ， 我 们 可 能 称 一 个 学 生 的 实体 集 为 student 
或 者 students。 在 数据 库 设 计 中 我 们 采用 了 单数 形式 。 使 用 单数 或 者 复数 形式 都 是 可 以 接受 的 ， 只 要 
所 有 实体 集 都 一 致 地 使 用 该 习惯 就 可 以 了 。 

随 着 模式 变 得 更 大 ， 联 系 集 的 数量 不 断 增 加 ， 使 用 对 属性 、 联 系 和 实体 一 致 的 命名 方式 会 使 得 
数据 库 设 计 者 和 应 用 程序 员 更 加 轻松 。 

8.8.3 为 了 性 能 去 规范 化 

有 时 候 数 据 库 设 计 者 会 选择 包含 元 余 信息 的 模式 ， 也 就 是 说 ,没有 规范 化 。 对 一 些 特定 的 应 用 ， 
他 们 使 用 元 余 来 提高 性 能 。 不 使 用 规范 化 模式 的 代价 是 用 来 保持 元 余数 据 一 致 性 的 额外 工作 ( 以 编码 
时 间 和 执行 时 间 计 算 ) 。 
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例如 ， 假 定 每 次 访问 一 门 课程 时 ， 所 有 的 先 修 课 都 必须 和 课程 信息 一 起 显示 。 在 规范 化 的 模式 
中 ， 和 需要 连接 course 和 prereg。 

一 个 不 计算 连接 的 方法 是 保存 一 个 包含 course 和 prereg 的 所 有 属性 的 关系 。 这 使 得 显示 "全 部 " 课 
程 信息 更 快 。 然 而 ， 对 于 每 门 先 修 课 都 要 重复 课程 的 信息 ， 而 且 每 当 添 加 或 删除 先 修 课时 应 用 程序 
就 必须 更 新 所 有 的 副本 。 把 一 个 规范 化 的 模式 变 成 非 规范 化 的 过 程 称 为 去 规范 化 (denormalization ) , 
设计 者 用 它 调 整 系统 的 性 能 以 支持 响应 时 间苗 刻 的 操作 。 

现今 许多 数据 库 系统 支持 一 种 更 好 的 方法 ， 即 使 用 规范 化 的 模式 ， 同 时 将 course 和 prereg 的 连接 
作为 物化 视图 额外 存储 。( 回 忆 一 下 ， 物 化 视图 是 将 结果 存储 在 数据 库 中 的 视图 ， 当 它 用 到 的 关系 更 


新 时 也 相应 更 新 。) 像 去 规范 化 一 样 ， 使 用 物化 视图 确实 会 有 空间 和 时 间 上 的 开销 ; 不 过 它 也 有 优点 ， 


就 是 保持 视图 更 新 的 工作 是 由 数据 库 系统 而 不 是 应 用 程序 员 完成 的 。 
8. 8.4 其 他 设计 问题 

数据 库 设 计 中 有 一 些 方面 不 能 用 规范 化 描述 ， 而 它们 也 会 导致 不 好 的 数据 库 设计 。 与 时 间或 时 
间 段 有 关 的 数据 就 存在 这 样 的 问题 。 这 里 我 们 给 出 一 些 例子 ; 显然 ， 这样 的 设计 应 该 避免 。 

考虑 一 个 大 学 数据 库 ， 我 们 想 存 储 不 同年 份 中 每 个 系 的 教师 总 数 。 可 以 用 关系 total_insi( dept_ 
name , year, size ) 来 存储 所 需要 的 信息 。 这 个 关系 上 的 唯一 的 函数 依赖 是 dept_name, year 一 size ， 这 个 
关系 属于 BCNF, 

另 一 个 设计 是 使 用 多 个 关系 ， 每 个 关系 存储 一 个 年 份 的 系 规模 信息 。 假 设 我 们 感 兴 趣 的 年 份 为 
2007 2008 和 2009; 我 们 将 得 到 形 如 total_inst_2007, total_inst_2008, total_inst_2009 这 样 的 关系 ， 
它们 都 建立 在 模式 ( dept_name,， size) 之 上 。 因 为 每 一 个 关系 上 的 唯一 的 函数 依赖 是 dept_name 一 size, 
所 以 这 些 关 系 也 属于 BCNF, 

但 是 ， 这 个 设计 显然 是 一 个 不 好 的 主意 一 一 我 们 必须 每 年 都 创建 一 个 新 的 关系 ,每 年 还 不 得 不 
写 新 的 查询 从 而 把 新 的 关系 考虑 进去 。 由 于 可 能 涉及 很 多 关系 ， 因 此 查询 也 将 更 加 复杂 。 

然而 还 有 一 种 方法 可 以 表示 同样 的 数据 ， 即 建立 一 个 单独 的 关系 dept_year( dept_name , total_inst_ 
2007 , total_inst_2008 , total_inst_2009) 。 这 里 唯一 的 函数 依赖 是 从 dept_name 指向 其 他 属性 的 依赖 ， 
该 关系 也 属于 BCNF。 这 种 设计 也 是 一 个 不 好 的 想法 ， 因 为 它 存在 与 前 面 类 似 的 问题 ， 就 是 每 年 我 们 
都 不 得 不 修改 关系 模式 并 书写 新 的 查询 。 由 于 可 能 涉及 很 多 属性 ， 因 此 查询 也 会 变 得 更 加 复杂 。 

像 dept_year 关系 中 那样 的 表示 方法 ， 属 性 的 每 一 个 值 一列 ， 叫 作 交 叉 表 ( crosstab ) 。 它 们 在 电子 
数据 表 、 报 告 和 数据 分 析 工 具 中 广泛 使 用 。 虽 然 这 些 表示 方法 显示 给 用 户 看 是 很 有 用 的 ， 但 是 由 于 
上 面 给 出 的 原因 ， 它 们 在 数据 库 的 设计 中 并 不 可 取 。 如 5. 6. 1 节 所 述 ， 为 了 显示 方便 ，SQL 扩展 已 
经 提出 了 将 数据 从 规范 化 的 关系 表示 转换 到 交叉 表 的 方法 。 
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假定 我 们 在 大 学 中 保存 的 数据 不 仅 包括 每 个 教师 的 地 址 ， 还 包括 该 大 学 所 知道 的 所 有 以 前 的 地 
址 。 我 们 可 能 提出 诸如 “ 找 出 在 1981 年 居住 在 普林斯顿 的 所 有 教师 "的 查询 。 在 该 情况 下 ， 我 们 可 能 
对 于 每 个 教师 有 多 个 地 址 。 每 个 地 址 有 一 个 关联 的 起 始 日 期 和 终止 日 期 ， 表 示 该 教师 居住 在 该 地 址 
的 时 间 。 对 于 终止 日 期 ， 一 个 特殊 的 值 ， 比 如 空 值 或 者 像 9999 - 12 -31 这 样 的 相当 远 的 未 来 的 值 ， 
可 以 用 来 表示 教师 仍然 居住 在 该 地 址 。 

一 般 来 说 ， 时 态 数据 (temporal data) 是 具有 关联 的 时 间 段 的 数据 ， 在 时 间 段 之 间 数 据 有 效 ( valid) © 。 
我 们 使 用 数据 的 快照 (snapshot) 这 个 术语 来 表示 一 个 特定 时 间 点 上 该 数据 的 值 。 这 样 ，course 数据 的 一 
张 快照 给 出 了 在 一 个 特定 时 间 点 上 的 所 有 课程 的 (诸如 名 称 和 系 等 ) 所 有 属性 的 值 。 

由 于 某 些 原 因 ， 对 时 态 数据 建 模 是 一 个 相当 有 挑战 性 的 问题 。 例 如 ， 假 定 我 们 有 一 个 instructor 实 
体 ， 我 们 希望 它 关联 着 一 个 随时 间 变 化 的 地 址 。 为 了 给 一 个 地 址 加 上 时 态 信 息 ， 我 们 不 得 不 建立 一 个 





加 ”有些 其 他 时 态 数 据 模型 会 区 分 有 效 时 间 ( valid time) 和 事务 时 间 (transaction time) ， 后 者 记录 该 事实 记录 到 数据 库 
中 的 时 间 。 为 简单 起 见 ， 我 们 忽略 这 样 的 细节 。 
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多 值 属性 ， 其 中 的 每 个 值 是 一 个 组 合 值 (包含 一 个 地 址 和 一 个 时 间 段 ) 。 除 了 随时 间 变 化 的 属性 值 ， 实 
体 本 身 可 能 也 要 关联 一 个 有 效 时 间 。 例 如 ， 一 个 学 生 实 体 可 能 有 一 个 从 入 学 日 期 到 毕业 (或 者 离 校 ) 日 
期 的 有 效 时 间 。 联 系 也 可 能 有 关联 的 有 效 时 间 。 例 如 ， 联 系 prereq 可 以 记录 该 课程 成 为 男 一 门 课程 的 
先 修 课 的 时 间 。 这 样 我 们 就 需要 在 属性 值 、 实 体 集 和 联系 集 上 加 上 有 效 时 间 段 。 在 E-R 图 上 增加 这 些 
细节 会 使 其 非常 难于 创建 和 理解 。 当 前 已 经 有 多 个 扩展 E-R 表示 法 的 提案 ， 希 望 用 简单 的 方式 指明 属 
性 值 或 联系 是 随时 间 变 化 的 ， 但 是 至 今 仍 没有 采用 的 标准 。 

当 我 们 随时 间 监 测 数据 值 时 ， 我 们 假定 成 立 的 函数 依赖 ， 如 : 


ID — street, city 


可 能 不 再 成 立 。 而 以 下 约束 (用 自然 语言 表述 ) 则 可 能 成 立 :“ 对 任意 给 定 的 时 间 上 ， 一 个 教师 ID 仅 有 
一 个 street 和 city 的 值 。” 


XX 一 > 了 在 某 个 特定 时 间 点 上 成 立 的 函数 依赖 称 为 时 态 函 数 依赖 。 形 式 化 地 说 ， 时 态 函 数 依赖 


(temporal functional dependency ) X — sY 在 关系 模式 r( R) 上 成 立 的 条 件 是 ， 对 于 r(R) 的 所 有 合法 实例 ， 
r 的 所 有 快照 都 满足 函数 依赖 一 了。 

我 们 可 以 扩展 关系 数据 库 设计 的 理论 ， 把 时 态 函 数 依赖 考虑 进去 。 但 是 ， 使 用 常规 的 函数 依赖 已 
经 很 难于 推理 了 ， 而 且 几 乎 没有 设计 者 做 好 了 处 理 时 态 函 数 依赖 的 准备 。 

在 实践 中 ， 数 据 库 设计 者 退回 到 更 简单 的 方法 来 设计 时 态 数据 库 。 一 个 常用 的 方法 是 设计 整个 数 
据 库 (包括 E-R 设计 和 关系 设计 ) 而 忽略 时 态 改 变 (等 价 于 仅 考虑 一 张 快照 ) 。 在 这 之 后 ， 设 计 者 研究 多 
个 关系 并 决定 哪些 关系 需要 跟踪 时 态 变 化 。 

接 下 来 的 步骤 是 通过 把 起 始 和 终止 时 间作 为 属性 ， 为 每 个 这 样 的 关系 添加 有 效 时 间 信 息 。 例 如 ， 考 
E course 关系 ， 课 程 的 名 称 可 能 随时 间 变 化 ， 这 可 以 通过 添加 一 个 有 效 时 间 范 围 来 处 理 ; 得 到 的 模式 为 

course ( course_id, title, dept_name, start, end) 
该 关系 的 一 个 实例 可 能 有 两 条 记录 (CS -101, “Introduction to Programming” , 1985 -01 —01, 2000 - 12 - 
31) 和 (CS 一 101,“ 了 ntroduction to C”，2001 -01 -01，9999 - 12 -31) 。 如 果 更 新 该 关系 ， 将 该 课程 名 
PRILA “Introduction to Java”， 了 时 间 “9999 - 12 -31” 就 应 该 更 新 为 原来 的 值 (“ Introduction to C” ) 有 效 的 
终止 时 间 ; 然后 加 入 包含 新 名 称 “ Introduction to Java” 和 相应 的 起 始 时 间 的 一 条 新 元 组 。 

如 果 另 一 个 关系 有 一 个 参照 时 态 关 系 的 外 码 ， 数 据 库 设计 者 必须 决定 参照 是 针对 当前 版 本 的 数据 
还 是 一 个 特定 时 间 点 的 数据 。 例 如 ， 我 们 可 以 通过 扩展 department 关系 来 记录 系 的 办 公 楼 和 预算 随时 
间 的 变化 ， 但 是 一 个 来 自 instructor BK student 关系 的 参照 可 能 并 不 关心 以 往 的 办 公 楼 和 预算 ， 而 是 可 能 
隐 含 地 参照 对 应 dept_name 的 时 态 当前 记录 。 另 一 方面 ， 一 个 学 生 的 成 绩 单 记录 应 当 参 照 该 学 生 修 习 该 
课程 期 间 的 课程 名 称 。 在 后 一 种 情况 下 ， 参 照 关 系 必 须 也 记录 时 间 信 息 ， 以 便于 从 course 关系 中 确定 
一 条 特定 的 记录 。 在 我 们 的 例子 中 ， 选 课时 的 year 和 semester 可 以 映射 到 一 个 代表 性 的 时 间 / 日 期 值 ， 
比如 该 学 期 开学 日 的 午夜 ; 该 时 间 / 日 期 值 用 于 从 时 态 course 关系 中 识别 一 条 特定 的 记录 ， 从 中 查询 
title, 

一 个 时 态 关系 中 原始 的 主 码 无 法 再 唯一 地 标识 一 条 元 组 。 为 了 解决 这 个 问题 ， 我 们 可 以 在 主 码 中 
加 入 起 始 和 终止 时 间 属 性 。 但 是 ， 仍 然 留 下 一 些 问题 : 

。 有 可 能 存储 时 间 段 重合 的 数据 ， 该 问题 主 码 约 束 无 法 捕获 。 如 果 系 统 支 持 自 带 的 有 效 时 间 类 

型 ， 它 就 能 够 检测 并 避免 这 种 重 秋 的 时 间 段 。 

。 为 了 指明 参照 这 种 关系 的 外 码 ， 参 照 元 组 必须 包含 起 始 和 终止 时 间 属 性 为 它们 的 外 码 的 一 部 
分 ， 其 值 也 必须 与 被 参照 元 组 相 匹配 。 进 一 步 说 ， 如 果 被 参照 元 组 更 新 (而 且 原本 在 未 来 的 终 
止 时 间 也 更 新 ) ， 则 该 更 新 必须 传播 到 所 有 参照 元 组 。 

如 果 系 统 以 一 种 更 好 的 方式 支持 时 态 数据 ， 我 们 就 能 够 允许 参照 元 组 指定 一 个 时 间 点 而 不 
是 一 个 时 间 范 围 ， 并 且 依 靠 系统 保证 在 被 参照 关系 中 存在 一 条 元 组 ， 该 元 组 的 有 效 时 间 段 包含 
该 时 间 上 点。 例如， 一 条 成 绩 单 记录 可 以 指定 一 个 course_id 和 一 个 时 间 ( 比如 一 个 学 期 的 开学 日 
期 ) ， 这 样 就 足够 在 course 关系 中 识别 正确 的 记录 了 。 
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作为 一 个 常见 的 特例 ， 如 果 所 有 对 时 态 数据 的 参照 都 仅仅 指向 当前 数据 ， 更 简单 的 解决 办 法 是 不 
在 关系 中 添加 时 间 信 息 ， 而 是 为 过 去 的 值 创建 一 个 相应 的 有 时 态 信息 的 history 关系 。 例 如 ， 在 我 们 的 
大 学 数据 库 中 ， 我 们 可 以 使 用 已 经 创建 的 设计 ， 忽 略 时 态 变 化 ， 仅 仅 存储 当前 信息 。 所 有 的 历史 信息 
都 转移 到 历史 关系 中 。 这 样 instructor 关系 可 以 只 存储 当前 地 址 ， 而 关系 instructor _history 可 以 包含 
instructor 所 有 的 属性 ， 以 及 额外 的 start_time 和 end_time 属性 。 

尽管 我 们 没有 提供 任何 处 理 时 态 数据 的 形式 化 方法 ， 我 们 所 讨论 的 问题 和 我 们 所 给 出 的 例子 会 帮 
助 你 设计 记录 时 态 数据 的 数据 库 。 处 理 时 态 数 据 中 的 进一步 的 问题 ， 包 括 时 态 查询 ， 稍 后 将 在 25. 2 节 


讲述 。 
8. 10 总 结 
。 我 们 给 出 了 数据 库 设计 中 易 犯 的 错误 ， 和 怎样 系统 地 设计 数据 库 模式 来 避免 这 些 错误 。 这 些 错误 包 


括 信息 重复 和 不 能 表示 某 些 信息 。 
我 们 给 出 了 从 E-R 设计 到 关系 数据 库 设 计 的 发 展 过 程 ， 什 么 时 候 可 以 安全 地 合并 模式 ， 什 么 时 候 应 
该 分 解 模 式 。 所 有 有 效 的 分 解 都 必须 是 无 损 的 。 
我 们 描述 了 原子 域 和 第 一 范式 的 假设 。 
我 们 介绍 了 函数 依赖 的 概念 ， 并 且 使 用 它 介 绍 两 种 范式 ，Boyce-Codd 范式 (BCNF ) 和 第 三 范式 (3NF ) 。 
如 果 分 解 是 保持 依赖 的 ， 则 给 定 一 个 数据 库 更 新 ， 所 有 的 函数 依赖 都 可 以 由 单独 的 关系 进行 验证 ， 
无 须 计算 分 解 后 的 关系 的 连接 。 
我 们 展示 了 如 何 用 函数 依赖 进行 推导 。 我 们 着 重 讲 了 什么 依赖 是 一 个 依赖 集 逻 辑 蕴 涵 的 。 我 们 还 定 
义 了 正则 覆盖 的 概念 ， 它 是 与 给 定 函 数 依赖 集 等 价 的 最 小 的 函数 依赖 集 。 
© 我 们 概述 了 一 个 将 关系 分 解 成 BCNF 的 算法 ， 有 一 些 关系 不 存在 保持 依赖 的 BCNF 分 解 。 
© 我 们 用 正则 覆盖 将 关系 分 解 成 3NF， 它 比 BCNF 的 条 件 弱 一 些 。 属 于 3NF 的 关系 也 许 会 含有 宛 余 ， 
367 但 是 总 存在 保持 依赖 的 3NF 分 解 。 
© 我 们 介绍 了 多 值 依赖 的 概念 ， 它 指明 仅 用 函数 依赖 无 法 指明 的 约束 。 我 们 用 多 值 依 赖 定义 了 第 四 范 
式 (4NF) 。 附 录 C. 1. 1 给 出 了 有 关 多 值 依赖 推理 的 细节 。 
o 其 他 的 范式 ， 例 如 PJNF 和 DKNF， 消 除了 更 多 细微 形式 的 元 余 。 但是， 它们 难以 操作 而 且 很 少 使 
用 。 附 录 C 给 出 了 这 些 范式 的 详细 信息 。 
。 回顾 本 章 中 的 要 点 可 以 发 现 ， 我 们 之 所 以 可 以 对 关系 数据 库 设计 定义 严格 的 方法 ， 是 因为 关系 数据 模 
型 建立 在 严谨 的 数学 基础 之 上 。 这 是 关系 模型 与 我 们 已 经 学 过 的 其 他 数据 模型 相 比 的 主要 优势 之 一 


术语 回顾 
e E-R 模型 和 规范 化 © Boyce-Codd 范式 ( BCNF) © BCNF 分 解 算法 
。 分 解 © 保持 依赖 。 3NF 分 解 算法 
© 函数 依赖 。 第 三 范式 (3NF) 。 多 值 依赖 
© 无 损 分 解 。 平凡 的 函数 依赖 。 第 四 范式 (4NF ) 
。 原子 域 © 函数 依赖 集 的 闭 包 。 多 值 依赖 的 限定 
e 第 一 范式 (1NF) e Armstrong 公理 e 投影 - 连接 范式 (PJNF) 
。 合法 关系 。 属性 集 闭 包 e 域 - 码 范式 (DKNF ) 
。 超 码 e FER, 上 的 限定 © ZKA 
e REF 。 正则 覆盖 。 唯一 角色 假设 
e FER ERY 。 无 关 属 性 。 去 规范 化 

实践 习题 

8.1 假设 我 们 将 模式 r (A, B, C, D, EE) 分 解 为 

r,(A, B, C) 


n(A, D, E) 
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证 明 该 分 解 是 无 损 分 解 ， 如 果 如 下 函数 依赖 集 玉成 立 : 
A=BC CDE BoD EA 


8.2 列 出 图 8-17 所 示 关 系 满足 的 所 有 函数 依赖 。 


8.3 ”解释 如 何 用 函数 依赖 表明 ; a Bore | 
e 实体 集 student 和 instructor 间 存 在 的 一 对 一 联系 集 . lay | By ey | 
© 实体 集 student 和 instructor 间 存 在 的 多 对 一 联系 集 。 | Š E 
8.4 用 Armstrong 公理 证 明 合 并 律 的 正确 有 效 性 。( 提示: 使 用 增补 律 可 证 , # alul e 
a 一 B， 则 a 一 aq8B。 再 次 使 用 增补 律 ， 利 用 a 一 y， 然 后 使 用 传递 律 。) ES 
8.5 用 Armstrong 公理 证 明 擅 传递 律 的 正确 有 效 性 。 alta i 


8.6 计算 关于 关系 模式 r (4, B, C, D, 巨 ) 的 如 下 函数 依赖 集 FA. 
4 一 BC 
CD — E 
B—D 
E—A 
Ft R 的 候选 码 。 
8.7 用 习题 8.6 中 的 函数 依赖 计算 正则 覆盖 F.o 
8.8 考虑 图 8-18 中 计算 a’ 的 算法 。 证 明 该 算法 比 图 8-8(8.4.2 节 ) 中 提出 的 算法 更 高 效 ， 并 且 能 正确 计 
Fa’. 








result; =Ø; 
/* fdcount 是 一 个 数组 ， 它 的 第 i 个 元 素 包 含 即将 属于 a + 的 第 i 个 函数 依赖 左 半 部 的 属性 个 数 * / 
fori := l to | Fl do 
begin 
ota ed 
Zaire [i]: | Bl 
/ * appears 是 一 个 数组 ， 每 个 属性 对 应 数组 的 一 个 人 口 。 属 性 4 的 入 口 是 一 列 整数 ， 该 列 中 每 个 整数 i 指明 4 出 现在 
第 i 个 函数 依赖 的 左 半 部 */ 
for each 属性 4 do 
begin 
appears [A] := NIL; 
fori := l to | FI do 


令 B 一 y 表 示 第 :个 函数 依赖 ; 
if A e B then 把 i 加 到 appears [A] F; 
end 
end 
addin (a) ; 
return (result) ; 


procedure addin (a) ; 
for each a 中 的 属性 4 do 
begin 
if A ¢ result then 
begin 
result := result U |A}; 
for each appears| A | JC i do 
begin 
fdcount [i] := fdcount [i] -1; 
if fdcount [i]; = 0 then 
begin 
SB y RANA i TH PRR ; 
addin (y); 
end 
end 
end 





end 











图 8-18 ”一 个 计算 a’ 的 算法 
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8.9 给 定数 据 库 模式 R(a, b,c) 及 模式 R 上 的 关系 r， 写 出 检验 函数 依赖 5 一 c 是 否 在 关系 r 上 成 立 的 SQL 
查询 。 并 写 出 保证 函数 依赖 的 SQL 断言 。 假 设 不 存在 空 值 。( 虽然 SQL 标准 中 的 某 些 部 分 ， 诸 如 断言 
等 目前 还 没有 在 任何 数据 库 实 现 中 得 到 支持 。) 
8.10 我们 对 无 损 连 接 分 解 的 讨论 隐 含 假设 了 函数 依赖 左 部 的 属性 不 能 为 空 值 。 如 果 违 反 了 这 个 性 质 ， 在 分 
解 中 可 能 会 出 现 什 么 错误 ? 
8.11 Æ BCNF 分 解 算法 中 ， 假设 你 用 一 个 函数 依赖 a 一 B 将 关系 模式 r (a, B, y) HAT (a, B) Ar. (a, 
Y) 。 
a. 你 预期 在 分 解 后 的 关系 上 有 什么 样 的 主 码 和 外 码 约束 成 立 ? 
b. 如 果 在 上 述 分 解 后 的 关系 上 没有 强制 实施 外 码 约束 ， 给 出 一 个 由 于 错误 更 新 而 导致 不 一 致 的 例子 。 
c 当 用 8. 5. 2 节 中 的 算法 将 一 个 关系 分 解 为 3NF 时 ， 你 预期 将 有 什么 样 的 主 码 和 外 码 依赖 在 分 解 后 
的 模式 上 成 立 ? 
8.12 $R, R, =, R, 为 模式 U 的 分 解 。 令 (UU) 为 一 个 关系 ， 并且 令 7, = Tr (u)。 
证 明 
uCrMrM.:.. Xr, 
8. 13 ”证 明 实践 习题 8. 1 中 的 分 解 不 是 保持 依赖 的 分 解 。 
证 明 有 可 能 通过 保证 至 少 有 一 个 模式 包含 被 分 解 模 式 的 候选 码 来 确保 一 个 保持 依赖 的 3NF 模式 分 解 
是 一 个 无 损 分 解 。( 提示 : 证 明 到 分 解 后 模式 上 的 所 有 的 投影 的 连接 不 会 具有 比 原 关 系 多 的 元 组 .) 
给 出 一 个 关系 模式 R' 及 函数 依赖 集 的 例子 ， 使 得 至 少 有 三 种 不 同 的 无 损 分 解 可 将 R' 转 化 为 BCNF 
令 主 (prime) 属 性 为 至 少 在 一 个 候选 码 中 出 现 的 属性 。 令 a 和 BB 为 属性 集 ， 使 得 a 一 8 成 立 但 B 一 a 
不 成 立 。 令 4 为 一 属性 , 它 不 属于 a 或 B, 并 且 B6 一 4 成立。 我 们 称 4 传递 依赖 (transitively 
dependent) 于 a。 我 们 可 以 重新 如 下 定义 3NF: 具有 函数 依赖 集 的 关系 模式 R 属于 3NF， 如 果 R 中 
没有 非 主 属性 A 传递 依赖 于 R 的 一 个 码 。 证 明 这 个 新 定义 等 价 于 原 定义 。 
8. 17 函数 依赖 a 一 B 称 为 部 分 依赖 ( partial dependency) 的 条 件 是 ， 存 在 a 的 真子 集 y 使 得 y 一 B。 我 们 称 
B 部 分 依赖 于 a。 关系 模式 R 属于 第 二 范式 ( Second Normal Form，2NF) ， 如 果 R 中 的 每 个 属性 A 都 满 
足 如 下 准则 之 一 : 
。 它 出 现在 一 个 候选 码 中 。 
© 它 没有 部 分 依赖 于 一 个 候选 码 。 
证 明 每 个 3NF 模式 都 属于 2NF。( 提 示 : 证 明 每 个 部 分 依赖 都 是 传递 依赖 。) 
8.18 给 出 一 个 关系 模式 R AMRIT, E14 RR BCNF， 但 不 属于 4NF-。 


g9 
= 
FN 


po 90 
a 
Ou 


8.19 给 出 实践 习题 8. 1 中 模式 R 的 一 个 无 损 连 接 的 BCNF 分 解 。 
8.20 给 出 实践 习题 8. 1 中 模式 R 的 一 个 无 损 连接 并 保持 依赖 的 3NF 分 解 。 
8.21 将 具有 如 下 约束 的 下 列 模式 规范 化 为 4NF。 
books (accessionno, isbn, title, author, publisher) 
users (userid, name, deptid, deptname ) 
accessionno — isbn 
isbn — title 
isbn — publisher 
isbn —— author 
userid — name 
userid — deptid 
deptid — deptname 
8.22 解释 什么 是 信息 重复 和 无 法 表示 信息 。 解 释 为 什么 这 些 性 质 可 能 意味 着 不 好 的 关系 数据 库 设 计 。 
8.23 Att A Rete R Be RRR A -F A BY Ba? 
8.24 使 用 函数 依赖 的 定义 论证 Armstrong 公理 ( 自 反 律 、 增 补 律 、 传 递 律 ) 是 正确 有 效 的 。 
8.25 考虑 下 面 提 出 的 函数 依赖 规则 : 若 a 一 B6 且 yy 一 B， 则 a 一 y。 通 过 给 出 一 个 关系 r, 满足 a 一 B 且 
y 一 B 但 不 满足 a 一 y， 证 明 该 规则 不 是 正确 有 效 的 。 
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8.26 用 Armstrong 公理 证 明 分 解 律 的 正确 有 效 性 。 
8.27 用 实践 习题 8. 6 中 的 函数 依赖 计算 B . 
8. 28 证 明 实践 习题 8. 1 中 的 模式 R 的 如 下 分 解 不 是 无 损 分 解 : 
(A, B, C) 
(C, D, E) 
提示 : 给 出 模式 R 上 一 个 关系 r MBIT, 14 
Ia. 2, c(r) xl Tle, s,s(7) 天 了 
8.29 考虑 如 下 关系 模式 r(4, B,C, D, 天) 上 的 函数 依赖 集 F: 
A — BCD 
BC — DE 
有 一 也 
D—-A 
a. 计算 B*。 
b. (使 用 Armstrong 公理 ) 证 明 AF 是 超 码 。 
c. 计算 上 述 函 数 依赖 集 F 的 正则 覆盖 ; 给 出 你 的 推导 的 步骤 并 解释 。 
d. 基于 正则 覆盖 ， 给 出 7 的 一 个 3NF 分 解 。 
e 利用 原始 的 函数 依赖 集 ， 给 出 > 的 一 个 BCNF 分 解 。 
f 你 能 否 利用 正则 覆盖 得 到 与 上 面 的 r 相同 的 BCNF 分 解 ? 
8.30 列 出 关系 数据 库 设计 的 三 个 目标 ， 并 解释 为 什么 要 达到 每 个 目标 。 
8.31 在 关系 数据 库 设 计 中 ， 为 什么 我 们 有 可 能 会 选择 非 BCNF 设计 ? 
8.32 给 定 关 系数 据 库 设计 的 三 个 目标 ， 有 没有 理由 设计 一 个 属于 2NF 但 不 属于 任何 一 个 更 高 范式 的 数据 
库 模 式 ? (2NF 的 定义 参见 实践 习题 8. 17。 ) 
8.33 给 定 一 个 关系 模式 r(4, B, C, D) ，4 一 一 BC 是 否 逻 辑 蕴 涵 4 一 一 B 和 4 一 一 C? 如 果 是 请 证 明之 ， 
否则 给 出 一 个 反例 。 
8.34 解释 为 什么 4NF 是 一 个 比 BCNF 更 好 的 范式 。 


文献 注解 


对 于 关系 数据 库 设计 理论 最 初 的 讨论 是 在 Codd[ 1970] 这 篇 早期 论文 中 。 在 那 篇 论文 中 ，Codd 51AT A 
数 依赖 ， 以 及 第 一 、 第 二 和 第 三 范式 。 

Armstrong 公理 是 由 Armstrong[ 1974] 引 入 的 。 在 20 世纪 70 年 代 后 期 关系 数据 库 理 论 有 了 显著 的 进展 。 
这 些 结果 收集 在 一 些 数据 库 理论 的 课本 中 ， 包 括 Maier[ 1983 ] Atzeni 和 Antonellis[ 1993 ] 以 及 Abiteboul 等 
[1995]. 

BCNF 是 在 Codd[ 1972] 中 引入 的 。Biskup 等 [1979] 给 出 了 用 于 找到 无 损 并 保持 依赖 的 3NF 分 解 的 算法 。 
有 关 无 损 分 解 特性 的 基础 结论 在 Aho 等 [1979a] 中 给 出 。 

Beeri 等 [1977] 给 出 了 一 组 多 值 依赖 的 公理 ， 并 证 明 这 些 公 理 是 正确 有 效 且 完备 的 。4NF、PJNF 和 
DKNF 的 概念 分 别 来 自 Fagin[ 1977] 、Fagin[ 1979] 和 Fagin[ 1981 ] 。 关 于 规范 化 的 进一步 的 参考 文献 ， 请 参 
看 附录 C 中 的 文献 注解 。 

Jensen 等 [1994 ] 给 出 了 一 个 时 态 数据 库 概 念 的 术语 表 。Gregersen 和 Jensen[ 1999 ] 给 出 了 一 个 对 E-R 建 
模 进行 扩展 以 处 理 时 态 数 据 的 综述 。Tansel 等 [1993 ] 探讨 了 时 态 数据 库 的 理论 、 设 计 和 实现 。Jensen 等 
[1996 | 描述 了 将 依赖 理论 扩展 至 时 态 数据 的 方法 。 
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应 用 设计 和 开发 





实际 上 ， 对 数据 库 的 所 有 应 用 都 发 生 在 应 用 程序 内 。 相 应 地 ， 几 乎 所 有 的 用 户 与 数据 库 之 间 的 交 
互 都 是 通过 应 用 程序 间接 发 生 的 。 因 此 毫 不 奇怪 ， 数 据 库 系统 长 期 以 来 都 支持 诸如 表单 和 GUI 构建 器 
等 工具 ， 用 于 快速 开发 与 用 户 交互 的 应 用 程序 。 近 几 年 来 ，Web 已 成 为 最 广泛 使 用 的 数据 库 用 户 界面 ， 

在 本 章 中 ， 我 们 学 习 建 立 应 用 程序 所 需要 的 工具 和 技术 ， 集 中 关注 那些 使 用 数据 库存 储 数 据 的 交 
互 式 应 用 程序 。 

在 9. 1 节 对 应 用 程序 和 用 户 界面 的 介绍 后 ， 我 们 集中 关注 基于 Web 界面 的 应 用 的 开发 。 首 先 9. 2 
节 对 Web 技术 进行 概述 ， 然 后 9. 3 节 讨 论 广泛 用 于 构建 Web 应 用 的 Java Servlet 技术 。9. 4 节 简 要 介绍 
Web 应 用 程序 体系 架构 。9. 5 节 讨 论 快速 应 用 程序 开发 工具 ， 而 9.6 节 介 绍 构建 大 型 Web 应 用 程序 中 
的 性 能 问题 。9. 7 节 讨 论 应 用 程序 安全 的 问题 。 用 9. 8 节 结 束 本 章 ， 其 中 对 加 密 及 它 在 应 用 程序 中 的 使 
用 进行 了 介绍 。 


91 应 用 程序 和 用 户 界面 


尽管 许多 人 和 数据 库 打交道 ,但 很 少 有 人 用 查询 语言 直接 跟 数据 库 系统 交互 。 用 户 与 数据 库 交互 
时 最 常用 的 方法 是 通过 一 个 应 用 程序 ， 它 在 前 端 提 供用 户 界面 ， 并 在 后 端 提供 数据 库 接口 。 这 种 应 用 
程序 通常 是 通过 一 个 基于 表格 的 界面 从 用 户 得 到 输入 ， 然 后 根据 用 户 输入 或 将 数据 输入 数据 库 或 从 数 
据 库 中 抽取 信息 ， 并 产生 输出 展示 给 用 户 。 

375 举 个 应 用 程序 的 例子 ， 考 虑 一 个 大 学 注册 系统 。 和 其 他 这 种 应 用 程序 类 似 ， Som tt 
标识 并 认证 你 自己 ， 通 常 使 用 用 户 名 和 密码 。 然 后 ， 应 用 程序 使 用 你 的 身份 从 数据 库 中 抽取 信息 ， 上 
Then Eee, GR, CORT I oc, cae en 
多 种 其 他 的 信息 ， 比 如 课程 信息 和 教师 信息 。 组 织 机 构 使 用 这 种 应 用 程序 以 自动 完成 多 种 任务 ， 例 如 
出 售 、 购 买 、 会 计 和 薪资 、 人 力 资源 管理 以 及 库存 管理 等 。 

应 用 程序 有 可 能 正在 使 用 ， 即 使 不 能 明显 地 看 出 来 它们 正在 使 用 。 例 如 ， 一 个 新 闻 网 站 可 以 提供 
对 个 人 用 户 透 明定 制 的 页 面 ， 即 使 该 用 户 在 和 网 站 交互 时 并 没有 显 式 填写 任何 表单 。 为 了 做 到 这 点 ， 
它 实际 上 运行 了 一 个 对 每 个 用 户 生 成 定制 页 面 的 应 用 程序 ， 例如， 定制 可 以 基于 用 户 浏览 文章 的 历史 。 

一 个 典型 的 应 用 程序 包括 一 个 处 理 用 户 界面 的 前 端 部 分 、 一 个 和 数据 库 通 信 的 后 端 部 分 ， 以 及 一 
个 包含 “业务 逻辑 "的 中 间 层 ， 即 执行 特定 的 信息 请 求 或 更 新 的 代码 ， 强 制 执行 诸如 为 了 执行 给 定 任务 
应 该 采取 什么 行动 ,或 者 谁 可 以 执行 什么 任务 的 业务 规则 。 

如 图 9-1 所 示 ， 应 用 程序 体系 架构 随时 间 而 演变 。 诸 如 航班 预订 的 应 用 程序 自 20 世纪 60 年 代 以 
来 一 直 在 使 用 。 在 计算 机 应 用 早期 ， 应 用 程序 运行 在 一 台大 的 “主机 "计算 机 上 ， 用 户 通过 终端 与 应 用 
程序 交互 ， 其 中 一 些 终端 甚至 支持 表格 。 

随 着 个 人 计算 机 使 用 的 普及 ， 许 多 机 构 对 内 部 应 用 程序 使 用 了 一 个 不 同 的 体系 架构 ， 其 中 应 用 程 
序 在 用 户 的 计算 机 上 运行 并 访问 中 央 数 据 库 。 这 个 架构 通常 称 作 “客户 - 服务 器 "架构 ， 它 允许 创建 强 
大 的 图 形 用 户 界面 ， 这 是 早期 基于 终端 的 应 用 所 不 支持 的 。 然 而 ， 软 件 必须 安装 在 每 个 用 户 的 机 器 上 
以 运行 应 用 程序 ， 这 就 使 得 诸如 升级 的 任务 比较 困难 。 即 使 在 客户 - 服务 器 架构 流行 的 个 人 计算 机 时 

[376] 代 , 诸如 航班 预订 这 种 从 大 量 地 理 上 分 布 的 位 置 使 用 的 应 用 程序 仍旧 选择 主机 架构 。 
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a) 主机 时 代 b) 个 人 计算 机 时 代 
图 9-1 不 同时 期 的 应 用 架构 





在 过 去 的 15 年 中 ，Web 浏览 器 已 成 为 数据 库 应 用 程序 的 通用 前 端 ， 它 通过 互联 网 连接 后 端 。 浏 览 器 使 
用 一 种 标准 的 语法 ， 超 文本 标记 语言 ( HyperText Markup Language, HTML) 标准 ， 它 既 支 持 信息 的 格式 
化 显示 ， 又 支持 基于 表格 的 界面 的 创建 。HTML 标准 是 独立 于 操作 系统 或 浏览 器 的 ， 并 且 目 前 几乎 每 
台 计 算 机 都 安装 了 Web 浏览 器 。 因 此 一 个 基于 Web 的 应 用 程序 可 被 任何 一 台 连 接 到 互联 网 的 计算 机 
访问 。 

与 客户 - 服务 器 架构 不 同 ， 要 使 用 基于 Web 的 应 用 程序 不 需要 在 客户 机 上 安装 任何 特定 于 应 用 的 
软件 。 然 而 ， 支 持 远 超过 普通 HTML 所 能 提供 的 功能 的 复杂 用 户 界面 在 目前 广泛 使 用 ， 并 且 是 用 大 多 
数 Web 浏览 器 都 支持 的 脚本 语言 JavaScript 构建 的 。 与 用 C 写 的 程序 不 同 ，JavaSeript 程序 可 以 运行 在 
安全 模式 下 ， 保 证 它们 不 会 导致 安全 问题 。JavaSceript 程序 被 透明 地 下 载 到 浏览 器 上 ， 且 不 需要 用 户 的 
计算 机 上 任何 显 式 的 软件 安装 。 

Web 浏览 器 提供 用 户 交 互 前 端的 同时 ， 应 用 程序 构成 了 后 端 。 通 常 ， 来 自 浏览 器 的 请 求 发 送 到 Web 服 
务 器 ， 它 依次 执行 应 用 程序 以 处 理 请 求 。 有 多 种 技术 都 可 以 用 于 创建 运行 在 后 端的 应 用 程序 ， 包 括 Java 
servlet, Java Server Pages(JSP) 、Active Server Pages( ASP) ,或 者 脚本 语言 ， 比 如 PHP. Perl 或 Python, 

本 章 其 余部 分 讲述 如 何 构建 这 些 应 用 。 首 先 介绍 用 于 构建 Web 界面 的 Web 技术 和 工具 及 构建 应 用 
程序 的 技术 ， 然 后 介绍 应 用 架构 ， 以 及 应 用 程序 构建 中 的 性 能 和 安全 问题 。 


9.2 Web 基础 


在 本 节 中 ,我 们 为 了 那些 不 熟悉 Web 底层 技术 的 读者 ， 回 顾 一 下 万 维 网 背后 的 一 些 基 本 技术 。 
9.2.1 统一 资源 定位 符 
统一 资源 定位 符 ( Uniform Resource Locator, URL) 是 Web 上 每 个 可 访问 文档 在 全 球 唯一 的 名 字 。 
URL 的 一 个 例子 如 下 : 
http: //www. acm. org/sigmod 


URL 的 第 一 部 分 表明 文档 如 何 被 访问 :“http” 表 明文 档 将 用 超 文 本 传输 协议 ( HyperText Transfer 
Protocol，HTTP) 访 问 ， 这 是 一 个 传输 HTML 文档 的 协议 。 第 二 部 分 给 出 一 台 具 有 Web 服务 器 的 机 器 的 
名 称 。URL 的 其 余部 分 是 文件 在 机 器 上 的 路 径 名 ， 或 者 文档 在 机 器 中 其 他 的 唯一 标识 符 。 

URL 可 以 包含 位 于 Web 服务 器 上 程序 的 标识 符 ， 以 及 传递 给 程序 的 参数 。 这 样 的 URL 的 一 个 例 
fie: 

http: //www. google. com/search? q = silberschatz 
它 指 出 ，www. google. com 服务 器 上 的 程序 search 应 该 执行 ， 并 带 有 参数 q = silberschatz。 接 收 到 这 个 
URL 请 求 时 ，Web 服务 器 使 用 给 定 的 参数 执行 该 程序 。 该 程序 返回 一 个 HTML 文档 给 Web 服务 器 ， 它 
将 该 文档 传送 到 前 端 。 
9.2.2 超 文 本 标记 语言 

图 9-2 是 一 个 使 用 HTML 格式 表示 的 表 的 例子 ， 而 图 9-3 表示 浏览 器 根据 HTML 表示 的 表 而 产生 的 
显示 图 像 。HTML 源 文本 显示 了 一 些 HTML 标签 。 每 个 HTML 页 应 包含 在 html 标签 内 ， 该 页 的 主体 包 
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SHE body 标签 中 。 表 用 table 标签 表示 ， 其 中 包含 的 行 用 tr 标签 表示 。 表 的 表 头 行 有 用 标签 也 说 明 的 
表单 元 ， 而 普通 行 有 用 标签 td 说 明 的 表单 元 。 这 里 不 再 对 标签 进行 更 详细 的 介绍 ， 关 于 HTML 的 更 多 
信息 ， 请 参看 文献 注解 中 的 参考 文献 。 

图 9-4 展示 了 如 何 表 示 一 个 允许 用 户 从 菜单 中 选择 人 员 类 型 (学 生 或 教师 ) 以 及 允许 用 户 向 文本 框 
中 输入 一 个 数 的 HTML 表单 。 图 9-5 展示 了 以 上 表单 如 何在 Web 浏览 器 中 显示 。 表 单 中 表示 了 两 种 接 
受 输入 的 方式 ， 但 是 HTML 还 支持 几 种 其 他 的 输入 方式 。form 标签 的 action 属性 表示 当 提 交 表 单 时 ( 通 
过 点 击 提交 按键 ) ， 表 单数 据 应 发 送 到 URL PersonQuery( 该 URL 是 相对 于 页 面 的 URL), Web 服务 咒 被 
设置 成 当 该 URL 被 访问 时 ， 便 调用 相应 的 带 有 用 户 提供 的 参数 值 persontype 和 name( 在 select 和 input 
域 中 指定 ) 的 应 用 程序 。 该 应 用 程序 生成 一 个 HTML 文档 ， 该 文档 随即 传送 回去 并 显示 给 用 户 ; 我 们 将 
在 本 章 的 后 面 看 到 如 何 创 建 这 种 程序 。 


<html> 

<body> 

<table border> 

<tr> <th>ID</th> <th>Name</th> <th>Department</th> </tr> 
<tr> <td>00128</td> <td>Zhang</td> <td>Comp. Sci.</td> </tr> 
<tr> <td>12345</td> <td>Shankar</td> <td>Comp. Sci.</td> </tr> 
<tr> <td>19991</td> <td>Brandt</td> <td>History</td> </tr> 
</table> 











图 9-2 HTML 格式 的 表格 数据 





Ol 


19991 





图 9-3 图 9-2 中 HTML 源 文本 的 显示 


<html> 

<body> 

<form action="PersonQuery" method=get> 

Search for: 

<select name="persontype"> 
<option value="student" selected> Student </option> 
<option value="instructor’> Instructor </option> 

</select> <br> 


Name: <input type=text size=20 name="name"> 
<input type=submit value="submit" > 
</form> 





9-4 一 个 HTML 表单 


HTTP 定义 了 两 种 将 用 户 在 Web 浏览 器 端 输入 的 值 发 送 到 Web 服务 器 Search for: (Student) 
的 方式 。get 方法 将 值 编码 为 URL 的 一 部 分 。 例 如 ， 如 果 Google 搜索 页 使 上 SS 


用 一 个 表单 ， 包 含 一 个 名 为 q 的 get 方法 的 输入 参数 ， 并 且 用 户 键 人 字符 Wos 图 94 中 ML 
串 “silberschatz" 并 提交 该 表单 ， 浏 览 器 将 会 向 Web 服务 器 请 求 如 下 源 文 本 的 显示 








378 的 URL; 


379 


http: //www. google. com/search? q = silberschatz 


而 post 方法 将 会 向 www. google. com 页 面 发 送 一 个 请 求 ， 并 将 参数 的 值 作 为 Web 服务 器 和 浏览 器 间 交 换 
的 HTTP 协议 的 一 部 分 发 送 。 图 9-4 中 的 表单 表示 该 表单 使 用 get 方法 。 

尽管 HTML 代码 可 以 用 普通 的 文本 编辑 器 创建 ， 但 是 存在 若干 种 可 以 使 用 图 形 界 面 直接 创建 
HTML 文本 的 编辑 器 。 这 些 编辑 器 允许 从 菜单 中 选择 诸如 表单 、 菜 单 和 表 这 样 的 结构 加 入 到 HTML X 
档 中 ， 而 不 是 手工 输入 生成 这 些 结构 的 代码 。 
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HTML 支持 样式 表 ( stylesheet) ， 它 可 以 改变 如 何 显示 HTML 格式 化 结构 的 默认 定义 ， 以 及 其 他 显示 
属性 ， 如 页 面 的 背景 颜色 等 。 层 址 式样 式 表 ( Cascading StyleSheet, CSS) 标准 允许 同一 个 样式 表 用 于 多 
个 HTML 文档 ， 使 一 个 Web 站 点 上 的 所 有 页 面具 有 独特 而 统一 的 样式 。 


9. 2.3 Web 服务 器 和 会 话 

Web 服务 器 (Web Server) 是 运行 于 服务 器 上 的 程序 ， 它 接收 来 自 于 Web 浏览 器 的 请 求 并 以 HTML 
文档 的 形式 返回 结果 。 浏 览 器 和 Web 服务 器 通过 HTTP 通信 。Web 服务 器 提供 了 强大 的 功能 ， 而 不 只 
是 简单 的 文档 传输 。 最 重要 的 功能 是 具有 带 用 户 提 供 的 参数 执行 程序 ， 并 以 HTML 文档 形式 传送 回 结 
果 的 能 力 。 

所 以 ，Web 服务 器 可 以 作为 中 介 提 供 对 多 种 信息 服务 的 访问 。 一 个 新 的 服务 可 以 通过 创建 并 安装 
提供 服务 的 应 用 程序 而 创建 。 公 共 网 关 接 口 ( Common Gateway Interface, CGI) 标准 定义 了 Web 服务 器 如 
何 与 应 用 程序 通信 。 应 用 程序 通常 通过 ODBC, JDBC 或 者 其 他 协议 与 数据 库 服 务 器 通信 ， 以 获取 或 存 
储 数据 。 ; 

9-6 显示 了 一 个 使 用 三 层 体系 结构 搭建 的 Web 应用， 包括 一 个 Web 服务 器 、 一 个 应 用 服务 器 和 
一 个 数据 库 服务 器 。 使 用 多 级 服务 器 增加 了 系统 的 开销 ; CGI 接口 为 每 个 请 求 都 开启 一 个 新 的 进程 为 
之 服务 ， 这 导致 甚至 更 大 的 开销 。 








应 用 服务 器 














图 9-6 三 层 Web 应 用 体系 结构 


因此 目前 大 多 数 Web 应 用 使 用 一 种 两 层 的 Web 应 用 体系 结构 ， 其 中 应 用 程序 运行 在 Web 服务 吕 
中 ， 如 图 9-7 所 示 。 下 面 的 章节 将 更 加 详细 地 研究 基于 两 层 体系 结构 的 系统 。 














图 9-7 两 层 Web 应 用 体系 结构 


在 客户 端 与 Web 服务 器 之 间 不 存在 持续 的 连接 ; 当 Web 服务 器 接收 到 一 个 请 求 时 ， 临 时 创建 一 个 
连接 以 发 送 请 求 并 接收 来 自 Web 服务 器 的 响应 。 但 是 该 连接 可 能 会 关闭 ， 且 下 一 个 请 求 可 以 生成 一 个 
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新 的 连接 。 与 此 相反 ， 当 一 个 用 户 登 录 计 算 机 ， 或 是 使 用 ODBC 或 JDBC 连接 到 数据 库 时 ， 会 创建 一 
个 会 话 ， 且 会 话 信息 保留 在 服务 器 和 客户 端 ， 直 到 会 话 结束 一 一 信息 包括 诸如 该 用 户 的 用 户 标 识 符 和 
用 户 已 设置 的 会 话 参 数 等 。HTTP 协议 是 无 连接 (connecetionless ) 的 一 个 重要 原因 在 于 ， 大 多 数 计算 机 能 
同时 容纳 的 连接 数目 是 有 限 的 。 如 果 Web 中 大 量 的 站 点 对 单 台 服务 器 建立 连接 ， 就 会 超过 限制 ， 拒 绝 
后 续 用 户 的 服务 。 而 使 用 无 连接 协议 ， 当 满足 了 请 求 时 连接 就 可 以 马上 断 开 ， 为 其 他 请 求 “ 留 出 可 用 
连接 。 
但 是 ， 大 多 数 Web 应 用 需要 会 话 信息 ， 以 允许 有 意义 的 用 户 交 互 。 例 如 ， 应 用 程序 通常 限制 对 信 
380) 息 的 访问 ， 且 因此 需要 认证 用 户 。 每 次 会 话 应 进行 一 次 认证 ， 会 话 中 进一步 的 交互 应 不 需 重 新 认证 。 
381 尽管 连接 会 关闭 ， 但 为 了 实现 会 话 ， 需 要 在 客户 端 存储 额外 的 信息 ， 并 随 会 话 中 的 每 个 请 求 返 回 ; 
服务 器 使 用 这 个 信息 来 辨别 出 请 求 是 用 户 会 话 的 一 部 分 。 关 于 会 话 的 额外 信息 同样 必须 在 服务 器 端 
维护 。 
这 种 额外 信息 通常 以 网 络 跟踪 器 ( cookie) 的 形式 保存 在 客户 端 ; 简单 来 说 ， 一 个 cookie 是 一 小 段 
包含 标识 信息 的 文本 ， 并 关联 一 个 名 字 。 例 如 ，google. com 可 能 设置 一 个 名 为 prefs 的 cookie, CAR 
用 户 设置 的 偏好 信息 ， 比 如 语言 偏好 和 每 页 显示 的 结果 数目 。 对 于 每 个 搜索 请 求 ，google. com 都 能 从 
用 户 的 浏览 器 中 得 到 这 个 名 为 prefs 的 cookie， 然 后 根据 指定 的 偏好 显示 结果 。 一 个 域 ( Web 站 点 ) 只 能 
获取 它 自己 设置 的 cookie， 而 不 能 得 到 别 的 站 点 设置 的 cookie， 而 且 cookie 名 可 以 跨 域 复 用 。 
为 了 跟踪 用 户 会 话 的 目的 ， 应 用 程序 可 能 会 产生 一 个 会 话 标识 符 ( 通 常 是 一 个 当前 没有 用 作 会 话 
标识 符 的 随机 数 ) ， 然 后 发 送 一 个 包含 这 个 会 话 标识 符 的 名 为 (比如 ) seessionid 的 cookie。 该 会 话 标识 
符 也 保存 在 服务 器 本 地 。 当 一 个 请 求 进来 时 ， 应 用 服务 器 向 客户 端 请 求 名 为 sessionid 的 cookie。 如 果 
客户 端 没 有 存储 该 cookie， 或 者 返回 的 值 不 是 当前 在 服务 器 中 记录 的 有 效 会 话 标识 符 ， 应 用 程序 就 认 
为 该 请 求 不 是 当前 会 话 的 一 部 分 。 如 果 cookie 的 值 与 一 个 存储 的 会 话 标 识 符 匹配 ， 则 该 请 求 就 被 识别 
为 一 个 进行 中 的 会 话 的 一 部 分 。 
如 果 一 个 应 用 需要 安全 地 鉴别 用 户 ， 则 它 只 能 在 对 用 户 认证 之 后 设置 cookie; 例如 ， 用 户 只 有 在 
提交 了 有 效 的 用 户 名 和 密码 之 后 才能 通过 认证 。 = 
对 于 不 需要 高 安全 性 的 应 用 ， 比 如 公开 的 新 闻 站 点 ，cookie 可 以 永久 存储 在 浏览 器 和 服务 器 中 ; 
它们 识别 出 用 户 对 同一 个 网 站 的 后 续 访 问 ， 而 不 需要 输入 任何 认证 信息 。 对 于 要 求 更 高 安全 性 的 应 用 ， 
服务 器 可 能 会 在 有 效 期 过 后 或 用 户 注销 时 使 会 话 无 效 (丢弃 )。( 通 常用 户 通 过 点 击 一 个 注销 按钮 来 注 
销 ， 它 会 提交 一 个 注销 表单 ， 其 动作 就 是 使 当前 会 话 失效 ,) 使 一 个 会 话 失 效 仅仅 是 在 应 用 服务 器 中 的 
活动 会 话 列 表 里 丢 弃 该 会 话 标识 符 。 


9.3 servlet 和 JSP 


在 两 层 Web 体系 结构 中 ， 应 用 程序 作为 Web 服务 器 本 身 的 一 部 分 运行 。 实 现 这 种 体系 结构 的 一 个 
方法 是 将 Java 程序 加 载 到 Web 服务 器 中 。Java servlet 规格 说 明定 义 了 一 种 Web 服务 器 与 应 用 程序 间 通 
信 的 应 用 程序 编程 接口 。Java 中 的 HttpServlet 类 实现 了 servlet API 规格 要 求 ; 实现 特定 功能 的 servlet 类 
被 定义 为 这 个 类 的 子 类 。“。 通常 servlet 一 词 指 实现 了 servlet 接口 的 Java 程序 (和 类 )。 图 9-8 是 一 个 
servlet 的 例子 ; 我 们 简短 地 介绍 它 的 一 些 细节 。 

当 服务 器 启动 或 者 服务 器 接收 到 远程 的 HTTP 请 求 执行 某 个 特定 servlet IY, servlet 的 代码 被 加 载 到 


O ”为 了 性 能 方面 的 原因 ， 连 接 可 能 会 在 短 时 间 内 保持 ， 以 允许 子 请 求 复 用 该 连接 。 然 而 ， 不 能 保证 连接 将 会 保持 ， 
因此 在 设计 应 用 时 应 当 假设 一 旦 处 理 请 求 连接 就 有 可 能 关闭 - 

O ”用户 标 识 符 可 以 存储 在 客户 端 ， 比 如 一 个 叫做 userid 的 cookie 中 。 这 样 的 cookie 可 以 用 于 低 安全 要 求 的 应 用 中 ， 
比如 免费 的 Web 站 点 识别 它们 的 用 户 。 但 是 ， 对 于 要 求 更 高 级 别 安全 性 的 应 用 ， 这 样 的 方法 就 会 造成 安全 隐患 : 
cookie 中 的 值 可 能 在 浏览 器 中 被 用 户 恶 意 算 改 ,该 用 户 就 能 够 伪装 成 男 一 个 用 户 。 将 cookie ( 比如 名 为 sessionid ) 
设置 为 一 个 随机 产生 的 会 话 标识 符 (一 个 很 大 的 数字 空间 ) ， 可 以 使 得 一 个 用 户 冒 充 另 一 个 用 户 的 可 能 性 变 得 极 
小 。 而 一 个 顺序 生成 的 会 话 标识 符 ， 则 很 容易 冒充 。 

© 虽然 我 们 的 例子 中 只 使 用 了 HTTP， 但 是 servlet 接口 也 能 支持 非 HTTP 请 求 
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Web 服务 器 中 。servlet 的 任务 就 是 处 理 这 种 可 能 涉及 访问 数据 库 撒 取 必要 信息 ， 并 动态 生成 HTML 页 
面 返回 给 客户 端 浏 览 器 的 请 求 。 

import java.io.*; 

import javax.servlet.*; 
import javax.servlet.http.*; 





public class PersonQueryServiet extends HttpServiet | 
public void doGet(HttpServietRequest request, 
HttpServletResponse response) 
throws ServietException, IOException 


response.setContentType("text/html|"); 

PrintWriter out = response.getWriter(); 

out.printin(" <HEAD> <TITLE> Query Result</TITLE> </HEAD>"); 
out.printin(" <BODY >"); 





String persontype = request.getParameter("persontype"); 
String number = request.getParameter("name"); 
if(persontype.equals("student")) { 
… 寻找 具有 指定 姓名 的 学 生 的 代码 … 
… 使 用 JDBC 与 数据 库 通 信 … 
out.println(" <table BORDER COLS=3>"); 
out.printin(" <tr> <td>!ID</td> <td>Name: </td>" + 
" <td>Department</td> </tr>"); 
for(... each result ...){ 
… 获取 ID, name #l dept_name 
.… 放 入 变量 ID, name fil deptname 
out.printin("<tr> <td>" + ID + "</td>" + 
"<td>" + name + "</td>" + 
"<td>" + deptname + "</td> </tr>"); 





out.printin(’ </table>"); 


} 


else { 
… 同上 , 但 是 是 对 于 教师 … 


out.printin(" </BODY > "); 
out.close(); 





图 9-8 servlet 代码 示例 


9.3.1 一 个 servlet 的 例子 

servlet 通常 用 于 对 HTTP 请 求 动态 生成 响应 。 它 们 可 以 访问 HTML 表单 提供 的 输入 ， 执 行 “ 业 务 逻 
辑 " 以 决定 给 出 什么 样 的 响应 ， 然 后 生成 HTML 输出 并 发 送 回 浏览 器 。 

图 9-8 所 示 为 实现 图 9-4 中 表单 的 servlet 代码 的 例子 。 这 个 servlet 叫做 PersonQueryServlet， 同 时 表 
单 指明 了 action =“PersonQuery”。 必 须 告 知 Web 服务 器 这 个 servlet 是 用 来 处 理 PersonQuery 请 求 的 。 该 
表单 指定 使 用 HTTP 的 get 机 制 进行 参数 传递 ， 这 样 servlet 代码 中 定义 的 doGet( ) 方 法 被 调用 。 

每 次 请 求 都 会 生成 一 个 新 的 线程 ， 在 线程 中 执行 调用 ， 因 此 多 个 请 求 就 可 以 并 行 处 理 。 任 何 来 自 
Web 网 页 上 的 表单 菜单 和 输入 域 中 的 值 ， 和 cookie 一 样 ， 由 一 个 为 请 求 创建 的 HttpServletRequest 类 对 
象 传人 ， 然 后 请 求 的 应 答 由 一 个 HttpServletResponse 类 对 象 返回 。 

该 例子 中 的 doGet( ) 方 法 通过 request. getParamter( ) 抽取 参数 的 type 和 number 的 值 ， 并 使 用 它们 的 
值 执行 数据 库 查 询 。 用 于 访问 数据 库 以 及 从 查询 结果 获取 属性 值 的 代码 没有 表示 出 来 ， 有 关 如 何 使 用 
JDBC 访问 数据 库 的 细节 请 参考 5. 1. 1. 4 节 。servlet 代码 将 查询 结果 输出 到 HttpServletResponse 类 的 对 象 
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response 中 返回 给 请 求 者 。 将 结果 输出 到 response 是 通过 首先 从 response 中 取得 PrintWriter 对 象 out， 然 
后 向 out 以 HTML 格式 输出 结果 而 实现 的 。 
9.3.2 servlet 会 话 

回想 一 下 ， 浏 览 器 和 Web 服务 器 之 间 的 交互 是 无 状态 的 。 也 就 是 说 ， 每 次 浏览 器 向 服务 器 发 出 一 
个 请 求 ， 浏 览 器 都 要 连接 服务 器 ， 请 求 某 些 信 息 ， 然 后 从 服务 器 断 开 连 接 。cookie 可 以 用 来 识别 一 个 
请 求 与 前 一 个 请 求 是 来 自 于 同一 个 浏览 器 会 话 。 但 是 ，cookie 构成 一 个 低级 别 机 制 ， 程 序 员 需 要 一 个 
更 好 的 抽象 概念 来 处 理会 话 。 

servlet API 提供 了 一 种 跟踪 会 话 并 存储 会 话 相 关 信 息 的 方法 。HttpServletRequest 类 的 getSession 
(false) 方 法 的 调用 抽取 出 发 出 请 求 的 浏览 器 对 应 的 HttpSession 对 象 。 参 数值 为 true 将 表示 当 请 求 是 新 
请 求 时 ， 必 须 创 建新 的 会 话 对 象 。 

当 getSession( ) 方 法 被 调用 时 ， 服 务 器 会 先 要 求 客 户 端 返回 具有 指定 名 字 的 cookie。 如 果 客 户 没 有 
该 名 字 的 cookie， 或 者 返回 的 值 与 任何 进行 中 的 会 话 都 不 匹配 ， 则 请 求 不 是 进行 中 的 会 话 的 一 部 分 
在 这 种 情况 下 ，getSession( ) 将 返回 一 个 空 值 ， 并 且 servlet 会 将 用 户 指引 到 一 个 登录 页 面 。 

登录 页 面 可 以 允许 用 户 提 供用 户 名 和 和 密码。 登录 页 面 对 应 的 servlet 可 以 验证 密码 与 用 户 匹 配 ( 例 
如 ， 通 过 在 数据 库 中 查找 认证 信息 )。 如 果 该 用 户 正 常 通过 认证 ， 登 录 servlet 将 会 执行 getSession 
(true) ， 返 回 一 个 新 的 会 话 对 象 。 为 了 创建 一 个 新 的 会 话 ，Web 服务 器 内 部 执行 以 下 任务 : 在 客户 的 
浏览 器 中 设置 一 个 cookie( 比如 名 为 sessionId ) ， 用 会 话 标识 符 作为 它 所 关联 的 值 ， 创 建 一 个 新 的 会 话 
对 象 ， 并 将 会 话 标识 符 的 值 与 会 话 对 象 关联 。 

servlet 代码 还 能 够 在 HttpSession 对 象 中 存储 和 查找 (属性 名 、 值 ) 对， 以 便 在 一 个 会 话 内 的 多 个 请 
求 间 维持 状态 。 例 如 ， 在 用 户 被 认证 并 创建 了 会 话 对 象 之 后 ， 登 录 servlet 可 以 通过 在 getSession( ) 所 返 
回 的 会 话 对 象 上 执行 方法 

session. setAttribute( "userid”，userid ) 
将 用 户 的 user-id 存储 为 会 话 的 一 个 参数 ; 假定 在 Java 变量 userid 中 包含 用 户 标 识 符 。 

如 果 请 求 属于 一 个 进行 中 的 会 话 ， 浏 览 器 就 会 返回 该 cookie 的 值 ， 且 getSession( ) 会 返回 对 应 的 会 
WIR. servlet 通过 在 上 述 所 返回 的 会 话 对 象 上 执行 方法 

session. getAttribute( "userid" ) 
就 能 够 从 会 话 对 象 中 获取 会 话 参数 ， 比 如 user-id。 如 果 属 性 userid 没有 设置 ， 该 函数 会 返回 一 个 空 值 ， 
表明 该 客户 端的 用 户 还 没有 通过 认证 。 
9.3.3 servlet 的 生命 周期 

servlet 的 生命 周期 由 它 部 署 于 的 Web 服务 器 控制 。 当 有 客户 端 请 求 一 个 特定 的 servlet 时 ， 服 务 器 
首先 检查 是 否 存 在 该 servlet 的 实例 。 如 果 不 存在 ，Web 服务 器 就 将 servlet 类 加 载 到 Java 虚拟 机 ( Java 
Virtual Machine, JVM) 中 ， 并 创建 该 servlet 类 的 一 个 实例 。 另 外 ， 服 务 器 调用 init( ) 方 法 将 该 servlet 实 
例 初始 化 。 注 意 ， 每 个 servlet 实例 仅 在 加 载 的 时 候 初始 化 一 次 。 

在 确定 servlet 实例 的 确 存在 之 后 ， 服 务 器 调用 servlet 的 service( ) 方法， 并 以 一 个 request 对 象 和 一 
个 response 对 象 作 为 参数 。 在 默认 情况 下 ， 服 务 器 创建 一 个 新 的 线程 以 执行 service( ) 方 法; 因此 ， 对 
一 个 servlet 的 多 个 请 求 就 能 够 并 行 处 理 ， 而 不 必 等 待 上 一 个 请 求 执行 完 。service( ) 方 法 适当 调用 doGet( ) 
或 doPost( ) 方 法 。 

当 不 再 需要 的 时 候 ， 可 以 通过 调用 destroy( ) 方法 停止 一 个 servlet。 服 务 器 可 以 设置 为 如 果 在 一 段 
时 间 内 没有 对 某 个 servlet 的 请 求 ， 则 自动 停止 这 个 servlet; 该 时 间 段 是 服务 器 的 一 个 参数 ， 可 以 根据 
应 用 适当 地 设置 。 

9. 3.4 servlet 支持 

许多 应 用 服务 器 都 提供 servlet 的 内 艇 支持 。 最 流行 的 应 用 服务 器 之 一 是 Apache Jakarta 项 目 中 的 
Tomcat 服务 器 。 其 他 支持 servlet 的 应 用 服务 器 包括 Glassfish, JBoss, BEA Weblogic 应 用 服务 器 、Oracle 
应 用 服务 器 以 及 IBM 的 WebSphere 应 用 服务 器 。 
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开发 servlet 应 用 程序 最 好 的 方式 是 利用 一 个 IDE， 比 如 Tomcat 或 Glassfish ARSE A KAY Eclipse 或 
者 NetBeans, 

除了 基本 的 servlet 支持 之 外 ， 应 用 服务 器 通常 还 提供 多 种 有 用 的 服务 。 它 们 允许 应 用 程序 部 署 或 
者 停止 ， 并 提供 监视 应 用 服务 器 状态 的 功能 ， 包 括 性 能 统计 。 如 果 一 个 servlet 文件 修改 ， 某 些 应 用 服 
务 器 能 够 监测 到 ， 然 后 透明 地 重新 编译 并 重新 加 载 该 servlet。 许 多 应 用 服务 器 还 允许 服务 器 在 多 人 台 
器 上 并 行 运行 以 提高 性 能 ， 并 将 请 求 分 发 至 适当 的 机 器 上 。 许 多 应 用 服务 器 还 支持 Java 2 Enterprise 
Edition(J2EE) 平 台 ， 它 针对 多 种 任务 都 提供 支持 和 API， 比 如 处 理 对 象 、 跨 多 个 应 用 服务 器 并 行 处 理 
以 及 处 理 XML 数据 (XML 将 在 后 面 第 23 章 介 绍 ) 。 

9.3.5 服务 器 端 脚本 

用 一 种 诸如 Java 或 C 的 程序 设计 语言 编写 一 段 甚 至 很 简单 的 Web 应 用 程序 也 是 很 花 时 间 的 一 项 任 
务 ， 它 需要 很 多 行 代码 以 及 熟悉 该 语言 中 错综复杂 的 事物 的 程序 员 。 另 一 种 方法 ， 也 就 是 服务 器 端 肢 
本 (server-side scripting) ， 为 创建 许多 应 用 程序 提供 了 一 种 简单 得 多 的 方式 。 脚 本 语言 提供 了 可 能 人 
HTML 文档 中 的 结构 。 在 服务 器 端 脚本 中 ， 服 务 器 会 在 传送 Web 页 面 之 前 执行 嵌入 在 HTML 页 面 内 容 
中 的 脚本 。 每 段 脚本 在 执行 时 会 生成 加 入 到 页 面 中 的 文本 (或 可 能 甚至 从 页 面 中 删除 内 容 ) 。 脚 本 的 源 
代码 将 从 页 面 中 删除 ， 因 此 客户 端 可 能 根本 没 察 觉 页 面 原先 含有 任何 代码 。 执 行 的 脚本 可 能 包含 数据 
库 上 执行 的 SQL 代码 。 

一 些 广泛 使 用 的 脚本 语言 包括 Sun 的 Java Server Pages(JSP) Microsoft 的 Active Server Pages( ASP) il 
后 续 的 ASP. NET, PHP 脚本 语言 、ColdFusion 标记 语言 (ColdFusion Markup Language, CFML) 以 及 Ruby 
on Rails。 许 多 脚本 语言 也 允许 用 诸如 Java, C#, VBScript, Perl 以 及 Python 语言 写 的 代码 嵌入 到 HTML 
页 面 中 或 被 HTML 页 面 调用 。 例 如 ，JSP 允许 Java 代码 嵌入 HTML 页 面 中 ， 而 Microsoft 的 ASP. NET 和 
ASP SF AGKAY C# 和 VBScript。 这 些 语言 中 的 大 部 分 都 带 有 库 和 工具 ， 它 们 一 起 构成 了 Web 应 用 开发 的 
框架 。 

接 下 来 简要 介绍 Java Server Pages(JSP) ， 一 种 允许 HTML 程序 员 将 静态 的 HTML 和 动态 生成 的 
HTML 混合 在 一 起 的 脚本 语言 。 其 动机 在 于 ， 对 于 许多 动态 的 Web 页面 ， 其 中 大 多 数 的 内 容 仍 然 是 静 
态 的 (也 就 是 说 ， 不 论 该 页 面 何 时 生成 ， 总 是 显示 相同 的 内 容 ) Web 页 面 的 动态 内 容 ( 比如 ， 根 据 表 
单 的 参数 生成 ) 通 常 是 页 面 的 一 小 部 分 。 通 过 写 servlet 代码 来 创建 这 样 的 页 面 导致 大 量 的 HTML 被 写作 
Java FFE, JSP 则 允许 Java 代码 嵌入 静态 的 HTML 中 ; WAHI Java 代码 生成 该 页 面 的 动态 部 分 。JSP 
脚本 实际 上 转换 为 servlet 代码 进行 编译 ,但 是 应 用 程序 员 却 从 撰写 大 量 Java 代码 以 创建 servlet 的 困境 
中 解脱 出 来 了 。 

图 9-9 所 示 为 一 个 包含 了 内 艇 的 Java 代码 的 ISP 页 面 的 源 代码 文本 。 脚 本 中 的 Java 代码 用 < % 
…% > 括 起 来 以 区 别 于 周围 的 HTML 代码 。 代 码 使 用 request. getParameter( ) 以 获取 属性 name 的 值 ， 


<html> 
<head> <title> Hello </title> </head> 
<body> 
< % if (request.getParameter(‘name’”) == null) 
{ out.printin(“Hello World”); } 
else { out.printin(“Hello, ”+ request.getParameter(“name’)); } 
%> 
</body> 
</html> 















图 9-9 一 个 包含 Java 代码 的 ISP 页 面 


当 浏 览 器 请 求 一 个 ISP 页 面 时 ， 应 用 服务 器 根据 该 页 面 生 成 HTML 输出 ， 并 发 送 回 浏览 器 。JSP 页 
面 中 的 HTML 部 分 正如 所 输出 的 。 在 HTML 输出 中 ,在 <%…% > PRA MIATA Java 代码 都 用 它 向 
out 对 象 输出 的 文本 代替 。 在 图 9-9 的 ISP 代码 中 ， 如 果 没 有 值 输入 给 表单 参数 name， 则 脚本 输出 





© ISP 允许 一 种 更 复杂 的 嵌 人 ， 即 HTML 代码 在 Java 的 if-else 语句 内 部 ， 它 根据 让 条 件 等 于 真 或 非 真 而 有 条 件 地 得 
到 输出 。 我 们 在 这 里 省 略 细节 。 
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“Hello World” ; 如 果 输 入 了 一 个 值 ， 则 脚本 输出 “Hello”， 后 面 跟着 名 字 。 


PHP 
PHP 是 一 种 广泛 用 于 服务 器 端 脚本 的 脚本 语言 。PHP 代码 可 以 像 JSP 中 的 方式 一 样 与 HTML 混 
合 使 用 。 字 母 囊 “ <? php” 表 示 PHP 代码 的 开始 ， 字 母 串 “? > ”表示 PHP 代码 的 结束 。 下 列 代码 与 
图 9-9 中 的 JSP 代码 执行 相同 的 动作 。 
<html> 
<head> <title> Hello </title> </head> 
<body> 
<?php if (lisset($. REQUEST['name'))) 
{ echo "Hello World’; } 
else { echo 'Hello,' . $ REQUESTI'name'; } 
?> 
</body> 
</html> 
数组 $$_REQUEST 包含 请 求 的 参数 。 注 意 ， 数 组 用 参数 名 索引 ; 在 PHP 中 数组 可 以 用 任意 字符 
串 索引 ， 而 不 仅 是 数字 。 函 数 isset( ) 检查 数据 元 素 是 否 已 初始 化 。echo( ) 函数 将 它 的 参数 输出 到 
HTML。 两 个 字符 串 间 的 操作 符 “. ”将 字符 串 连 起 来 。 
一 个 适当 配置 的 Web 服务 器 将 把 任意 以 “. php” 结尾 的 文件 解释 为 PHP 文件 。 如 果 请 求 该 文件 ， 
Web 服务 器 将 以 与 处 理 JSP 文件 类 似 的 方法 处 理 该 文件 ， 并 将 生成 的 HTML 返回 给 浏览 器 。 


PHP 语言 有 许多 库 ， 包 括 使 用 ODBC( 类 似 于 Java 中 的 JDBC) 访问 数据 库 的 库 。 


一 个 更 实际 的 例子 可 能 执行 更 复杂 的 操作 ， 例 如 使 用 JDBC 从 数据 库 中 查询 值 。 
JSP 也 支持 标签 库 (tag library) 的 概念 ， 它 允许 使 用 标签 ， 这 些 标签 看 起 来 非常 像 HTML 标签 ， 却 
是 在 服务 器 端 解释 ， 并 用 相应 生成 的 HTML 代码 取代 。JSP 提供 了 一 个 标准 标签 集 ， 其 中 定义 了 变量 
和 控制 流 ( 迭代 器 、if-then-else) ， 以 及 基于 Javascript 的 表达 式 语 言 (但 在 服务 器 端 解释 ) 。 标 签 集 是 可 
扩展 的 ， 并 且 许 多 标签 库 都 已 实现 。 例 如 ， 存 在 一 个 标签 库 支 持 对 大 数据 集 的 分 页 显示 ， 还 有 一 个 库 
[388] 简化 了 对 日 期 和 时 间 的 显示 和 解析 。 关 于 ISP 标签 库 的 更 多 信息 可 以 参看 文献 注解 中 的 参考 资料 


9.3.6 客户 端 脚本 

文档 中 程序 代码 的 艇 入 允许 Web 页 是 活动 的 (active) ， 通 过 在 本 地 执行 程序 以 实现 活动 ， 例 如 动 
画 ， 而 不 仅仅 是 展示 被 动 的 文字 和 图 片 。 这 种 程序 主要 用 于 在 HTML 与 HTML 表单 提供 的 有 限 的 交互 
能 力 之 上 ， 与 用 户 进 行 灵活 的 交互 。 此 外 ， 与 每 次 交互 都 发 送 给 服务 器 端 处 理 相 比 ， 在 客户 端 执行 程 
序 极 大 加 快 了 交互 的 速度 。 

支持 这 种 程序 的 一 个 危险 在 于 ， 如 果 系 统 设计 得 不 小 心 ，Web 页 中 (或 等 同 地 ， 在 电子 邮件 消息 
中 ) 内 内 的 程序 代码 能 够 在 用 户 的 计算 机 上 执行 恶意 操作 。 亚 意 操作 会 包括 读 取 私 人 信息 ， 在 计算 机 上 
删除 或 修改 信息 ， 甚 至 控制 计算 机 并 将 代码 传播 到 其 他 计算 机 ( 例如 通过 电子 邮件 ) 。 近 年 来 许多 邮件 
病毒 都 是 通过 这 种 方式 广泛 传播 的 。 

Java 语言 日 趋 流行 的 一 个 原因 是 它 为 在 用 户 的 计算 机 上 执行 程序 提供 了 一 种 安全 模式 。Java 代码 
能 够 编译 成 独立 于 平台 的 “ 字 节 码 ”， 它 可 以 在 任意 支持 Java 的 浏览 器 上 执行 。 与 本 地 程序 不 同 的 是 ， 
作为 网 页 的 一 部 分 所 下 载 的 Java 程序 (小 应 用 程序 ) 无 权 执行 任何 可 能 是 破坏 性 的 操作 。 它 们 可 以 在 屏 
幕 上 显示 数据 ， 或 者 与 下 载 网 页 的 服务 器 进行 网 络 通信 以 获取 更 多 的 信息 。 然 而 ， 它 们 不 能 访问 本 地 
文件 ， 执 行 任何 系统 程序 ， 或 和 任何 其 他 计算 机 进行 网 络 通信 。 

Java 是 一 种 完全 成 熟 的 程序 设计 语言 ， 另 外 有 一 些 更 简单 的 语言 ， 称 为 脚本 语言 (scripting 
language) ， 在 提供 与 Java 相同 的 保护 的 同时 ， 能 够 丰富 用 户 的 交互 。 这 些 语言 提供 能 够 嵌入 到 HTML 
文档 中 的 构件 。 客 户 端 脚本 语言 (client-side scripting language) 是 用 于 在 客户 端的 Web 浏览 器 上 执行 的 
语言 。 

Hp, JavaScript 语言 在 目前 使 用 最 为 广泛 。 目 前 这 代 Web 界面 广泛 使 用 JavaScript 脚本 语 和 
复杂 的 用 户 界面 。JavaScript 用 于 多 种 任务 。 例 如 ， 用 JavaScript 写 的 函数 可 以 用 于 对 用 户 输入 执行 错误 
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检查 (验证 ) ， 例 如 日 期 字 串 是 否 符合 格式 ， 或 者 输入 的 值 (例如 年 龄 ) 是 否 在 适当 的 范围 内 。 在 输入 数 
据 时 ， 甚 至 在 数据 发 送 往 Web 服务 器 之 前 ， 这 些 检查 就 已 在 浏览 器 上 执行 。 

图 9-10 所 示 为 用 于 验证 表单 输入 的 JavaScript 函数 的 一 个 示例 。 该 函数 在 HTML 文档 的 head 段 声 
明 。 该 函数 检查 所 输入 的 课程 学 分 是 一 个 大 于 0 并 且 小 于 16 的 数字 。form 标签 表示 该 验证 函数 在 表单 
提交 时 调用 。 如 果 验 证 失败 ， 则 将 一 个 警告 框 显示 给 用 户 ， 而 如 果 验 证 成 功 ， 则 将 表单 提交 给 服务 器 。 

JavaScript 可 以 用 于 动态 修改 所 显示 的 
HTML 代码 。 浏 览 器 将 HTML 代码 解析 为 
内 存 中 的 一 个 树 结构 ， 它 是 由 称 为 文档 对 
象 模型 Document Object Model, DOM) 标 
HEE LAV). JavaScript 代码 能 够 修改 该 树 结 
构 以 执行 某 些 操作 。 例 如 ， 假 设 一 个 用 户 
需要 输入 几 行 数据 ， 例 如 一 个 清单 中 的 几 
项 。 一 个 包含 文本 框 以 及 其 他 形式 输入 方 
法 的 表格 可 以 用 来 收集 用 户 输入 。 表 格 可 
能 有 一 个 默认 大 小 ， 但 是 如 果 需 要 更 多 
行 ， 用 户 可 以 点 击 标 有 (比如 ) “添加 项 
E” 的 按钮 。 可 以 将 这 个 按钮 设置 为 调用 
修改 DOM 树 以 向 表格 额外 增加 一 行 的 
JavaScript 函数 。 

BIR JavaScript 语言 已 经 标准 化 ， 但 
是 浏览 器 之 间 仍 存在 差别 ， 特 别 是 DOM 模型 的 一 些 细节 。 因 此 ， 在 一 个 浏览 器 上 运行 的 JavaScript 代 
码 有 可 能 在 另 一 个 浏览 器 上 无 法 运行 。 为 了 避免 这 种 问题 ， 最 好 使 用 一 个 JavaScript 库 ， 例 如 Yahoo 的 
YUI 库 ， 它 使 得 代码 的 编写 独立 于 浏览 器 。 库 中 的 函数 在 内 部 能 够 找 出 正在 使 用 哪 种 浏览 器 ， 并 向 浏 
览 器 发 送 相应 生成 的 JavaScripts XF YUI 和 其 他 库 的 更 多 信息 可 以 参看 本 章 结尾 的 9. 5. 1 节 。 

SR, JavaScript 广泛 用 于 创建 动态 网 页 ， 它 使 用 统称 为 Ajax 的 几 种 技术 。 用 JavaScript 编写 的 程 
序 和 Web 服务 器 异步 通信 ( 即 在 后 台 ， 不 阻 断 用 户 和 Web 浏览 器 的 交互 ) ， 并 能 够 获取 数据 并 显示 。 389 

作为 使 用 Ajax 的 一 个 示例 ,考虑 一 个 网 站 表单 ， 人 允许 你 选择 国家 ， 并 且 一 旦 选择 了 一 个 国家 ， 你 360 
就 可 以 从 这 个 国家 的 州 列表 中 选择 一 个 州 。 在 国家 选 定 之 前 ， 州 的 下 拉 列 表 是 空 的 。Ajax 框架 允许 在 
选 定 一 个 国家 时 ， 在 后 台 从 该 网 站 下 载 州 的 列表 ， 并 且 一 获取 到 这 个 列表 ， 它 就 添加 到 下 拉 列 表 中 ， 
使 你 可 以 选择 州 。 

还 有 一 些 专用 脚本 语言 用 于 专门 的 任务 ， 比 如 动画 (例如 ，Flash 和 Shockwave) 以 及 三 维 建 模 ( 虚拟 
现实 标记 语言 (Virtual Reality Markup Language，VRML) ) 。 目 前 ，Flash 不 仅 被 广泛 用 于 动画 ， 还 用 于 
处 理 流 媒体 视频 内 容 。 


9.4 应 用 架构 


为 了 处 理 大 型 应 用 的 复杂 性 ， 通 常 将 它们 分 为 若干 层 : 
°. 展示 层 或 用 户 界面 层 ， 它 处 理 用 户 交 互 。 单 个 应 用 程序 可 能 有 若干 个 不 同 版 本 的 展示 层 ， 对 应 
于 不 同类 型 的 界面 ， 例 如 Web 浏览 器 ， 以 及 手机 用 户 界面 ， 它 的 屏幕 相 比 较 小 很 多 。 

在 很 多 实现 中 ， 基 于 模型 - 视图 - 控制 器 ( Model-View-Controller, MVC) 架构 ， 展 示 / 用 户 
界面 层 本 身 在 概念 上 分 为 多 层 。 模 型 (model) 对 应 于 下 文中 所 述 的 业务 - 逻辑 层 。 视 图 ( view) 
定义 数据 的 显示 ; 单个 底层 模型 根据 用 于 访问 应 用 所 指定 的 软件 /设备 可 以 具有 不 同 的 视图 。 
控制 器 (controller) 接 收 事件 ( 用户 操作 ) ， 在 模型 上 执行 操作 ， 并 返回 一 个 视图 给 用 户 。MVC 
架构 用 于 多 个 Web 应 用 框架 ， 这 将 在 9.5.2 节 讨 论 。 

。 业务 逻辑 ( bussiness-logic) 层 ， 提 供 对 数据 和 数据 操作 的 高 级 视图 。9. 4. 1 节 详 细 讨 论 业 务 逻 
辑 层 。 











<html> 
<head> 
<Script type="text/javascript"> 
function validate() { 
var credits=document.getElementByld(“credits"). value; 
if (isNaN(credits)|| credits<=0 || credits>=16) { 
alert("Credits must be a number greater than 0 and less than 16"); 
return false 


} 
</script> 
</head> 


<body> 

<form action="createCourse" onsubmit="return validate()"> 
Title: <input type="text" id="title" size="20"><br /> 
Credits: <input type="text" id="credits" size="2"><br /> 
<input type="submit" value="Submit"> 

</form> 

</body> 

</html> 


图 9-10 用 于 验证 表单 输入 的 JavaScript 示例 
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© 数据 访问 (data access) 层 ， 提 供 业 务 逻 辑 层 和 底层 数据 库 间 的 接口 。 当 底层 数据 库 是 关系 数 
据 库 时 ， 许 多 应 用 使 用 面向 对 象 语 言 编 写 业 务 逻 辑 层 ， 并 使 用 面向 对 象 数 据 模 型 。 在 这 种 
情况 中 ， 数 据 访问 层 还 提供 从 业务 逻辑 所 使 用 的 面向 对 象 数 据 模型 到 数据 库 所 支持 的 关系 
模型 的 映射 。9. 4. 2 节 详 细 讨 论 这 种 映射 。 

图 9-11 所 示 为 上 述 各 层 ， 以 及 处 理 来 自 Web 浏览 器 的 一 条 请 求 所 采取 的 一 系列 步骤 。 图 9-11 中 
箭头 上 的 标记 表示 步骤 的 顺序 。 当 应 用 服务 器 接收 到 请 求 时 ， 控 制 器 向 模型 发 送 一 条 请 求 。 模 型 使 用 
业务 逻辑 处 理 请 求 ， 其 中 可 能 涉及 更 新 模型 中 的 对 象 ， 接 着 创建 一 个 结果 对 象 。 模 型 依次 使 用 数据 访 
问 层 更 新 数据 中 的 信息 或 从 数据 库 获 取信 息 。 模 型 生成 的 结果 对 象 发 送 到 视图 模块 ， 它 对 结果 生成 一 
个 HTML 视图 以 在 Web 浏览 器 上 显示 。 该 视图 可 能 根据 用 于 查看 结果 的 设备 的 特点 来 定制 ， 例 如 它 是 

否 是 一 个 具有 大 屏幕 的 计算 机 显示 器 ， 或 者 是 手机 上 的 小 屏幕 。 


Web 浏 览 器 





Web/ 应 用 服务 器 
图 9-11 Web 应 用 程序 框架 


9.4.1 ”业务 逻辑 层 

一 个 用 于 管理 大 学 的 应 用 程序 的 业务 逻辑 层 可 能 会 提供 实体 的 抽象 ， 比 如 学 生 、 教 师 、 课 程 、 课 
程 段 等 ， 以 及 操作 ， 比 如 大 学 录取 学 生 、 学 生 注册 课程 等 。 实 现 这 些 操 作 的 代码 保证 业务 规则 
(bussiness rule) 被 满足 ; 例如， 代码 要 保证 只 有 当 学 生 已 经 完成 课程 先 修 课 并 且 已 经 交付 学 费时 才能 
注册 课程 。 

另外 ， 业 务 逻 辑 包 含 工作 流 ( workflow) ， 它 描述 如 何 处 理 一 个 涉及 多 个 参与 者 的 特定 任务 。 例 如 ， 
如 果 一 名 候选 人 申请 大 学 ， 存 在 一 个 工作 流 规定 首先 由 谁 查看 并 批准 申请 ， 并 且 如 果 第 一 个 阶段 批准 
后 ， 接 下 来 应 该 由 谁 查看 申请 ， 如 此 下 去 ， 直 到 给 学 生发 出 人 学 邀请 或 者 寄 出 拒 信 。 工 作 流 管理 也 需 
要 处 理 错误 情况 ; 例如 ， 如 果 接 收 /拒绝 的 最 后 期 限 还 没 到 ， 则 可 能 需要 通知 主管 ， 使 地 能 够 干预 并 确 

392) 保 申请 已 处 理 。 工 作 流 在 26. 2 节 中 有 详细 的 讨论 。 

9.4.2 数据 访问 层 和 对 象 -关系 映射 

在 最 简单 的 场景 中 ， 业 务 逻 辑 层 和 数据 库 使 用 相同 的 数据 模型 ， 数 据 访 问 层 只 是 隐藏 了 与 数据 库 
连接 的 细节 。 然 而 ， 当 用 面向 对 象 程序 设计 语言 编写 业务 - 逻辑 层 时 ， 很 自然 地 会 将 数据 建 模 为 对 象 
以 及 对 象 上 调用 的 方法 。 

在 早期 实现 中 ， 程 序 员 不 得 不 为 了 从 数据 库 中 获取 数据 以 创建 对 象 以 及 将 更 新 后 的 对 象 存 回 数据 
库 而 编写 代码 。 然 而 ， 这 种 数据 模型 间 的 人 工 转 换 很 麻烦 并 且 容 易 出 错 。 解 决 这 个 问题 的 一 种 方法 是 
开发 一 个 本 身 存 储 对 象 和 对 象 之 间 关 系 的 数据 库 系统 。 这 种 数据 库 称 作 面 向 对 象 数据 库 ( object-oriented 
database) ， 在 第 22 章 将 对 其 详细 介绍 。 然 而 ， 由 于 许多 技术 和 商业 原因 ， 面 向 对 象 数据 库 没有 取得 商 
业 上 的 成 功 。 

另 一 种 方法 是 使 用 传统 关系 数据 库 保存 数据 ， 但 自动 建立 从 关系 中 的 数据 到 内 存 中 按 需 创建 (由 





第 9 章 应 用 设计 和 开发 221 


于 通常 没有 足够 的 内 存 存储 数据 库 中 所 有 的 数据 ) 的 对 象 的 映射 ， 以 及 反 向 映射 ， 从 而 将 更 新 后 的 对 象 
以 关系 的 形式 保存 回 数据 库 。 


HIBERNATE 示例 


MEA Hibernate 使 用 示例 ， 创 建 一 个 对 应 于 student 关系 的 Java 类 如 下 : 
public class Student { 

String ID; 

String name; 

String department; 

int tot_cred; 

Student(String id, String name, String dept, int totcreds); // 构 造 函 数 
} 


为 了 准确 ， 类 属性 应 该 声明 为 私有 ， 并 应 该 提供 getter/setter 方法 以 访问 属性 ， 得 是 我 们 省 略 这 


些 细节 。 
从 Student 的 类 属性 到 student 关系 属性 的 映射 在 映射 文件 中 以 XML 格式 表示 。 我 们 再 次 省 略 
细节 。 


下 面 的 代码 段 创建 了 一 个 Student 对 象 并 将 它 保 存 到 数据 库 中 。 
Session session = getSessionFactory().openSession(); 

Transaction txn = session.beginTransaction(); 

Student stud = new Student("12328", "John Smith", "Comp. Sci.", 0); 
session.save(stud); 

txn.commit(); 

session.close(); 


Hibernate 自动 生成 所 需 的 SQL insert 语句 ， 以 在 数据 库 中 创建 一 个 student 元 组 。 


为 了 检索 学 生 ， 可 以 用 以 下 代码 段 : 
Session session = getSessionFactory().openSession(); 
Transaction txn = session.beginTransaction(); 
List students = 
session.find("from Student as s order by s.ID asc"); 
for ( Iterator iter = students.iterator(); iter hasNext(); ) { 
Student stud = (Student) iter.next(); 
-输出 学 生 信息 . 


txn.commit(); 
session.close(); 


以 上 代码 段 使 用 了 用 Hibernate 的 HQL 查询 语言 表达 的 一 个 查询 。HQL 查询 被 Hibernate 自动 翻 
译 成 SQL 并 执行 ， 然 后 把 结果 转换 成 一 个 Student 对 象 对 象 。for 循环 遍历 该 列表 中 的 对 象 并 将 输出 
它们 。 


已 经 有 好 几 个 实现 这 种 对 象 - 关系 映射 ( object-relational mapping) 的 系统 被 开发 出 来 。Hibernate A 
统 广泛 用 于 将 Java 对 象 映 射 到 关系 。 在 Hibernate 中 ， 从 每 个 Java 类 到 一 个 或 多 个 关系 的 映射 都 记录 在 
一 个 映射 文件 中 。 例 如 ， 该 映射 文件 可 以 记录 一 个 叫做 Student 的 Java 类 映射 到 关系 student， 同 时 Java 
属性 ID 映射 到 属性 student. ID $, properties 文件 记录 了 数据 库 的 信息 ， 例 如 数据 库 运行 所 在 的 主机 ， 
以 及 用 于 连接 数据 库 的 用 户 名 和 密码 。 程 序 需要 打开 一 个 会 话 ， 建 立 到 数据 库 的 连接 。 一 旦 会 话 建立 ， 
Java 中 创建 的 Student 对 象 stud 就 可 以 通过 调用 session. save( stud) 保 存 到 数据 库 中 。Hibernate 代码 生成 
用 于 将 数据 存储 到 student 关系 中 的 SQL 命令 . 

一 组 对 象 可 以 通过 执行 用 Hibernate 查询 语言 所 写 的 查询 从 数据 库 中 获取 ; 这 与 用 JDBC 执行 查询 
并 返回 包含 一 组 元 组 的 ResultSet 是 类 似 的 。 或 者 ， 单 个 对 象 可 以 通过 提供 它 的 主 码 来 获取 。 获 取 到 的 
对 象 可 以 在 内 存 中 更 新 ; 当 运 行 中 的 Hibernate 会 话 上 的 事务 被 提交 时 ，Hibernate 通过 在 数据 库 中 的 关 
系 上 进行 相应 的 更 新 ， 自 动 保存 更 新 的 对 象 。 

虽然 E-R 模型 中 的 实体 自然 地 对 应 诸如 Java 的 面向 对 象 语 言 中 的 对 象 ， 但 联系 通常 并 不 对 应 
Hibernate 支持 将 这 种 联系 映射 为 关联 对 象 的 集合 的 能 力 。 例 如 ，student 和 section 之 间 的 takes 联系 可 以 
通过 将 section WEA ABT student 关联 ， 并 将 student 的 集合 和 每 个 section 关联 来 建 模 。 一 旦 指定 好 适 
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当 的 映射 ，Hibernate 就 会 根据 数据 库 关 系 takes 自动 填充 这 些 集合 ， 并 且 对 于 集合 的 更 新 也 会 在 提交 时 
反映 回 数据 库 关 系 中 。 

上 述 特点 帮助 提供 给 程序 员 一 个 不 需要 考虑 关系 存储 细节 的 高 级 数据 模型 。 然 而 ，Hibemate 和 其 
他 对 象 -关系 映射 系统 一 样 ， 也 人 允许 程序 员 直接 用 SQL 访问 底层 关系 。 这 种 直接 访问 对 于 编写 复杂 查 
淘 以 生成 报表 至 关 重要 。 

Microsoft 开发 了 一 种 数据 模型 ， 称 作 实 体 数据 模型 ( Entity Data Model) ， 可 以 将 它 看 成 多 种 实体 - 
联系 模型 ， 以 及 一 个 相关 的 框架 ， 叫 作 ADO. NET 实体 框架 ， 它 能 在 实体 数据 模型 和 关系 数据 库 间 映 
射 数据 。 该 框架 还 提供 一 种 类 SQL 查询 语言 ， 称 作 实体 SQL( Entity SQL) ， 它 直接 在 实体 数据 模型 上 
操作 。 

9.4.3 Web 服务 


在 过 去 ， 大 部 分 Web 应 用 只 使 用 应 用 服务 器 及 其 相关 的 数据 库 中 的 数据 。 近 年 来 ，Web 中 存在 许 
多 种 类 的 数据 ， 需 要 通过 程序 来 处 理 ， 而 不 是 直接 显示 给 用 户 ; 程序 可 能 作为 后 端 应 用 的 一 部 分 运行 ， 
或 可 能 是 在 浏览 器 中 运行 的 脚本 。 通 常 ， 通 过 实际 的 Web 应 用 编程 接口 访问 这 些 数 据 ， 即 使 用 HTTP 
协议 发 送 一 个 函数 调用 请 求 ， 在 应 用 服务 器 上 执行 ， 然 后 将 结果 发 送 回 主 调 程序 。 支 持 这 种 接口 的 系 
统 被 称 为 Web 服务 (Web service ) 。 

有 两 种 方法 广泛 用 于 实现 Web 服务 。 较 简单 的 方法 为 代表 性 状态 传输 ( REpresentation State 
Transfer，REST) ， 它 通过 在 应 用 服务 器 对 URL 的 标准 HTTP 请 求 执行 Web 服务 函数 调用 ， 参 数 作为 标 
准 HTTP 请 求 的 参数 发 送 。 应 用 服务 器 执行 该 请 求 ( 有 可 能 涉及 服务 器 端 数据 库 的 更 新 ) ， 生 成 结果 并 
对 其 编码 ， 然 后 将 结果 作为 HTTP 请 求 的 结果 返回 。 服 务 器 对 一 个 特定 请 求 的 URL 可 以 使 用 任意 编码 ; 
XML 和 一 种 叫 作 JavaScript xt R 4F 5 (JavaScript Object Notation, JSON) 的 JavaScript 对 象 编码 广泛 使 
用 。 请 求 方 解 析 返回 的 页 面 以 访问 所 返回 的 数据 。 

在 许多 REST 风格 的 Web 服务 (即使 用 REST 的 Web ARF) 的 应 用 中 ， 请 求 方 是 运行 在 Web 浏览 器 
中 的 JavaScript 代码 ; 该 代码 使 用 函数 调用 的 结果 更 新 浏览 器 屏幕 。 例 如 ， 当 你 在 Web 上 的 地 图 界面 
上 滚动 显示 时 ， 地 图 中 需要 新 增 的 显示 部 分 可 以 使 用 REST 风格 的 接口 通过 JavaScript 代码 获取 ， 然 后 
显示 在 屏幕 上 。 

一 个 更 加 复杂 的 方法 有 时 称 作 K Web 服务 ”， 它 对 参数 和 结果 使 用 XML 编码 ， 使 用 一 种 专门 的 
语言 正规 定义 Web API， 并 在 HTTP 协议 上 构建 了 一 个 协议 层 。23. 7. 3 节 有 对 这 个 方法 的 详细 描述 。 


9.4.4 ” 断 连 操作 
许多 应 用 都 希望 即使 当 一 个 客户 端 从 应 用 服务 器 断 开 连接 时 仍 支持 某 些 操作 。 例 如 ， 一 个 学 生 可 


能 希望 填写 申请 表 即 使 她 的 笔记 本 电脑 从 网 络 断 开 ， 但 在 笔记 本 电脑 重新 连接 网 络 的 时 候 将 它 保 存 回 


去 。 另 一 个 例子 是 ， 如 果 将 一 个 电子 邮件 客户 端 构建 为 一 个 Web 应 用 ， 一 个 用 户 可 能 希望 书写 电子 邮 
件 即 使 她 的 笔记 本 电脑 从 网 络 断 开 ， 并 在 重新 连接 到 网 络 时 将 邮件 发 送出 去 。 构 建 这 种 应 用 需要 在 客 
户 端 机 器 中 本 地 存储 ， 最 好 是 以 数据 库 的 形式 。Gears 软件 (最 初 由 Google 开发 ) 是 一 个 浏览 器 插件 ， 
它 提供 一 个 数据 库 、 一 个 本 地 Web 服务 器 ， 并 支持 在 客户 端 并 行 执行 JavaScript。 该 软件 在 多 种 操作 系 
统 /浏览 器 平台 上 同样 运行 ， 允 许 应 用 程序 支持 丰富 的 功能 而 并 不 需要 安装 任何 的 软件 (除了 Gears 自 
己 以 外 )。Adobe 的 AIR 软件 还 给 能 够 为 运行 在 Web 浏览 器 之 外 的 Internet 应 用 的 构建 提供 类 似 的 
功能 。 


9.5 快速 应 用 开发 


如 果 构 建 Web 应 用 时 没有 使 用 工具 或 库 构 建 用 户 界 面 ， 则 构建 用 户 界 面 所 需 的 编程 工作 可 能 远大 
于 业务 逻辑 和 数据 库 访问 所 需 。 有 几 种 方法 可 以 用 以 减少 构建 应 用 程序 所 需 的 工作 : 
© 提供 一 个 函数 库 ， 以 用 最 小 的 编程 量 生 成 用 户 界面 元 素 。 
。 在 集成 开发 环境 中 提供 拖 放 功能 ， 人 允许 将 用 户 界面 元 素 从 菜单 中 拖 至 页 面 的 设计 视图 。 该 集成 
开发 环境 通过 调用 库 函 数 生成 创建 用 户 界面 元 素 的 代码 。 
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。 根据 声明 规范 自动 生成 用 户 界面 的 代码 。 

在 创建 Web 之 前 ， 所 有 这 些 方法 就 都 已 经 作为 快速 应 用 开发 Rapid Application Development, 
RAD) 工 具 的 一 部 分 用 于 创建 用 户 界面 了 了， 并且 目前 也 广泛 用 于 创建 Web 应 用 。 

用 来 快速 开发 数据 库 应 用 接口 的 工具 的 例子 包括 Oracle Forms 、Sybase PowerBuilder 以 及 Oracle 
Application EXpress( APEX ) 。 另 外 ， 为 Web 应 用 开发 所 设计 的 工具 ， 例 如 Visual Studio 和 Netbeans 
VisualWeb ， 支 持 用 于 快速 开发 基于 数据 库 的 应 用 的 Web 界面 的 一 些 功能 。 

我 们 在 9. 5. 1 节 中 学 习 创 建 用 户 界 面 的 工具 ， 并 在 9. 5. 2 节 中 学 习 支 持 自动 根据 系统 模型 生成 代 
码 的 框架 。 

9. 5.1 构建 用 户 界面 的 工具 

许多 HTML 结构 最 好 是 由 适当 定义 的 函数 生成 ， 而 不 是 作为 网 页 代码 的 一 部 分 来 编写 。 例如， 地 
址 表单 通常 需要 一 个 包含 国家 或 州 名 的 菜单 。 最 好 定义 一 个 输出 该 菜单 的 函数 并 在 需要 的 时 候 调 用 该 
函数 ， 而 不 是 每 次 用 到 的 时 候 编写 元 长 的 HTML 代码 以 生成 所 需 的 菜单 。 

菜单 通常 最 好 由 数据 库 中 的 数据 生成 ， 比 如 一 个 包含 国家 名 或 州 名 的 表 。 生 成 菜单 的 函数 执行 数 
据 库 查 询 并 用 查询 结果 填写 菜单 。 增 添 一 个 国家 或 州 则 只 需要 改变 数据 库 ， 而 不 需要 改变 应 用 程序 代 
码 。 这 个 方法 有 个 潜在 的 缺陷 ， 即 需要 增加 数据 库 交 互 ， 不 过 可 以 通过 在 应 用 服务 器 端 缓存 查询 结果 
以 最 小 化 这 个 开销 。 

类 似 地 ， 输 入 日 期 和 时 间或 需要 验证 的 输入 的 表单 最 好 通过 调用 适当 定义 的 函数 生成 。 这 些 函 数 
能 够 输出 在 浏览 器 端 执行 验证 的 JavaScript 代码 。 

对 于 许多 数据 库 应 用 ， 显 示 查 询 的 结果 集 是 一 项 共有 的 任务 。 可 以 构建 一 个 泛 型 郴 数 ， 将 SQL 查 
询 ( 或 ResultSet) 作为 参数 ， 并 以 表格 形式 显示 查询 结果 (或 ResultSet) 中 的 元 组 。 可 以 使 用 JDBC 元 数 
据 调用 从 查询 结果 中 找到 诸如 列 数 以 及 列 的 名 称 和 类 型 的 信息 ; 然后 该 信息 用 于 显示 查询 结果 。 

为 了 处 理 查询 结果 非常 大 的 情况 ， 查 询 结果 显示 功能 可 以 提供 对 结果 的 分 页 。 该 功能 可 以 在 一 页 
中 显示 固定 条 数 的 记录 ， 并 提供 控制 以 跳 到 下 一 页 或 前 一 页 或 者 跳 到 结果 的 指定 页 。 

遗憾 的 是 ， 没 有 (广泛 使 用 的 ) 用 于 实现 上 述 用 户 界 面 任务 的 标准 Java API 函数 。 构 建 这 样 的 一 个 
库 将 会 是 一 个 有 趣 的 编程 项 目 。 

不 过 ， 存 在 其 他 一 些 工 具 ， 比 如 JavaServer Faces(JSF) 框 架 ， 它 就 支持 上 面 所 列 功能 。JSF 框架 包 
含 一 个 实现 这 些 功能 的 ISP 标签 库 。Netbeans IDE 具有 一 个 叫做 VisualWeb 的 组 件 ， 它 构建 在 JSF E, 
提供 一 个 可 以 将 属性 自 定 义 的 用 户 界 面 组 件 拖 放 到 一 个 页 面 的 可 视 化 开发 环境 。 例 如 ，JSF 提供 创建 
下 拉 菜 单 的 组 件 ， 或 者 显示 从 数据 库 查 询 中 获取 数据 的 表格 的 组 件 。JSF 还 支持 在 组 件 上 验证 规范 ， 
例如 做 选择 或 强制 输入 ， 或 者 限制 一 个 数 或 一 个 日 期 在 指定 范围 内 。 

Microsoft 的 Active Server Pages( ASP) 及 其 最 近 的 版 本 Active Server Pages. NET( ASP. NET), ， 是 JSP/ 
Java 的 一 种 广泛 使 用 的 替代 品 。ASP. NET 与 JSP 类 似 ， 其 中 可 以 在 HTML 代码 中 嵌入 Visual Basic 或 者 
CHA AAS. Fab, ASP. NET 提供 多 种 控件 ( 脚本 命令 ) ， 在 服务 器 端 解释 并 生成 HTML 返回 给 客户 
端 。 这 些 控件 能 显著 地 简化 Web 界面 的 构建 。 我 们 对 这 些 控件 带 来 的 好 处 给 出 一 个 简要 的 概览 。 

例如 ， 诸 如 下 拉 菜 单 和 列表 框 这 样 的 控件 可 以 与 一 个 DataSet 对 象 关 联 。DataSet 对 象 与 JDBC 的 
ResultSet 对 象 相似 ， 通 常 也 是 通过 在 数据 库 上 执行 查询 而 创建 的 。HTML 菜单 内 容 从 DataSet 对 象 的 内 
容 生 成 ; 例如 ， 一 个 查询 可 能 将 一 个 机 构 中 所 有 部 门 的 名 字 检 索 到 DataSet 中 ， 并 且 关 联 的 菜单 将 会 包 
含 这 些 名 字 。 这 样 ， 基 于 数据 库 内 容 的 菜单 就 能 以 极 少 量 的 编码 方便 地 创建 出 来 。 

验证 控件 可 以 添加 到 表单 的 输入 域 中 ; 这 声明 性 地 定义 了 有 效 性 约束 ， 诸 如 值 的 范围 或 者 输入 是 
否 是 必需 的 ( 即 用 户 必须 提供 的 值 ) 。 服 务 器 创建 适当 的 结合 JavaScript 的 HTML 代码 ， 以 在 用 户 的 浏览 
器 中 执行 有 效 性 验证 。 对 于 无 效 输入 所 显示 的 错误 消息 可 以 与 每 个 验证 控件 相关 联 。 

可 以 指定 用 户 操作 在 服务 器 端 具 有 相关 联 的 操作 。 例 如 ， 一 个 菜单 控件 可 以 指定 从 菜单 中 选择 一 
个 值 具 有 一 个 相关 联 的 服务 器 端 动作 (生成 JavaScript 代码 以 探查 选择 事件 并 初始 化 服务 器 端 操作 ) 。 显 
示 属 于 所 选 值 的 数据 的 Visual Basic/C# 代 码 可 以 与 服务 器 上 的 该 动作 相关 联 。 因 此 ， 从 菜单 中 选择 一 
个 值 会 引起 页 面 上 相关 联 的 数据 的 更 新 ， 而 不 需要 用 户 点 击 提交 按钮 ， 
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DataGrid 控件 提供 了 一 个 非常 方便 的 方法 显示 查询 结果 。 一 个 DataGrid 和 一 个 DataSet 对 象 相关 
Ik, DataSet 对 象 通常 是 一 个 查询 的 结果 。 服 务 器 生成 将 查询 结果 显示 为 表 的 HTML 代码 。 列 标题 根据 
查询 结果 的 元 数据 自动 生成 。 另 外 ，DataGCrid 提供 了 一 些 功能 ， 比 如 分 页 ， 以 及 允许 用 户 在 所 选 列 上 
对 结果 排序 。 所 有 实现 这 些 特性 的 HTML 代码 以 及 服务 器 端 功能 都 是 由 服务 器 自动 生成 的 。DataCrid 
甚至 允许 用 户 编辑 数据 并 将 更 改 提 交 回 服务 器 。 应 用 开发 人 员 可 以 指定 一 个 函数 在 一 行 数据 被 编辑 时 
执行 ， 这 就 可 以 实现 数据 库 上 的 更 新 。 

Microsoft Visual Studio 为 创建 使 用 这 些 特 性 的 ASP 页 面 提 供 了 图 形 用 户 界 面 ， 进 一 步 减 少 了 编程 的 
THE. 

关于 ASP. NET 的 更 多 信息 ， 请 参看 文献 注解 中 的 参考 文献 。 

9.5.2 Web 应 用 框架 

有 多 种 Web 应 用 开发 框架 都 提供 一 些 常用 的 特性 ， 比 如 

© 一 个 包含 对 象 - 关系 映射 的 面向 对 象 模型 ， 从 而 在 关系 数据 库 中 保存 数据 (如 9. 4. 2 节 所 述 ). 

。 一 种 (相对 ) 声 明 式 的 方式 ， 说 明 一 个 表单 具有 在 用 户 输入 上 的 验证 约束 ， 系 统 据 此 生成 HTML 
和 JavaScript/ Ajax 代码 以 实现 表单 。 

一 个 模板 脚本 系统 (与 JSP 类 似 ) 。 
一 个 控制 器 ， 将 诸如 表单 提交 的 用 户 交互 事件 映射 到 处 理 该 事件 的 适当 函数 上 。 控 制 器 还 管理 
身份 验证 和 会 话 。 一 些 框架 还 提供 管理 身份 验证 的 工具 。 

这 样 ， 这 些 框架 就 以 一 种 集成 的 方式 提供 了 多 种 构建 Web 应 用 所 需 的 特性 。 通 过 根据 声明 规范 生 
成 表单 ， 以 及 透明 地 管理 数据 访问 ， 这 些 框架 最 小 化 了 Web 应 用 程序 员 所 需 完成 的 代码 量 ， 

这 样 的 框架 有 许多 ， 它 们 基于 不 同 语言 。 其 中 一 些 较 为 广泛 使 用 的 框架 包括 Ruby on Rails， 它 是 基 
于 Ruby 程序 设计 语言 的 ， 还 有 JBoss Seam, Apache Struts, Swing, Tapestry 以 及 WebObjects， 它 们 都 是 基 
F Java/JSP 的 。 其 中 的 一 些 (比如 Ruby on Rails 和 JBoss Seam) 提供 自动 生成 简单 CRUD Web 界面 的 工具 ; 
也 就 是 支持 对 象 /元 组 的 创建 、 阅 读 、 更 新 和 删除 的 界面 ， 它 是 通过 对 象 模型 或 数据 库 生 成 代码 的 。 这 种 
工具 在 使 简单 应 用 快速 运行 时 特别 有 用 ， 并 且 可 以 编辑 生成 的 代码 以 构建 更 复杂 的 Web 界面 。 

9. 5.3 报表 生成 器 

报表 生成 器 是 从 数据 库 生 成 人 们 可 读 的 概要 报告 的 工具 。 它 将 生成 格式 化 文本 和 概要 图 表 ( 例如 
条 形 图 或 饼 状 图 ) 与 查询 数据 库 集成 在 一 起 。 例 如 ， 一 个 报表 可 能 会 显示 过 去 的 两 个 月 中 每 个 月 每 个 销 
售 地 区 的 总 销售 额 。 

应 用 开发 人 员 可 以 利用 报表 生成 器 的 格式 化 工具 来 指定 报表 的 格式 。 变 量 可 以 用 来 存储 参数 (如 
月 、 年 ) 以 及 定义 报表 中 的 域 。 表 、 图 、 条 形 图 或 其 他 的 图 可 以 通过 对 数据 库 的 查询 来 定义 。 查 询 定义 
可 以 利用 存储 在 变量 里 的 参数 值 。 

一 旦 在 报表 生成 器 工具 上 定义 了 一 个 报表 的 结构 ， 就 可 以 保存 它 并 可 以 在 任何 时 候 执 行 它 来 产生 
报表 。 报 表 生 成 器 系统 提供 了 多 种 工具 来 组 织 表格 式 输出 ， 如 定义 表 和 列 标题 ， 显 示 表 中 每 一 组 的 小 
计 ， 自 动 将 一 个 长 的 表格 分 成 若干 页 ， 在 每 一 页 末尾 显示 本 页 小 计 等 。 

图 9-12 是 一 个 格式 化 报表 的 例子 。 报 表 中 的 数据 是 按 顺序 对 信息 进行 聚集 产生 的 。 

许多 厂商 都 提供 报表 生成 工具 ， 例 如 Crystal Reports 和 Microsoft( SQL Server Reporting Services), — 
些 应 用 套件 (例如 Microsoft Office ) 提供 了 将 来 自 数 据 库 的 格式 化 查询 结果 直接 做 入 到 文档 中 的 方法 。 
Crystal Reports 提供 的 图 表 生成 工具 或 者 诸如 Excel 提供 的 电子 表格 都 可 以 用 于 从 数据 库 访 问 数据 ， 并 
生成 表格 化 的 数据 展现 或 者 使 用 图 表 或 图 的 图 形 化 方式 展现 数据 。 这 种 图 表 可 以 艇 入 文本 文档 中 。 图 
表 最 初 由 执行 数据 库 查询 生成 的 数据 创建 ; 查询 在 需要 的 时 候 可 以 重新 执行 并 重新 生成 图 表 ， 以 获得 
概要 报表 的 当前 版 本 。 

除了 生成 静态 报表 ， 报 表 生 成 工具 也 支持 创建 交互 式 报 表 。 例 如 ， 用 户 可 以 “下 钴 ”到 感 兴趣 的 区 
域 ， 比 如 从 一 个 显示 全 年 总 销量 的 聚集 视图 转移 到 某 一 年 的 月 销售 图 表 。 在 前 面 5. 6 节 已 讨论 过 这 种 
操作 。 
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总 计 2 100 000 
图 9-12 一 个 格式 化 报表 


9.6 应 用 程序 性 能 


Web 站 点 可 能 被 来 自 全 球 的 数 百 万 人 访问 ， 每 秒 钟 要 处 理 数 千 次 的 请 求 ， 对 于 最 流行 的 站 点 甚至 
更 多 。 确 保 对 请 求 的 服务 有 较 短 的 响应 时 间 是 Web 站 点 开发 人 员 面 临 的 一 个 主要 挑战 。 为 了 做 到 这 
点 ， 应 用 开发 人 员 通 过 利用 诸如 缓存 等 技术 尽 可 能 加 快 处 理 单 个 请 求 的 速度 ， 并 通过 使 用 多 个 应 用 服 
务 器 进行 并 行 处 理 。 我 们 在 下 面 简要 描述 这 些 技 术 。 数 据 库 应 用 调 优 在 后 面 的 第 24 章 (24. 1 节 ) 详 细 
讲述 。 

9. 6. 1 利用 缓存 减少 开销 

多 种 缓存 技术 用 于 充分 利用 事务 之 间 的 共性 。 例 如 ， 假 设 服务 于 每 个 用 户 请 求 的 应 用 程序 代码 都 

需要 通过 JDBC 连接 数据 库 。 因 为 创建 一 个 新 的 JDBC 连接 需要 几 个 上 毫秒 的 时 间 ， 所 以 在 要 支持 很 高 的 

事务 处 理 速度 时 ， 为 每 次 请 求 创建 一 个 新 连接 是 不 合适 的 。 
连接 池 ( connection pooling) 用 来 减轻 这 种 开销 ; 它 是 这 样 工作 的 : 连接 池 管 理 器 (应 用 服务 器 的 一 
部 分 ) 创建 一 个 打开 的 ODBC/JDBC 连接 的 池 。 与 打开 一 个 新 的 数据 库 连 接 不 同 ， 对 用 户 请 求 提 供 服 务 
的 代码 (通常 是 一 个 servlet) 向 连接 池 申 请 (请 求 ) 一 个 连接 ， 然 后 在 代码 (servlet) 完成 处 理 时 将 连接 归 
还 给 连接 池 。 如 果 在 请 求 连接 时 连接 池 没 有 未 使 用 的 连接 ， 则 打开 一 个 新 的 数据 库 连 接 (要 小 心 不 要 超 
过 数据 库 能 同时 支持 的 最 大 连接 数目 ) 。 如 果 有 很 多 打开 的 连接 在 一 段 时 间 内 没有 使 用 ， 连 接 池 管 理 器 
可 能 会 关闭 一 些 打开 的 数据 库 连 接 。 许 多 应 用 服务 器 以 及 较 新 的 ODBC/JDBC 驱动 程序 提供 内 置 的 连 
接 池 管理 器 。 

在 创建 Web 应 用 时 ， 许 多 程序 员 常 犯 的 一 个 错误 是 忘记 关闭 一 个 打开 的 JDBC 连接 (或 者 等 同 地 ， 
在 用 连接 池 的 时 候 ， 忘 记 把 连接 归还 给 连接 池 ) 。 每 个 请 求 则 打开 一 个 新 的 数据 库 连接 ， 而 且 数据 库 很 
快 就 达到 了 同时 能 支持 的 连接 数目 的 上 限 。 这 样 的 问题 通常 在 小 规模 测试 的 时 候 不 会 暴露 出 来 ， 因 为 
数据 库 通 常 能 允许 数 百 个 打开 的 连接 ， 而 仅 会 在 频繁 使 用 的 时 候 显现 出 来 。 某 些 程序 员 以 为 连接 像 
Java 程序 分 配 的 内 存 ， 会 自动 回收 。 遗 憾 的 是 ， 这 不 会 发 生 ， 并 且 程 序 员 有 责任 关闭 他 们 所 打开 的 
连接 。 

某 些 请 求 可 能 导致 向 数据 库 重 新 提交 完全 相同 的 查询 。 只 要 数据 库 中 的 查询 结果 没有 改变 ， 通 过 
缓存 先前 的 查询 结果 并 重用 它们 ， 数 据 库 通信 的 开销 可 以 大 大 减少 。 一些 Web 服务 器 支持 这 样 的 查询 
结果 缓存 ; 如 果 不 支持 的 话 ， 可 以 在 应 用 程序 代码 中 显 式 实现 缓存 。 

通过 缓存 响应 一 个 请 求 所 发 送 的 最 终 Web 页 面 可 以 进一步 减少 开销 。 如 果 新 请 求 和 前 面 的 一 个 
请 求 参 数 完全 一 致 ， 请 求 不 需要 执行 更 新 ， 并且 结果 Web 页 面 在 缓存 中 ,那么 它 就 可 以 重用 ， 从 而 
避免 重新 计算 该 页 面 的 开销 。 缓 存 可 以 在 Web 页 的 片段 级 别 实现 ， 然 后 它们 被 组 装 以 创建 完整 的 
Web 页 。 
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缓存 的 查询 结果 和 缓存 的 Web 页 面 是 物化 视图 的 形式 。 如 果 底 层 数据 库 数据 改动 ， 缓 存 的 结果 必 
须 废弃 ， 或 重新 计算 ,或 甚至 增 量 更 新 ， 就 如 物化 视图 的 维护 (在 后 面 13. 5 节 介绍 ) 那 样 。 某 些 数据 库 
系统 (比如 Microsoft SQL Server) 为 应 用 服务 器 提供 了 一 种 方式 在 数据 库 注 册 查 询 ， 并 且 在 查询 结果 改 
变 时 从 数据 库 得 到 通知 (notification)。 这 种 通知 机 制 可 以 用 于 确保 缓存 在 应 用 服务 器 中 的 查询 结果 是 最 
新 的 。 

9.6.2 并 行 处 理 
处 理 非常 重 的 负载 的 一 个 常用 的 方法 是 并 行 运行 许多 台 应 用 服务 器 ， 每 个 处 理 一 小 部 分 请 求 。 
401] 个 Web 服务 器 或 者 一 个 网 络 路 由 器 可 以 用 于 将 每 个 客户 端的 请 求 路 由 到 一 台 应 用 服务 器 。 来 自 一 个 特 
定 客户 端 会 话 的 所 有 请 求 都 必须 送 到 同一 个 应 用 服务 器 ,因为 服务 器 要 维护 客户 端 会 话 的 状态 。 比 如 ， 
可 以 通过 将 所 有 来 自 一 个 全 地 址 的 请 求 都 路 由 到 相同 的 应 用 服务 器 来 确保 这 个 性 质 。 然 而 ， 底 层 数 据 
库 被 所 有 应 用 服务 器 共享 ， 因 此 用 户 看 到 的 数据 库 是 一 致 的 。 

由 于 在 以 上 架构 中 数据 库 是 共享 的 ， 因 此 它 很 容易 成 为 瓶颈 。 应 用 程序 设计 人 员 通 过 在 应 用 服务 
器 端 缓存 查询 结果 ， 特 别 地 注意 最 小 化 数据 库 请 求 的 数量 。 另 外 ， 当 需要 时 则 使 用 并 行 数据 库 系统 ， 
这 将 在 第 18 章 讲述 。 


9.7 应 用 程序 安全 性 


应 用 程序 安全 性 要 在 SQL 授权 处 理 的 范围 之 外 对 几 种 安全 威胁 和 问题 进行 处 理 。 

第 一 个 必须 要 强制 实施 安全 性 的 地 方 是 在 应 用 程序 里 。 为 此 ， 应 用 程序 必须 对 用 户 进行 身份 验证 ， 
并 确保 用 户 只 允许 完成 授权 的 任务 。 

存在 许多 方法 使 一 个 应 用 程序 的 安全 性 能 够 受到 威胁 ， 即 使 数据 库 系统 本 身 是 安全 的 ， 不 好 的 应 
用 程序 代码 也 会 使 应 用 程序 的 安全 性 受到 威胁 。 本 节 首 先 介 绍 几 种 安全 漏洞 ， 它 们 能 够 允许 黑客 采取 
行动 绕 过 应 用 程序 采取 的 身份 认证 和 授权 检查 ， 并 解释 如 何 防止 这 种 漏洞 。 本 节 后 面 介绍 安全 认证 和 
细 粒 度 授权 的 技术 。 然 后 我 们 介绍 审计 追踪 ， 它 能 够 帮助 从 未 经 授权 的 访问 和 错误 更 新 中 人 恢复。 我们 
通过 介绍 数据 隐私 问题 结束 本 节 。 
9.7.1 SQL 注入 

在 SQL 注入 (SQL injection) 攻击 中 ， 攻 击 者 设法 获取 一 个 应 用 程序 来 执行 攻击 者 生成 的 SQL 查询 。 
在 5.1.1.4 节 中 ， 我 们 看 到 了 一 个 SQL 注入 漏洞 的 例子 ， 如 果 用 户 输入 直接 与 SQL 查询 连 成 一 串 并 提 
交 给 数据 库 。 作 为 SQL 注入 漏洞 的 另 一 个 例子 ， 考 虑 图 9-4 中 所 示 的 表单 源 文本 。 假 设 在 图 9-8 所 示 
的 相应 的 servlet 中 用 以 下 Java 表达 式 创建 了 一 个 SQL 查询 串 : 


String query = “select * from student where name like "9% ”+ name + “%’” 


[402] 其 中 name 是 用 户 输入 的 包含 字符 串 的 变量 ， 并 继而 在 数据 库 上 执行 该 查询 。 利 用 Web 表单 的 恶意 攻 
击 者 则 可 以 键入 诸如 ”” ; < some SQL statement > ; __“ 的 字符 串 ， 蔡 代 一 个 有 效 的 学 生 姓 名 ， 其 中 < 
some SQL statement > 表示 任何 攻击 者 希望 的 SQL 语句 。servlet OEE E 


select * from student where name like’’; < some SQL statement >; - - 


攻击 者 插入 的 引号 结束 该 字符 串 ， 后 面 的 分 号 终止 该 查询 ， 然 后 攻击 者 接 下 来 所 插入 的 文本 被 解析 为 
第 二 条 SQL 查询 ， 而 右 引 号 已 被 注释 掉 。 这 样 ， 该 恶意 用 户 成 功 插 入 被 应 用 程序 执行 的 任意 SQL 语 
句 。 该 语句 可 以 导致 重大 的 损害 ， 因 为 它 能 够 绕 过 应 用 程序 代码 中 实现 的 所 有 安全 措施 ， 在 数据 库 上 
进行 任意 的 操作 。 

如 5.1.1.4 节 所 述 ， 为 了 避免 这 种 攻击 ， 最 好 使 用 预备 语句 来 执行 SQL 查询 。 当 设置 预备 语句 的 
一 个 参数 时 ，JDBC 自动 添加 转 义 字符 ， 从 而 使 得 用 户 提供 的 引号 无 法 再 终止 字符 串 。 等 价 地 ， 添 加 这 
种 转 义 字符 的 操作 也 可 以 在 与 SQL 查询 连接 之 前 用 在 输入 字符 串 上 ， 而 不 使 用 预备 语 铅 。 

SQL 注入 危险 的 另 一 个 来 源 是 基于 表单 中 指定 的 选择 条 件 和 排序 属性 动态 创建 查询 的 应 用 。 例 如 ， 
一 个 应 用 可 能 允许 用 户 指定 用 哪个 属性 对 查询 结果 排序 。 假 设 该 应 用 从 表单 变量 orderAttribute 中 获取 
属性 名 ， 并 创建 了 一 个 查询 串 如 下 : 
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String query = “select* from takes order by ”+ orderAttribute ; 


即使 用 于 获取 输入 的 HTML 表单 通过 提供 表单 试图 限定 所 允许 的 值 ， 一 个 恶意 用 户 仍 可 以 发 送 一 
个 任意 字符 串 蔡 代 一 个 有 意义 的 orderAttribute 值 。 为 了 避免 这 种 SQL 注入 ， 应 用 程序 应 该 在 追加 
orderAttribute 变量 值 之 前 确保 它 是 所 允许 的 值 (在 例子 中 为 属性 名 ) 。 
9.7.2 跨 站 点 脚本 和 请 求 伪造 

一 个 允许 用 户 输 入 诸如 评论 或 姓名 的 文本 ， 然 后 将 其 保存 并 在 以 后 显示 给 其 他 用 户 的 网 站 ， 有 可 
能 会 受到 一 种 攻击 ， 叫 做 跨 站 点 脚本 ( Cross-Site scripting，XSS ) 攻击 。 在 这 种 攻击 中 ， 一 个 恶意 用 户 并 
不 输入 一 个 有 效 的 姓名 或 评论 ， 而 是 输入 用 诸如 JavaScript 或 Flash 的 客户 端 脚本 语言 编写 的 代码 。 当 
另 一 个 用 户 阅览 输入 的 文本 时 ， 浏 览 器 将 会 执行 脚本 ， 它 可 能 会 进行 一 些 操作 ， 比 如 将 私人 的 cookie 
信息 发 送 回 恶意 用 户 ， 或 甚至 在 一 个 用 户 可 能 登录 的 另 一 个 不 同 的 Web 服务 器 中 执行 操作 。 

例如 ， 假 设 该 脚本 执行 的 时 候 用 户 恰巧 登录 了 她 的 银行 账户 。 该 脚本 可 以 将 有 关 银 行 账户 登录 的 
cookie 信息 发 送 回 恶 意 用 户 ， 他 就 可 以 用 该 信息 连接 到 银行 的 Web 服务 器 ， 欺 骗 它 使 它 相 信 该 连接 来 
自 原 用 户 。 或 者 ， 该 脚本 可 以 适当 设置 参数 并 访问 银行 网 站 上 的 适当 网 页 ， 以 执行 转账 ， 事实 上 即使 
不 写 脚 本 而 只 是 用 如 下 的 一 行 代 码 就 能 够 使 这 个 问题 发 生 : 


<img src = 
"http: //mybank. com/transfermoney? amount = 1000&toaccount = 14523" > 


假定 URL mybank. com/transfermoney 接受 指定 的 参数 ， 并 进行 了 转账 。 这 后 一 种 漏洞 又 称 作 跨 站 点 请 求 

伪造 ( Cross-Site Request Forgery 或 XSRF， 有 时 也 称 作 CSRF) ) - 

XSS 可 以 用 其 他 一 些 方式 实现 ， 比 如 引诱 用 户 访 问 有 恶意 脚本 做 入 其 网 页 的 网 站 。 存 在 其 他 更 加 

复杂 的 XSS 或 XSRF 攻击 ， 我 们 在 此 不 再 细 讲 。 为 了 防止 此 类 攻击 ， 需 要 完成 两 件 事 : 

。 防止 你 的 网 站 被 用 来 发 动 XSS 或 XSRF 攻击 。 
最 简单 的 技术 就 是 禁止 用 户 输入 的 任何 文本 中 的 任何 HTML 标签 。 存 在 检测 或 去 除 这 些 标签 的 
函数 。 这 些 函 数 可 以 用 来 防止 HTML 标签 ， 并 就 此 防止 脚本 展示 给 其 他 用 户 。 在 有 些 情况 下 
HTML 格式 是 有 用 的 ， 并 且 在 这 种 情况 下 可 以 使 用 那 种 解析 文本 并 允许 有 限 的 HTML 结构 ， 但 
不 允许 其 他 危险 结构 的 函数 。 这 些 必须 小 心地 设计 ， 因 为 有 时 包含 一 个 跟 图 片 一 样 无 害 的 结构 
也 可 能 是 危险 的 ， 如 果 图 片 显 示 软 件 中 有 一 个 能 发 现 的 错误 - 

© 防止 你 的 网 站 被 其 他 站 点 发 动 的 XSS 或 XSRF 攻击 。 
如 果 该 用 户 已 经 登录 你 的 网 站 ， 并 访问 了 另 一 个 易 受 XSS 攻击 的 网 站 ， 在 该 用 户 的 浏览 器 上 执 
行 的 恶意 代码 则 可 能 在 你 的 网 站 上 执行 操作 ， 或 将 与 你 的 网 站 关联 的 会 话 信 息 发 送 回 试图 利用 
它 的 恶意 用 户 。 无 法 完全 防止 这 种 攻击 ,但 是 你 可 以 采取 几 个 步骤 最 小 化 风险 。 

O HTTP 协议 允许 一 个 服务 器 检查 访问 页 的 引用 页 (referrer) ， 即 用 户 为 了 初始 化 访问 页 而 点 击 
的 链接 所 在 网 页 的 URL。 通 过 检查 引用 页 是 否 有 效 ， 例如， 引用 页 URL 是 同一 个 网 站 上 的 
网 页 ， 源 自用 户 访问 的 不 同 网 页 上 的 XSS 攻击 则 可 以 防止 。 

O 除了 只 使 用 cookie 来 标识 一 个 会 话 外 ， 还 可 以 将 会 话 限制 在 原始 验证 它 的 全 地址 上 。 这 样 ， 
即使 一 个 恶意 用 户 得 到 了 cookie， 他 也 可 能 无 法 从 男 一 台 计算 机 登录 ， 

O 决 不 要 使 用 GET 方法 执行 任何 更 新 。 这 防止 了 利用 <img sre.. > 的 攻击 ， 如 我 们 前 面 所 看 
到 的 。 事 实 上 ， 由 于 其 他 原因 ， 比 如 页 面 的 刷新 重复 了 本 应 只 发 生 一 次 的 操作 ，HTTP 标准 
建议 CET 方法 不 应 该 执行 任何 更 新 。 

9.7.3 密码 泄露 

应 用 程序 开发 人 员 必 须 处 理 的 另 一 个 问题 是 在 应 用 程序 代码 的 明文 中 保存 密码 。 例 如 ， 诸 如 ISP 

脚本 的 程序 通常 在 明文 中 包含 密码 。 如 果 这 种 脚本 保存 在 一 个 Web 服务 器 可 访问 的 目录 中 ， 一 个 外 部 

用 户 就 可 能 能 够 访问 脚本 的 源码 ， 并 获取 应 用 程序 使 用 的 数据 库 账 户 的 密码 。 为 了 避免 这 种 问题 ， 许 

多 应 用 服务 器 提供 用 编码 的 形式 保存 密码 的 机 制 ， 在 传送 给 数据 库 之 前 服务 器 对 其 解码 。 该 功能 去 除 

了 在 应 用 程序 中 将 密码 另存 为 明文 的 需要 。 然 而 ， 如 果 解 码 密 钥 也 容易 暴露 的 话 ， 这 种 方法 就 并 不 完 
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全 有 效 了 。 

作为 处 理 易 受 泄露 的 数据 库 密 码 的 另 一 种 措施 ， 许 多 数据 库 系 统 对 于 数据 库 的 访问 只 限制 在 给 定 
网 络 地 址 集合 中 ， 该 机 制 通常 运行 在 应 用 服务 器 端 。 从 其 他 网 络 地址 企图 连接 数据 库 会 被 拒绝 。 这 样 ， 
除非 恶意 用 户 能 够 登录 应 用 服务 器 ， 否 则 即使 她 获取 了 数据 库 密码 的 访问 权限 她 也 无 法 造成 任何 损害 。 
9.7.4 应 用 程序 认证 

认证 是 指 验证 连接 到 应 用 程序 的 人 /软件 的 身份 。 认 证 最 简单 的 形式 由 一 个 密码 构成 ， 当 一 个 用 户 
连接 到 应 用 程序 时 必须 出 示 该 密码 。 遗 憾 的 是 ， 密 码 容易 泄露 ， 例 如 通过 试 猜 ， 或 者 通过 嗅 探 网 络 中 
的 数据 包 ， 如 果 密 码 没有 加 密 就 传送 的 话 。 对 于 关键 应 用 需要 更 健壮 的 方案 ， 比 如 网 上 银行 账户 。 加 
密 是 更 健壮 的 认证 方案 的 基础 。 通 过 加 密 的 认证 在 9. 8. 3 节 讲 述 。 

许多 应 用 使 用 双 因 素 认 证 (two-factor authentication) ， 其 中 两 个 独立 的 因素 ( 即 信息 或 程序 的 片段 ) 
用 于 识别 一 个 用 户 。 这 两 个 因素 不 应 该 具有 相同 的 弱点 ; 例如 ， 如 果 一 个 系统 只 需要 两 个 密码 ， 二 者 
都 可 能 以 同样 的 方式 泄露 (例如 通过 网 络 嗅 查 ， 或 通过 用 户 使 用 的 计算 机 上 的 病毒 ) 。 虽 然 诸 如 指纹 或 
虹膜 扫描 仪 的 生物 识别 技术 可 以 用 于 在 认证 点 上 用 户 是 物理 存在 的 情况 ， 但 是 跨 网 络 时 它们 就 不 是 很 

405] 有 用 了 。 

在 大 部 分 这 种 双 因 素 认 证 方案 中 ， 密 码 用 作 第 一 个 因素 。 通 过 USB 接口 连接 的 智能 卡 或 其 他 加 密 
设备 ， 可 基于 加 密 技 术 用 于 认证 ( 见 9. 8.3 节 ) ， 它 们 广泛 用 于 第 二 个 因素 。 

一 次 性 密码 设备 ， 每 分 钟 生成 一 个 新 的 伪 随 机 数 ， 也 广泛 用 于 第 二 个 因素 。 给 每 个 用 户 一 个 设备 ， 
为 了 进行 认证 ， 用 户 必须 输入 认证 时 设备 上 所 显示 的 数字 以 及 密码 。 每 个 设备 生成 不 同 的 伪 随 机 数 序 
列 。 应 用 服务 器 能 够 生成 与 用 户 的 设备 相同 的 伪 随 机 数 序列 ， 在 认证 时 在 将 显示 的 数字 处 停 下 来 ， 并 
验证 数字 是 否 匹 配 。 该 方案 需要 设备 中 与 服务 器 端的 时 钟 始 终 是 合理 紧密 同步 的 。 

而 第 二 个 因素 的 另 一 种 方法 是 当 一 个 用 户 想 登 录 一 个 应 用 时 ， 给 用 户 的 手机 (其 号 码 是 早先 已 注 
册 的 ) 发 送 一 条 包含 (随机 生成 的 ) 一 次 性 密码 的 短信 。 用 户 必 须 拥有 一 部 具有 该 号 码 的 手机 以 接收 短 
信 ， 然 后 将 一 次 性 密码 和 她 的 密码 一 起 输入 用 以 认证 。 

然而 即使 使 用 双 因 素 认 证 ， 用 户 可 能 仍 很 容易 受到 中 间 人 (man-in-the-middle ) 攻击 。 在 这 种 攻击 
中 ， 一 个 试图 连接 应 用 的 用 户 被 转向 一 个 虚假 网 站 ， 它 接受 用 户 的 密码 (包括 第 二 因素 密码 ) ， 并 立即 
用 该 密码 到 原始 应 用 中 认证 。9. 8. 3. 2 节 描 述 的 HTTPS 协议 用 于 为 用 户 认 证 网 站 (使 得 用 户 不 会 连接 到 
虚假 网 站 ) HTTPS 协议 还 对 数据 加 密 ， 并 防止 中 间 人 攻击 。 

当 用 户 访问 多 个 网 站 时 ， 用 户 通常 会 因为 不 得 不 分 别 在 每 个 网 站 上 认证 自己 而 感到 不 快 ， 通 常 每 
个 网 站 的 密码 是 不 同 的 。 有 系统 允许 用 户 向 一 个 中 央 认 证 服务 进行 认证 ， 并 且 其 他 网 站 和 应 用 可 以 通 
过 中 央 认 证 服务 对 用 户 进 行 认证 ; 于 是 相同 的 密码 可 以 用 于 访问 多 个 站 点 。LDAP 协议 广泛 用 于 实现 
这 种 中 央 认 证 点 ; 一 些 机 构 实现 了 包含 用 户 名 和 密码 信息 的 LDAP 服务 器 ， 并 且 应 用 程序 使 用 LDAP 
服务 器 对 用 户 进行 认证 。 

除了 认证 用 户外 ， 中 央 认 证 服务 还 能 够 提供 其 他 的 服务 ， 例 如 ， 向 应 用 程序 提供 用 户 的 信息 ， 比 
如 姓名 、E-mail 以 及 地 址 信息 。 这 消除 了 在 每 个 应 用 中 分 别 输入 这 些 信息 的 需要 。 如 19. 10. 2 节 所 述 ， 
LDAP 可 以 用 于 这 个 任务 。 其 他 的 目录 系统 ， 如 微软 的 活动 目录 ， 也 提供 认证 用 户 以 及 提供 用 户 信 息 
的 机 制 。 

单 点 登录 (single sign-on) 系统 还 允许 用 户 只 认证 一 次 ， 且 多 个 应 用 通过 一 个 认证 服务 对 用 户 的 身份 

进行 验证 ， 而 不 需要 再 次 认证 。 也 就 是 说 ， 一 旦 用 户 登 录 一 个 站 点 ， 他 就 不 需要 在 其 他 使 用 相同 单 点 
登录 服务 的 站 点 输入 他 的 用 户 名 和 密码 。 这 种 单 点 登录 机 制 已 长 期 用 于 网 络 认证 协议 ， 比 如 Kerberos, 
并 且 目 前 已 经 有 面向 Web 应 用 的 实现 。 

安全 断言 标记 语言 (Security Assertion Markup Language，SAML ) 是 一 个 在 不 同安 全 域 间 交换 认证 和 
授权 信息 的 标准 ， 以 提供 跨 机 构 单 点 登录 。 例 如 ， 假 设 一 个 应 用 需要 提供 对 一 所 特定 学 校 (比如 说 耶 
鲁 ) 所 有 学 生 的 访问 。 该 学 校 可 以 建立 一 个 基于 Web 的 服务 实施 认证 。 假设 一 个 连接 到 该 应 用 的 用 户 
具有 用 户 名 ， 比 如 “joe@ yale. edu”。 该 应 用 将 该 用 户 转向 耶鲁 大 学 的 认证 服务 对 用 户 认证 ， 而 并 不 直 
接 对 用 户 认 证 ， 并 告诉 应 用 该 用 户 是 谁 且 可 能 提供 一 些 额外 的 信息 ， 比 如 用 户 的 类 别 ( 学 生 或 教师 ) 或 
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者 其 他 相关 的 信息 。 该 用 户 的 密码 以 及 其 他 认证 因素 不 会 显示 给 应 用 ， 并 且 用 户 也 不 需要 对 应 用 程序 
显 式 地 注册 。 不 过 ， 当 认证 用 户 时 ， 该 应 用 程序 必须 信任 学 校 的 认证 服务 。 

OpenID 标准 是 另 一 种 跨 机 构 单 点 登录 的 标准 ， 并 在 近年 来 逐渐 被 接受 。 许 多 流行 的 网 站 ， 比 如 
Google, Microsoft, Yahoo! 等 ， 是 OpenID 认证 提供 方 。 任 何 作 为 OpenID 客户 端的 应 用 程序 则 可 以 使 
用 这 些 提供 方 中 的 任意 一 个 来 认证 用 户 ; 例如 ， 一 个 具有 Yahoo! 账户 的 用 户 可 以 选择 Yahoo! 作为 认 
证 提供 方 。 该 用 户 被 重 定向 到 Yahoo! 进行 认证 ， 并 且 成 功 认 证 后 被 透明 地 重 定向 回应 用 程序 ， 并 能 
够 继续 使 用 应 用 程序 。 

9.7.5 应 用 级 授权 

虽然 SQL 标准 支持 一 种 比较 灵活 的 基于 角色 的 授权 系统 (如 4.6 节 所 述 ) ， 但 SQL 授权 模型 在 一 
典型 应 用 中 对 于 用 户 授权 的 管理 还 是 非常 有 限 的 。 例 如 ， 假 设 你 想 要 所 有 学 生 都 可 以 看 到 他 们 自己 的 
成 绩 ， 但 是 看 不 到 其 他 人 的 成 绩 。 这 样 的 授权 就 无 法 在 SQL 中 表示 ， 原 因 至少 有 两 点 : 

1. 缺乏 最 终 用 户 信息 。 随 着 Web 规模 的 增长 ， 数 据 库 访问 主要 来 自 Web 应 用 服务 器 。 最 终 用 户 
在 数据 库 本 身上 通常 没有 个 人 用 户 标识 ， 并 且 数 据 库 中 可 能 只 存在 单个 用 户 标 识 对 应 于 应 用 服务 器 的 
所 有 用 户 。 因 此 ，SQL 中 的 授权 规范 在 上 述 情景 中 无 法 使 用 。 


应 用 服务 器 能 够 认证 最 终 用 户 ， 并 继而 将 认证 信息 传递 给 数据 库 。 在 本 节 中 我 们 将 假设 函数 [407 | 


syscontext. user_id( ) 返 回 一 个 正在 执行 的 查询 所 代表 的 应 用 程序 用 户 的 标识 。” 

2. 缺乏 细 粒 度 的 授权 。 如 果 我 们 授权 学 生 只 查看 他 们 自己 的 成 绩 的 话 ， 授 权 必 须 是 在 单条 元 组 的 
级 别 上 。 在 目前 的 SQL 标准 中 这 种 授权 是 不 可 能 的 ，SQL 标准 只 允许 在 整个 关系 或 视图 上 ， 或 者 关系 
或 视图 的 指定 属性 上 授权 。 

我 们 可 以 通过 为 每 个 学 生 在 takes 关系 上 创建 一 个 只 显示 该 学 生成 绩 的 视图 ， 绕 过 这 个 限制 。 虽然 
这 样 在 理论 上 可 行 ， 但 是 这 将 会 非常 繁琐 ， 因 为 我 们 需要 为 学 校 中 每 一 个 注册 的 学 生 创建 一 个 这 样 的 
视图 ， 这 是 非常 不 实际 的 。 

另 一 种 方法 是 创建 一 个 视图 形 如 : 

create view studeniTakes as 

select ` 

from takes 

where takes. ID = syscontext. user_id( ) 
随即 向 用 户 授 权 这 个 视图 ， 而 不 是 底层 的 takes 关系 。 然 而 ， 代 表 学 生 所 执行 的 查询 现在 就 必须 是 在 视 
图 studentTakes 上 ， 而 不 是 原始 takes 关系 上 ， 而 代表 教师 所 执行 的 查询 就 可 能 需要 使 用 不 同 的 视图 。 
结果 开发 应 用 程序 的 任务 变 得 更 为 复杂 。 

目前 ， 授 权 的 任务 通常 全 部 由 应 用 程序 执行 ， 绕 过 SQL 授权 机 制 。 在 应 用 级 别 ， 授 权 用 户 访问 特 
定 接口 ， 并 可 能 进一步 被 限制 只 能 查看 或 更 新 某 些 数据 项 。 

虽然 在 应 用 程序 中 执行 授权 给 应 用 程序 开发 人 员 带 来 很 大 的 灵活 性 ， 但 也 存在 一 些 问题 : 

。 检查 授权 的 代码 和 应 用 程序 的 其 他 代码 混合 在 一 起 。 

© 通过 应 用 程序 的 代码 实现 授权 ， 而 不 是 在 SQL 声明 中 授权 ， 使 得 难以 确保 没有 漏洞 。 由 于 一 个 

玻 忽 ， 一 个 应 用 程序 可 能 没有 检查 权限 ， 而 允许 未 权限 的 用 户 访问 机 密 数据 。 








验证 所 有 应 用 程序 都 完成 所 有 需要 的 授权 检查 ， 涉 及 通读 所 有 应 用 服务 器 的 代码 ， 在 一 个 大 的 系 


统 中 是 个 非常 艰巨 的 任务 。 也 就 是 说 ， 应 用 程序 有 一 个 非常 大 的 “表面 积 ”， 这 使 保护 应 用 程序 的 任务 
异常 艰难 。 并 且 事 实 上 ， 安 全 漏洞 在 各 种 实际 生活 应 用 中 都 有 发 现 。 





加 “在 Oracle 中 ， 一 个 使 用 Oracle 的 JDBC 驱动 的 JDBC 连接 可 以 用 OracleConnection. setClientIdentifier( userld ) 函数 设 
置 最 终 用 户 标识 ， 并 且 一 个 SQL 查询 可 以 用 sys_context(“ USERENV' , “CLIENT IDENTIFIER’ ) 函数 检索 用 户 标 
识 s 


日” 数据 库 系统 用 于 管理 大 关系 ,但 是 管理 诸如 视图 的 模式 信息 时 会 假定 数据 量 较 小 ， 从 而 提高 整体 性 能 。 
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与 此 相反 ， 如 果 一 个 数据 库 直 接 支持 细 粒 度 的 授权 ， 则 可 以 在 SQL 级 别 指定 并 强制 执行 授权 规 
则 ， 这 样 表面 积 就 会 小 很 多 。 即 使 一 些 应 用 接口 无 意 中 省 略 了 所 需 的 授权 检查 ，SQL 级 授权 也 能 够 防 
止 非 授 权 操 作 的 执行 。 

一 些 数 据 库 系统 提供 了 细 粒 度 的 授权 机 制 。 例 如 ，Oracle 的 虚拟 私有 数据 库 ( Virtual Private 
Database, VPD) 允许 系统 管理 员 将 一 个 函数 关联 一 个 关系 ; 该 函数 返回 一 个 谓词 ， 该 谓词 必须 加 入 到 
任何 一 个 使 用 该 关系 的 查询 中 ( 对 于 被 更 新 的 关系 可 以 定义 不 同 的 函数 ) 。 例 如 ， 通 过 使 用 我 们 获取 应 
用 程序 用 户 标识 的 语法 ， 关 系 takes 的 函数 可 以 返回 一 个 谓词 ， 比 如 : 


ID = sys_context. user_id( ) 


该 谓词 加 入 到 每 个 使 用 关系 takes 的 查询 的 where 子 句 中 。 结 果 ( 假定 应 用 程序 将 user_id 的 值 设 置 为 学 
生 的 ID) ， 每 个 学 生 只 能 看 见 她 选择 的 课程 所 对 应 的 元 组 。 

这 样 ，VPD 提供 了 在 关系 的 指定 元 组 (或 行 ) 上 的 授权 ， 并 因此 称 为 行 级 授权 (row-level 
authorization) 机 制 。 上述 添 加 谓词 的 方法 中 一 个 潜在 的 问题 是 ， 它 可 能 会 显著 地 改变 一 个 查询 的 含义 
例如 ， 如 果 一 个 用 户 写 了 一 条 查询 来 查找 所 有 课程 的 平均 成 绩 ， 她 最 后 将 只 能 得 到 她 的 成 绩 的 平均 值 ， 
而 非 所 有 课程 的 平均 成 绩 。 虽 然 系 统 对 于 重 写 的 查询 会 给 出 “正确 的 ”答案 ， 但 是 这 个 答案 与 用 户 可 能 
认为 她 所 提交 的 查询 并 不 对 应 。 

关于 Oracle VPD 的 更 多 信息 请 参见 文献 注解 。 

9.7.6 审计 追踪 

审计 追踪 (audit trail) 是 关于 应 用 程序 数据 的 所 有 更 改 ( 插 人/ 删除/ 更新) 的 日 志 ， 以 及 一 些 信 息 ， 
如 哪个 用 户 执行 了 更 改 和 什么 时 候 执 行 的 更 改 。 如 果 应 用 程序 安全 性 被 破坏 ， 或 者 即使 安全 性 没有 被 
破坏 但 是 一 些 更 新 错误 执行 ， 一 个 审计 追踪 能 够 (a) 帮助 找 出 发 生 了 什么 ， 以 及 可 能 是 由 谁 执行 的 操 
E, 并 (b) 帮 助 修复 安全 漏洞 或 错误 更 新 造成 的 损害 。 

例如 ， 如 果 发 现 一 个 学 生 的 成 绩 不 正确 ， 则 可 以 检查 审计 日 志 ， 以 定位 该 成 绩 是 什么 时 候 以 及 如 

409] 何 被 更 新 ， 并 找 出 执行 这 个 更 新 的 用 户 。 该 学 校 还 可 以 利用 审计 追踪 来 跟踪 这 个 用 户 所 做 的 所 有 更 新 ， 
从 而 找到 其 他 错误 或 欺骗 性 的 更 新 ， 并 将 它们 更 正 。 

审计 追踪 还 可 以 用 于 探查 安全 漏洞 ， 在 安全 漏洞 中 用 户 账户 易 汇 露 并 被 人 侵 者 访问 。 例 如 ， 在 用 
户 每 次 登录 时 ， 她 可 能 被 通知 审计 追踪 中 从 最 近 一 次 登录 开始 所 做 的 所 有 更 新 ， 如 果 用 户 发 现 一 个 更 
新 并 不 是 由 她 执行 的 ， 则 有 可 能 该 账户 泄露 。 

可 以 通过 在 关系 更 新 操作 上 定义 适当 的 触发 器 来 创建 一 个 数据 库 级 审计 追踪 (利用 标识 用 户 名 和 
时 间 的 系统 定义 变量 ) 。 然 而 ， 很 多 的 数据 库 系统 提供 了 内 置 机 制 创建 审计 追踪 ， 使 用 更 加 方便 。 具 体 
如 何 创 建 审 计 追 踪 的 细节 随 数据 库 系统 的 不 同 而 不 同 ， 具 体 细 节 应 参考 数据 库 系统 用 户 手册 

数据 库 级 审计 追踪 对 于 应 用 程序 来 说 通常 是 不 够 的 ， 因 为 它们 通常 无 法 追踪 应 用 程序 的 最 终 用 户 
是 谁 。 另 外 ， 它 在 一 个 低级 别 记录 更 新 ， 即 关系 中 元 组 的 更 新 ， 而 并 不 是 在 较 高 的 级 别 ， 即 业务 逻辑 
级 别 。 因 此 ， 应 用 程序 通常 创建 一 个 较 高 级 别 的 审计 追踪 ， 例如， 记录 执行 了 什么 操作 、 何 人 、 何 时 ， 
以 及 请 求 源 自 哪个 全 地址。 

一 个 相关 的 问题 是 防止 审计 追踪 本 身 被 威胁 应 用 程序 安全 的 用 户 修改 或 删除 。 一 个 可 能 的 解决 方 
法 是 将 审计 追踪 备份 到 入 侵 者 无 法 访问 的 另 一 台 机 器 中 ， 每 条 追踪 记录 一 旦 生成 立即 复制 。 

9.7.7 隐私 

目前 ， 越 来 越 多 的 个 人 数据 都 可 以 在 线 获取 ， 人 们 也 越 来 越 担 心 他 们 的 数据 隐私 。 例 如 ， 大 多 数 
人 都 希望 他 们 的 私人 医疗 数据 保持 私密 而 不 会 公开 暴露 。 但 是 ， 这 些 医疗 数据 又 必须 开放 给 治疗 病人 
的 医生 和 和 急救 人 员 。 许 多 国家 都 具有 针对 这 种 数据 隐私 的 法 律 ， 定 义 了 数据 在 什么 时 候 以 及 对 谁 可 以 
显示 。 违 反 隐私 法 在 某 些 国家 能 够 导致 刑事 处 罚 。 访 问 这 种 隐私 数据 的 应 用 程序 的 创建 必须 小 心 ， 谨 
记 隐 私法 律 。 

另 一 方面 ， 聚 集 后 的 隐私 数据 在 许多 任务 中 可 以 扮演 重要 的 角色 ， 比 如 检测 药物 的 副作用 ， 或 者 
探查 流行 病 的 蔓延 。 如 何 使 这 些 数 据 可 以 为 执行 这 种 任务 的 研究 人 员 所 用 ， 而 又 不 侵犯 个 人 的 隐私 ， 
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这 是 一 个 重要 的 现实 问题 。 例 如 ， 假 定 一 家 医院 隐藏 了 患者 的 名 字 ， 但 是 给 研究 人 员 提 供 了 患者 的 出 
生日 期 和 邮政 编码 (这 二 者 可 能 对 研究 人 员 都 有 用 ) 。 在 很 多 情况 下 ， 仅 使 用 这 两 个 信息 就 可 以 唯一 标 
识 患 者 (使 用 外 部 数据 库 中 的 信息 ) ， 侵 犯 了 他 的 隐私 。 在 这 个 特定 情况 下 ， 一 个 解决 方法 是 随 邮政 纺 
码 一 起 只 提供 出 生年 份 而 不 提供 出 生日 期 , 这 对 于 研究 人 员 可 能 就 足够 了 。 对 大 多 数 人 ， 这 将 不 足以 
唯一 确定 一 个 人 。” 

男 举 一 个 例子 ，Web 站 点 通常 会 收集 个 人 数据 ， 比 如 地 址 、 电 话 、 电 子 邮 件 以 及 信用 卡 信 息 。 这 
种 信息 在 执行 交易 时 可 能 会 需要 ， 比 如 从 商店 购买 商品 。 但 是 ， 顾 客 可 能 不 希望 这 些 信息 公开 给 其 他 
组 织 , 或 者 可 能 希望 其 中 部 分 信息 ( 比如 信用 卡号 码 ) 能 够 在 一 段 时 间 之 后 清除 ， 避 免 它 们 在 发 生 安全 
问题 时 落 入 未 授权 的 人 手中 。 许 多 Web 站 点 允许 客户 指定 他 们 的 隐私 偏好 ， 并 且 必 须 确保 遵守 这 些 偏 
好 设置 。 


9.8 加密 及 其 应 用 


加 密 是 指 将 数据 转换 成 一 种 除非 使 用 反 过 程 解密 否则 不 可 读 的 形式 的 过 程 。 加 密 算法 使 用 一 个 加 
密 密 钥 执行 加 密 ， 并 需要 一 个 解密 密 钥 ( 它 可 以 和 加 密 密 钥 相 同 ， 这 是 由 使 用 的 加 密 算 法 决定 的 ) 来 执 
行 解密 。 

加 密 最 早 是 用 于 发 送 消息 ， 用 一 个 只 有 发 送 者 和 接收 者 知道 的 密 钥 加 密 消息 。 即 使 消息 被 敌 方 截 
获 ， 不 知道 密 钥 的 敌 方 也 将 无 法 解密 并 理解 该 消息 。 今 天 ， 加 密 广泛 使 用 ， 它 在 多 种 应 用 中 保护 传输 
中 的 数据 ， 比 如 互联 网 中 的 数据 传输 ， 以 及 移动 电话 网 络 中 的 数据 传输 。 我 们 将 在 9. 8. 3 节 中 看 到 ， 
加 密 还 用 于 执行 其 他 一 些 任务 ( 比如 身份 验证 ) 。 

在 数据 库 方面 ， 加 密 用 来 以 一 种 安全 的 方式 存储 数据 ， 从 而 即使 数据 被 一 个 未 授权 的 用 户 获 取 ( 例 
如 ， 一 个 包含 数据 的 笔记 本 电脑 被 偷 ) ， 如 果 没 有 解密 密 钥 的 话 数据 也 无 法 访问 。 

目前 ， 许 多 数据 库 都 存储 敏感 客户 信息 ， 比 如 信用 卡号 码 、 姓 名 、 指 纹 、 签 名 以 及 身份 证 号 码 ， 
例如 在 美国 就 是 社会 保险 号 。 一 个 获取 了 这 种 数据 的 访问 权限 的 罪犯 能 够 将 其 用 于 多 种 非法 活动 ， 比 
如 使 用 一 个 信用 卡号 码 购买 物品 ， 或 者 甚至 用 他 人 的 名 字 申 请 信用 卡 。 诸 如 信用 卡 公 司 的 机 构 利用 个 
人 信息 来 识别 谁 在 请 求 服务 或 物品 。 这 种 个 人 信息 的 泄露 使 罪犯 可 以 假冒 其 他 人 并 获取 服务 和 物品 ; 
这 种 假冒 称 作 身 份 盗窃 (identity theft) 。 因 此 ， 存 储 这 种 敏感 数据 的 应 用 程序 必须 非常 小 心地 保护 它们 
不 被 盗用 。 

为 了 减少 敏感 信息 被 罪犯 获取 的 机 会 ， 目 前 许多 国家 和 州 通过 法 律 要 求 任 何 存 储 这 种 敏感 信息 的 
数据 库 必须 以 加 密 形 式 存 储 信息 。 因 此 ， 一 个 不 保护 其 数据 的 企业 一 旦 发 生 数据 盗用 ， 就 可 以 被 追究 
刑事 责任 。 因 而 ， 加 密 是 任何 存储 这 种 敏感 信息 的 应 用 程序 的 重要 部 分 。 

9.8.1 加 密 技 术 

加 密 数 据 的 技术 数不胜数 。 简 单 的 加 密 技 术 可 能 无 法 提供 足够 的 安全 性 ， 因 为 未 授权 用 户 可 能 会 
轻易 地 就 将 编码 破译 。 作 为 弱 加 密 技 术 的 例子 ， 考 虑 用 字母 表 中 的 下 一 个 字母 替代 每 个 字母 的 情况 。 
这 样 ， 

Perryridge 
就 变 成 了 
Qfsszsjehf 
如 果 未 授权 用 户 仅仅 看 到 “Qfsszsjehf” ， 她 可 能 还 不 具有 充足 的 信息 破译 编码 。 但 是 ， 如 果 侵 信者 看 到 
大 量 加 密 后 的 支行 名 称 ， 她 就 能 够 使 用 关于 字符 相对 频率 的 统计 数据 来 猜测 所 做 的 替代 是 如 何 的 ( 例 
如 , 巨 是 英语 中 最 常用 的 字母 ， 接 下 来 是 7T、4、0、N、/ 等 ) 。 
一 个 好 的 加 密 技 术 具 有 如 下 性 质 : 





加 ”对 于 年 纪 特 别 大 的 人 ， 由 于 比较 稀少 ， 即 使 只 是 出 生年 份 加 上 邮政 编码 都 足以 唯一 确定 一 个 人 ， 因 此 对 于 80 岁 
以 上 的 人 ， 可 以 提供 值 的 一 个 范围 ， 比 如 80 岁 及 以 上 ， 而 不 是 其 实际 年 龄 。 
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© 对 于 授权 用 户 ， 加 密 数 据 和 解密 数据 相对 简单 。 

© 加密 模 式 不 应 依赖 于 算法 的 保密 ， 而 应 依赖 于 被 称 作 加 密 密 钥 的 算法 参数 ， 该 密 钥 用 于 加 密 数 
据 。 在 对 称 密 钥 (symmetric- key) 加 密 技术 中 , 加 密 密 钥 也 用 于 解密 数据 。 相 反 ， 在 公 钥 加 密 
(public-key) (也 称 作 非 对 称 密 钥 (asymmetric-key) ) 加 密 技术 中 ， 存 在 两 个 不 同 的 密 钥 ， 公 钥 和 
私 钥 ， 分 别 用 于 加 密 和 解密 数据 。 

© 对 人 侵 者 来 说 ， 即 使 当 他 已 经 获得 加 密 数据 的 访问 权限 了 ， 确 定 解密 密 钥 仍 是 极其 困难 的 。 在 
非 对 称 密 钥 加 密 的 情况 中 ， 即 使 已 有 公 钥 ， 推 断 出 私 钥 也 是 极其 困难 的 。 

扩展 加 密 标 准 ( Advanced Encryption Standard, AES) 是 一 种 对 称 密 钥 加 密 算法 ， 它 作为 一 种 加 密 标 

准 于 2000 年 被 美国 政府 所 采用 ， 并 且 目 前 广泛 使 用 。 该 标准 基于 Rijndael 算法 ( Rijndael algorithm) ( 根 

412| HAHA V. Rijmen #il J. Daemen 命名 ) 。 该 算法 每 次 对 一 个 128 位 的 数据 块 操 作 ， 密 钥 的 长 度 可 以 是 
128, 192 或 256 位 。 该 算法 运行 一 系列 步 又， 以 一 种 解码 时 可 逆 的 方式 将 数据 块 中 的 位 打 乱 ， 并 将 其 
与 一 个 来 自 加 密 密 钥 的 128 位 的 “回合 金 钥 ”做 异 或 操作 。 对 于 每 一 个 加 密 的 数据 块 都 由 加 密 密 钥 生 成 
一 个 新 的 回合 金 钥 。 在 解密 过 程 中 ， 再 次 根据 加 密 密 钥 生 成 回合 金 铀 ， 并 且 逆 转 加 密 过 程 从 而 恢复 原 
始 数据 。 一 个 称 作 数 据 加 密 标准 (Data Encryption Standard, DES) 的 早期 标准 于 1977 年 采用 ， 并 在 早期 
广泛 使 用 。 

对 于 任意 对 称 密 钥 加 密 模 式 的 使 用 ， 授 权 用 户 通 过 一 个 安全 机 制 得 到 加 密 密 钥 。 这 个 要 求 是 它 的 
一 大 弱点 ， 因 为 模式 的 安全 不 高 于 加 密 密 钥 传 输 机 制 的 安全 。 

公 钥 加 密 ( public-key encryption) 是 另 一 种 模式 ， 它 避免 了 对 称 密 钥 加 密 技术 面临 的 一 些 问 题 。 它 
基于 两 个 密 钥 : 一 个 公 钥 和 一 个 私 钥 。 每 个 用 户 U A—4T E 和 一 个 私 钥 D;。 所 有 公 钥 都 是 公开 
的 : 任何 人 都 可 以 看 到 。 每 个 私 钥 都 只 由 拥有 它 的 用 户 知 道 。 如 果 用 户 U, 想 要 存储 加 密 数据 ， 忆 就 
使 用 公 钥 E, 加 密 数 据 。 解 密 需 要 私 钥 D o 

因为 加 密 密 钥 对 每 个 用 户 公 开 ， 所 以 我 们 有 可 能 利用 这 一 模式 安全 地 交换 信息 。 如 果 用 户 局 希望 
与 U, 共享 数据 ， 那 么 U, 就 用 U, WA E, 来 加 密 数据 。 由 于 只 有 用 户 U, 知道 如 何 对 数据 解密 ， 因 此 
信息 可 以 安全 地 传输 。 

要 使 公 钥 加 密 发 挥 作用 ， 在 给 定 公 钥 后 ， 必 须 有 一 个 让 人 很 难 推断 出 私 钥 的 加 密 模式 。 这 样 的 模 
式 确实 存在 ， 并 且 建 立 在 如 下 条 件 基础 之 上 : 

© 存在 一 个 高 效 算法 ， 测 试 某 个 数字 是 否 为 素数 。 

。 对 于 求解 一 个 数 的 素数 因子 ， 没 有 高 效 算法 。 

为 了 这 一 模式 ,数据 被 看 作 一 组 整数 。 我 们 通过 计算 两 个 大 素数 P, 和 P, 的 积 来 创建 公 钥 。 私 钥 
HCP, P,) 对 构成 。 如 果 只 知道 乘积 P,P,， 解 密 算法 无 法 使 用 成 功 ; 它 需 要 P, MP, 各 自 单独 的 值 。 
由 于 公开 的 只 是 乘积 P,P,， 因 此 未 授权 用 户 为 了 窍 取 数 据 就 需要 对 P,P, 做 因数 分 解 。 通 过 将 P, 和 P, 
选 得 足够 大 (超过 100 4), 我们 可 以 使 对 P,P, 做 因数 分 解 的 代价 极 高 (即使 在 最 快 的 计算 机 上 ， 计 算 
时 间 也 需要 以 年 来 计算 ) 。 

关于 公 钥 加 密 的 细节 以 及 该 技术 性 质 的 数学 证 明 请 参见 文献 注解 。 

尽管 使 用 上 述 模式 的 公 钥 加 密 是 安全 的 ， 但 是 它 的 计算 代价 很 高 。 一 种 广泛 用 于 安全 通信 的 混合 

413 | 模式 如 下 : 随机 产生 一 个 对 称 加 密 密 钥 (例如 基于 AES) ， 使 用 公 钥 加 密 模 式 以 一 种 安全 的 方式 交换 ， 
并 使 用 该 密 钥 对 随后 传输 的 数据 进行 对 称 密 钥 加 密 。 

词典 攻击 ( dictionary attack ) 使 得 对 诸如 标识 符 或 名 字 等 小 值 的 加 密 变 得 复杂 ， 特 别 是 当 加 密 密 钥 
公开 时 。 例 如 ， 如 果 生 日 域 被 加 密 了 ， 当 一 个 攻击 者 试图 对 一 个 特定 的 加 密 值 e 解密 时 ， 他 可 以 试 着 
对 任何 可 能 的 生日 加 密 ， 直 到 他 找到 一 个 生日 ， 其 加 密 后 的 值 与 e 匹 配 。 即 使 当 加 密 密 钥 未 公开 ， 也 
可 以 利用 数据 分 布 的 统计 信息 找 出 一 个 加 密 的 值 在 一 些 情况 下 代表 什么 ， 比 如 年 龄 或 邮政 编码 。 例 如 ， 
如 果 在 数据 库 中 18 岁 是 最 普遍 的 年 龄 ， 则 加 密 后 的 年 龄 值 中 出 现 最 多 的 通常 可 推断 出 代表 18。 

可 以 通过 在 加 密 之 前 往 值 的 末尾 添加 额外 随机 位 (并 在 解码 后 将 其 删除 ) 来 防止 词典 攻击 。 这 种 额 
外 位 在 AES 中 称 为 初始 化 矢量 (initialization vector) ， 或 在 其 他 情况 下 称 为 salt 位 ， 它 能 面 对 词 典 攻击 提 
供 良好 的 保护 。 
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9.8.2 数据 库 中 的 加 密 支 持 

当前 ， 许 多 文件 系统 和 数据 库 系统 都 支持 数据 加 密 。 这 种 加 密使 数据 免 受 那些 能 够 访问 数据 却 无 
法 访问 解密 密 钥 的 人 的 攻击 。 在 文件 系统 加 密 的 情况 下 ， 要 加 密 的 数据 通常 是 大 文件 以 及 包含 文件 信 
息 的 目录 。 

而 在 数据 库 的 情况 下 ， 加 密 可 以 在 多 个 不 同 级 别 上 进行 。 在 最 低 的 级 别 上 ， 使 用 数据 库 系统 软件 
的 密 钥 ， 可 以 加 密 包含 数据 库 数据 的 磁盘 块 。 当 从 磁盘 上 获取 一 个 磁盘 块 时 ， 它 先 被 解密 然后 以 平常 
的 方式 使 用 。 这 种 磁盘 块 级 别 的 加 密 抵御 了 那些 能 访问 磁盘 内 容 但 不 能 访问 密 钥 的 攻击 者 。 

在 一 个 高 级 别 上 ， 关 系 中 指定 的 (或 所 有 的 ) 属 性 可 以 用 加 密 的 形式 存储 。 在 这 种 情况 中 ， 关 系 的 
每 个 属性 可 以 具有 不 同 的 加 密 密 钥 。 目 前 ， 许 多 数据 库 支 持 指定 属性 级 别 的 加 密 以 及 整个 关系 所 有 级 
别 或 者 数据 库 中 所 有 关系 的 加 密 。 指 定 属性 的 加 密 通 过 让 应 用 程序 只 对 诸如 信用 卡号 码 等 包含 敏感 值 
的 属性 加 密 ， 最 小 化 解密 的 开销 。 然 而 ， 虽 然 单个 属性 或 关系 可 以 加 密 ， 但 是 数据 库 通 常 不 允许 主 码 
和 外 码 属性 加 密 ， 并 不 支持 加 密 属性 上 的 索引 。 如 前 文 所 述 ， 加 密 还 需要 使 用 额外 随机 位 来 防止 词典 
攻击 。 

为 了 访问 加 密 的 数据 ， 显 然 需要 一 个 解密 密 钥 。 单 个 主 加 密 密 钥 可 能 用 于 所 有 的 加 密 数 据 ; 在 属 
性 级 别 的 加 密 中 ， 可 以 对 不 同 的 属性 使 用 不 同 的 加 密 密 钥 。 在 这 种 情况 下 ， 可 以 将 不 同属 性 的 解密 密 
钥 保 存在 一 个 文件 或 关系 中 (通常 称 为 “ 钱 夹 ") ， 它 本 身 也 用 主 密 钥 加密 。 

一 个 需要 访问 加 密 属性 的 数据 库 的 连接 必须 提供 主 密 钥 ; 除非 提供 了 主 密 钥 ,否则 该 连接 将 无 法 
访问 加 密 数 据 。 主 密 钥 要 保存 在 应 用 程序 中 (通常 在 一 台 不 同 的 计算 机 上 ) ， 或 者 由 数据 库 用 户 记 住 ， 
并 在 用 户 连 接 到 数据 库 时 提供 。 

数据 库 级 别 的 加 密 具 有 需要 相对 小 的 时 空 开 销 的 优点 ， 并 且 不 需要 对 应 用 程序 进行 修改 。 例 如 ， 
如 果 笔 记 本 电脑 数据 库 中 的 数据 需要 防范 来 自 计 算 机 本 身 的 窃贼 ， 就 可 以 使 用 这 种 加 密 。 类 似 地 ， 访 
问 数 据 库 备份 磁带 的 人 ， 如 果 没 有 解密 密 钥 则 将 不 能 访问 磁带 中 包含 的 数据 。 

在 数据 库 中 执行 加 密 的 另 一 个 方法 是 在 数据 发 送 到 数据 库 之 前 对 其 加 密 。 于 是 ， 应 用 程序 则 必须 
在 将 数据 发 送 给 数据 库 之 前 对 其 加 密 ， 并 当 获 取 到 数据 时 对 其 解密 。 与 在 数据 库 系 统 中 执行 加 密 不 同 ， 
这 种 数据 加 密 方法 需要 对 应 用 程序 进行 大 量 的 修改 。 

9.8.3 加密 和 认证 

基于 密码 的 认证 广泛 用 于 操作 系统 和 数据 库 。 然 而 ， 密 码 的 使 用 具有 一 些 缺 陷 ， 特 别 是 在 网 络 上 
的 时 候 。 如 果 一 个 窃听 者 能 够 “窃听 ”网 络 上 传送 的 数据 ， 她 就 可 能 能 够 当 密 码 在 网 络 上 传送 时 找到 密 
码 。 一 旦 窃听 者 具有 用 户 名 和 密码 ， 她 就 可 以 假装 成 合法 用 户 连 接 到 数据 库 。 

一 个 较为 安全 的 机 制 包括 一 个 询问 - 回答 (challengE-Response ) 系统 。 数 据 库 系 统 发 送 一 个 询问 字 
符 串 给 用 户 ， 用 户 用 一 个 密码 作为 加 密 密 钥 对 询问 字符 串 加 密 ， 然 后 返回 结果 。 数 据 库 系统 可 以 通过 
用 同样 的 密码 把 字符 串 解 密 并 检查 结果 是 不 是 和 原始 询问 字符 串 一 样 来 验证 用 户 的 身份 。 这 个 机 制 确 
保 没 有 密码 在 网 络 上 传输 。 

公 钥 系统 可 以 在 询问 - 回答 系统 中 用 于 加 密 。 数 据 库 系统 使 用 用 户 的 公 钥 加 密 询问 字符 串 ， 并 把 
它 发 送 给 用 户 。 用 户 用 她 的 私 钥 对 字符 串 解密 ， 并 把 结果 返回 给 数据 库 系统 。 数 据 库 系统 随后 检查 该 
应 答 。 这 个 方案 具有 新 增 的 优势 ， 它 不 在 可 能 被 系统 管理 员 看 到 的 数据 库 中 存储 密码 。 

将 一 个 用 户 的 私 钥 存储 在 计算 机 (甚至 是 个 人 计算 机 ) 中 是 有 风险 的 ， 如 果 该 计算 机 受到 攻击 ， 密 
钥 可 能 会 暴露 给 攻击 者 ， 该 攻击 者 就 可 以 假冒 该 用 户 。 智 能 卡 (smart card) 对 于 该 问题 提供 了 一 种 解决 
方案 。 在 一 张 智 能 卡 中 ， 密 码 可 以 存储 在 一 块 嵌入 的 芯片 中 ; 智能 卡 的 操作 系统 保证 该 密码 绝对 不 会 
被 读 取 ， 但 是 允许 数据 被 发 送 至 卡 上 ， 使 用 私 钥 进行 加 密 或 解密 。 

9.8.3.1 数字 签名 

公 钥 加 密 的 另 一 个 有 趣 的 应 用 是 数字 签名 ( digital signature) ， 它 用 来 验证 数据 的 真实 性 ; 数字 签名 





O 智能 卡 也 提供 了 其 他 功能 ， 比 如 数字 化 现金 存储 和 支付 ， 不 过 这 与 我 们 的 讨论 无 关 。 
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扮演 文档 上 物理 签名 的 电子 角色 。 私 钥 用 来 对 数据 “签名 ”， 即 加 密 ， 且 签名 后 的 数据 可 以 公开 。 所 有 
人 都 可 以 通过 用 公 钥 解密 数据 来 验证 签名 ,但 没有 私 钥 的 人 无 法 生成 签名 的 数据 。( 注意 在 这 个 方案 中 
公 钥 和 私 钥 角色 的 互 换 ) 这 样 ， 我们 就 可 以 认证 (authenticate) 该 数据 ; 也 就 是 我 们 可 以 验证 数据 确实 是 
由 声称 创建 这 些 数据 的 人 所 创建 。 

另外 ， 数 字 签 名 也 可 以 用 来 确保 认可 (nonrepudiation ) 。 也 就 是 ， 在 一 个 人 创建 了 数据 过 后 声称 她 
没有 创建 它 ( 声 称 没 有 签 支票 的 电子 等 价 ) 的 情况 下 ， 我 们 可 以 证 明 那 个 人 肯定 创建 了 该 数据 ( 除非 她 
的 私 钥 被 泄露 给 其 他 人 ) 。 

9. 8.3.2 数字 证 书 

通常 认证 是 一 个 双向 的 过 程 ， 交 互 实体 的 双方 都 要 向 对 方 认证 自己 的 身份 。 这 种 成 对 的 认证 是 很 
有 必要 的 即使 当 客户 端 访问 一 个 Web 站 点 时 ， 可 以 防止 一 个 恶意 站 点 冒充 成 一 个 合法 的 Web 站 点 。 例 
如 ， 如 果 网 络 路 由 器 被 攻击 了 ， 数 据 被 重新 路 由 到 恶意 站 点 的 时 候 ， 这 种 冒充 就 可 能 发 生 。 

为 了 确保 用 户 与 真实 的 Web 站 点 交互 ， 她 必须 拥有 该 站 点 的 公 钥 。 这 带 来 了 一 个 问题 : 该 用 户 如 
何 获取 公 钥 一 一 如 果 公 钥 存 储 在 该 Web 站 点 上 ， 恶 意 站 点 也 可 以 提供 一 个 不 同 的 密 钥 ， 用 户 将 无 法 验 
证 提供 的 公 钥 是 否 是 真实 的 。 认 证 可 以 通过 数字 证 书 ( digital certificate) 系统 来 处 理 ， 公 钥 由 一 个 公 钥 
公开 的 认证 机 构 签 名 。 例 如 ， 根 认证 机 构 的 公 钥 保存 在 标准 的 Web 浏览 器 中 。 它 们 签署 的 证 书 可 以 使 
用 保存 的 公 钥 来 验证 。 

两 级 系统 将 会 给 根 认证 机 构 带 来 创建 证 书 这 一 巨大 负担 ， 因 此 采用 多 级 系统 取而代之 ， 该 系统 有 
一 个 或 多 个 根 认 证 机 构 ， 并 在 每 个 根 认证 机 构 下 有 一 棵 认证 机 构 树 。 每 个 机 构 ( 除 了 根 机 构 ) 都 有 其 父 
机 构 签 署 的 一 个 数字 证 书 。 

416 认证 机 构 4 签署 的 一 个 数字 证 书 由 一 个 公 钥 K, 和 一 个 可 以 用 公 钥 及 解密 的 加 密 文 本 EE 构成 。 该 
加 密 文本 包括 该 证 书签 发 给 的 团体 名 称 以 及 它 的 公 钥 Ke。 在 认证 机 构 A 不 是 根 认 证 机 构 的 情况 下 ， 该 
加 密 文本 还 包含 由 其 父 认证 机 构 签发 给 4 的 数字 证 书 ; 这 个 证 书 认 证 了 密 钥 K, 本 身 。!( 该 证 书 可 能 依 
次 包含 上 一 级 父 机 构 的 证 书 ， 直 至 根 机 构 ) 

要 验证 一 个 证 书 ， 加 密 文本 天 通过 使 用 公 钥 K, 解密 从 而 获得 团体 名 称 ( 即 拥有 该 网 站 的 机 构 的 名 
PK); 另外 ， 如 果 4 不 是 一 个 根 机 构 ， 其 公 钥 K, 会 递归 地 使 用 E 中 包含 的 数字 证 书 进行 验证 ; 递归 在 
由 根 机 构 签 发 的 证 书 到 达 时 终止 。 对 证 书 的 验证 建立 起 一 个 认证 特定 站 点 的 链 ， 并 且 提 供 了 站 点 的 名 
称 以 及 认证 的 公 钥 。 

数字 证 书 广泛 用 于 为 用 户 认 证 Web 站 点 ， 以 防止 恶意 站 点 冒充 成 其 他 Web 站 点 。 在 HTTPS 协议 
(HTTP 协议 的 安全 版 本 ) 中， 站 点 向 浏览 器 提供 它 的 数字 证 书 ， 然 后 浏览 器 将 证 书 显示 给 用 户 。 如 果 
用 户 接受 该 证 书 ， 浏 览 器 则 使 用 提供 的 公 钥 来 加 密 数 据 。 一 个 恶意 的 站 点 将 能 够 访问 该 证 书 ， 但 是 不 
能 访问 私 钥 ， 因 此 无 法 解密 浏览 器 发 送 的 数据 。 只 有 拥有 相应 私 钥 的 真实 站 点 ， 能 够 解密 浏览 器 发 送 
的 数据 。 我 们 注意 到 公 钥 / 私 钥 加 密 和 解密 的 代价 远 远 高 于 使 用 对 称 私 钥 进 行 加 密 /解密 的 代价 。 为 了 
减少 加 密 代价 ，HTTPS 实际 上 在 认证 之 后 创建 一 个 一 次 性 的 对 称 密 钥 ， 并 在 随后 的 会 话 中 采用 该 对 称 
密 钥 加 密 数据 。 

数字 证 书 也 可 以 用 于 认证 用 户 。 用 户 必须 向 站 点 提交 一 个 包含 她 的 公 钥 的 数字 证 书 ， 该 站 点 验证 
该 证 书 是 由 一 个 可 信 的 机 构 签发 。 而 后 该 用 户 的 公 钥 则 可 以 用 在 询问 - 应 答 系统 中 ， 以 确保 用 户 拥 有 
相应 的 私 钥 ， 并 以 此 认证 用 户 。 


9.9 BE 


。 在 后 端 使 用 数据 库 并 与 用 户 交 互 的 应 用 程序 自 20 世纪 60 年 代 以 来 一 直 在 使 用 。 应 用 程序 架构 在 此 
期 间 不 断 发 展 。 目 前 ， 大 多 数 应 用 程序 都 使 用 Web 浏览 器 作为 它们 的 前 端 ， 数 据 库 作为 它们 的 后 
端 ， 以 及 一 个 应 用 服务 器 介 于 其 间 。 
© HTML 提供 了 定义 将 超 链 接 与 表单 功能 相 结合 的 界面 的 能 力 。Web 浏览 器 通过 HTTP 协议 与 Web 服 
务 器 通信 。Web 服务 器 可 以 将 请 求 传递 给 应 用 程序 ， 并 将 结果 返回 浏览 器 。 
417 © Web 服务 器 执行 应 用 程序 以 实现 所 需 的 功能 。servlet 是 一 个 广泛 使 用 的 机 制 ， 它 用 于 编写 能 够 作为 
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Web 服务 器 进程 的 一 部 分 运行 的 应 用 程序 ， 从 而 减少 开销 。 另 外 还 存在 几 种 由 Web 服务 器 解释 的 服 


务 器 端 脚本 语言 ， 作 为 Web 服务 器 的 一 部 分 提供 应 用 程序 功能 。 


。 有 多 种 客户 端 脚本 语言 


用 于 显示 结果 的 查看 机 制 。 它 们 可 能 还 包括 一 个 实现 了 对 象 - 关系 映射 的 数据 访问 层 。 





Javascript 使 用 最 为 广泛 一 一 在 浏览 器 端 提供 更 丰富 的 用 户 交互 。 
。 复杂 的 应 用 程序 通常 具有 一 个 多 层 的 架构 ， 包 括 一 个 实现 业务 逻辑 的 模型 、 一 个 控制 器 ， 以 及 一 个 


序 实现 并 使 用 Web 服务 RFE HTTP 上 调用 函数 。 
。 目前 已 经 开发 出 了 许多 工具 用 于 快速 应 用 开发 ， 特 别 是 用 来 减少 构建 用 户 界 面 所 需 的 工作 。 
© 诸如 多 种 形式 的 缓存 (包括 查询 结果 缓存 和 连接 池 ) 以 及 并 行 处 理 的 技术 用 于 提高 应 用 程序 性 能 。 
。 应 用 程序 开发 人 员 必 须 小 心 注意 安全 问题 ， 以 防止 受到 攻击 ， 比 如 SQL 注入 攻击 及 跨 站 点 脚本 攻击 。 
© SQL 授权 机 制 是 粗 粒度 的 ， 并 且 对 于 处 理 大 量 用 户 的 应 用 只 具有 有 限 的 价值 。 目 前 ， 应 用 程序 完全 
在 数据 库 系 统 之 外 实现 了 细 粒 度 的 、 元 组 级 别 的 授权 ， 以 处 理 大 量 应 用 程序 用 户 。 提 供 元 组 级 访问 
控制 和 处 理 大 量 应 用 程序 用 户 的 数据 库 扩 展 已 开发 出 ， 但 还 没有 成 为 标准 。 
。 保护 数据 的 隐私 是 数据 库 应 用 的 一 项 重要 任务 。 许 多 国家 都 有 法 律 规定 保护 某 些 类 型 的 数据 ， 比 如 


信用 卡 信息 或 医疗 数据 。 


许多 应 用 程 


。 加 密 在 保护 信息 以 及 认证 用 户 和 Web 站 点 中 扮演 了 关键 角色 。 对 称 密 钥 加 密 和 公 钥 加 密 是 两 种 相对 
立 但 广泛 应 用 的 加 密 方法 。 在 许多 国家 和 州 ， 对 存储 在 数据 库 中 的 某 些 敏 感 数据 的 加 密 是 法 律 规 


定 的 。 


。 加 密 还 在 为 应 用 程序 认证 用 户 、 为 用 户 认证 Web 站 点 以 及 数字 签名 中 扮演 了 关键 角色 。 
术语 回顾 


。 应 用 程序 

© 数据 库 的 Web 界面 

超 链 接 

统一 资源 定位 符 (URL) 
表单 

超 文本 传输 协议 ( HTTP ) 
公共 网 关 接 口 (CG1) 
无 连接 协议 

cookie 

会 话 

servlet 及 servlet 会 话 
服务 器 端 脚本 

JSP 

PHP 

ASP. NET 

客户 端 脚本 

Javascript 


文档 对 象 模型 (DOM ) 


实践 习题 
虽然 Java 程序 通常 要 比 C 或 C ++ 程序 运行 得 慢 ， 而 servlet 却 比 使 用 公共 网 关 接口 (CGI) 的 程序 性 能 好 


9i 


9.2 
9:3 


的 主要 原因 是 什么 ? 


小 应 用 程序 

应 用 程序 架构 
展示 层 

模型 -视图 -控制 器 
(MVC) 架 构 

业务 逻辑 层 

数据 访问 层 

对 象 -关系 映射 
Hibernate 

超 文 本 标记 语言 (HTML) 
Web 服务 

REST 服务 
快速 应 用 开发 

Web 应 用 框架 

报表 生成 器 

连接 池 

查询 结果 缓存 

应 用 程序 安全 性 


列 出 无 连接 协议 相 比较 有 连接 协议 的 优 缺 点 。 


考虑 为 在 线 购物 系统 写 的 一 个 未 经 仔细 编写 的 Web 应 用 程序 ， 该 应 用 程序 将 每 件 商品 的 价格 以 隐藏 的 
表单 变量 保存 在 发 送 给 顾客 的 页 面 中 ; 当 顾 客 提 交 表 单 时 ， 隐 藏 的 表单 变量 中 的 信息 用 于 计算 顾客 的 


SQL 注入 

跨 站 点 脚本 ( XSS) 

跨 站 点 请 求 伪 造 ( XSRF) 
认证 

双 因 素 认 证 

中 间 人 攻击 

中 央 认 证 

单 点 登录 

OpenID 
虚拟 私有 数据 库 (VPD) 
审计 追踪 

加 密 

对 称 密 钥 加 密 

公 钥 加 密 

词典 攻击 

询问 - 回答 

数字 签名 

数字 认证 


418 
l 
419 


账单 。 这 个 设计 中 的 漏洞 在 哪里 ? (有 一 个 真正 的 实例 ， 其 中 在 探测 并 解决 问题 之 前 ， 在 线 购物 系统 





236 ”第 二 部 分 “数据库 设计 


420 


421 


的 顾客 使 该 漏洞 暴露 了 出 来 。) 

9.4 考虑 未 经 仔细 编写 的 另 一 个 Web 应 用 程序 ， 它 使 用 servlet 检查 是 否 有 活动 的 会 话 ， 但 并 不 检查 用 户 是 
和 否 授权 访问 某 页 面 ， 而 依靠 指向 页 面 的 连接 只 显示 给 已 授权 用 户 的 事实 。 这 种 机 制 下 的 缺陷 是 什么 ? 
(有 一 个 真正 的 实例 ， 其 中 某 个 学 校 招 生 站 点 的 申请 者 在 登录 网 站 后 可 以 利用 这 个 漏洞 ， 并 且 可 以 查 
看 他 们 没有 授权 查看 的 信息 ; 然而 ， 此 未 授权 的 访问 被 探测 出 来 了 ， 访 问 该 信息 的 人 由 于 违反 招生 规 
定 而 被 惩罚 。) 

9.5 列 出 使 用 缓存 提高 Web 服务 器 性 能 的 三 种 方式 。 

9.6 netstat 命令 (在 Linux 和 Windows 中 可 用 ) 显示 计算 机 上 活动 的 网 络 连 接 。 试 解释 如 何 使 用 该 命令 以 发 
现 是 否 某 网 页 将 不 关闭 它 所 打开 的 连接 ， 或 者 是 否 使 用 了 连接 池 并 且 不 将 连接 返回 连接 池 。 你 应 该 考 
虑 到 使 用 连接 池 的 时 候 ， 连 接 可 以 不 立即 关闭 。 

9.7 SQL 注入 漏洞 的 检测 : 

a. 提出 一 个 检测 应 用 程序 的 方法 ， 以 发 现在 文本 输入 上 是 否 容易 受到 SQL 注入 攻击 。 
b. SQL 注入 能 够 与 其 他 形式 的 输入 一 同 出 现 吗 ?如 果 可 以 ， 你 要 如 何 检测 漏洞 呢 ? 

9.8 为 了 安全 ， 一 个 数据 库 关 系 可 能 对 某 些 属性 的 值 加 密 。 数 据 库 系统 为 什么 不 支持 加 密 属 性 上 的 索引 呢 ? 
用 你 对 这 个 问题 的 答案 解释 为 什么 数据 库 系 统 不 允许 主 码 属 性 上 的 加 密 。 

9.9 练习 9. 8 提出 了 在 某 些 属 性 上 加 密 的 问题 。 然 而 ， 一 些 数据 库 系统 支持 整个 数据 库 的 加 密 。 试 解释 练 
3 9.8 中 提出 的 问题 在 加 密 整个 数据 库 时 该 如 何 避 免 。 

9.10 假设 某 人 假冒 一 个 公司 并 得 到 了 一 个 证 书 授予 机 构 颁 发 的 证 书 。 这 对 于 被 假冒 公司 认证 的 事物 ( 例如 
购买 订单 或 者 程序 等 ) ， 以 及 对 于 其 他 公司 认证 的 事物 有 什么 影响 ? 

9.11 在 任何 数据 库 系 统 中 ， 最 重要 的 数据 项 或 许 都 是 用 来 控制 数据 库 访问 的 密码 。 为 密码 的 安全 存储 设计 
一 个 机 制 ， 确 保 你 的 机 制 允 许 系统 检测 由 试图 登录 系统 的 用 户 所 提供 的 密码 。 

习题 

9.12 为 下 面 这 个 非常 简单 的 应 用 写 一 个 servlet 以 及 关联 的 HTML 代码 : 允许 用 户 提交 一 个 表单 ， 该 表单 包 
含 一 个 值 ， 比 如 说 n， 然 后 得 到 的 响应 包含 nn 个 ”* "号 。 

9.13 ”为 下 面 这 个 简单 应 用 写 一 个 servlet 以 及 关联 的 HTML 代码 : 允许 用 户 提交 一 个 表单 ， 该 表单 包含 一 个 
数字 ， 比 如 说 n， 然 后 得 到 一 个 响应 说 出 数值 n 在 此 前 提交 的 次 数 。 每 个 数值 此 前 提交 的 次 数 应 当 存 
储 在 数据 库 中 。 

9.14 ” 写 一 个 对 用 户 进行 认证 的 servlet( 基于 存储 在 数据 库 关系 中 的 用 户 名 和 密码 ) ， 并 在 验证 通过 之 后 设置 
一 个 名 为 userid 的 会 话 变量 。 

9.15 什么 是 SQL 注入 攻击 ? 解释 它 的 工作 原理 ， 以 及 必须 采取 什么 措施 以 预防 SQL 注入 攻击 。 

9. 16 编写 管理 连接 池 的 伪 码 。 你 的 伪 码 必须 包括 一 个 创建 连接 池 的 函数 ( 以 数据 库 连接 字符 串 、 数 据 库 用 
户 名 和 密码 作为 输入 参数 ) ， 一 个 向 连接 池 请 求 连 接 的 函数 ， 一 个 将 连接 归还 连接 池 的 函数 以 及 关闭 
连接 池 的 函数 。 

9.17 解释 术语 CRUD 和 REST, 

9.18 目前 , 许多 网 站 都 使 用 Ajax 提供 丰富 的 用 户 界面 。 列 出 两 个 不 需要 看 源码 即 可 表明 站 点 使 用 Ajax 的 
特点 。 利 用 上 述 特点 ， 找 到 三 个 使 用 Ajax 的 站 点 ; 你 可 以 查看 网 页 的 HTML 源码 以 检验 该 网 站 是 否 
真正 使 用 了 Ajax。 

9.19 XSS 攻击 : 

a. XSS 攻击 是 什么 ? 
b. 如 何 使 用 引用 页 域 以 探查 XSS 攻击 ? 
9.20 什么 是 多 因素 认证 ? 它 是 如 何 帮 助 防止 密码 被 瓷 的 ? 
9.21 考虑 9.7.5 节 所 述 的 Oracle 虚拟 私有 数据 库 (VPD ) 功能 ， 以 及 一 个 基于 大 学 模式 的 应 用 。 


。 应 该 生成 什么 谓词 (使 用 子 查询 ) 以 使 每 个 教员 只 看 见 和 他 们 所 教 课 程 相关 联 的 takes 元 组 。 

© 给 出 一 个 SQL 查询 ， 使 得 添加 了 谓词 的 查询 的 结果 是 未 添加 谓词 的 原始 查询 的 结果 的 子 集 。 

。 给 出 一 个 SQL 查询 ， 使 得 添加 了 谓词 的 查询 的 结果 包含 一 条 不 在 未 添加 谓词 的 原始 查询 的 结果 中 
的 元 组 。 
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9.22 ”对 存储 在 数据 库 中 的 数据 加 密 有 哪 两 个 好 处 ? 

9.23 假定 你 希望 对 关系 takes 的 变化 建立 审计 追踪 : 

a. 定义 触发 器 来 建立 审计 追踪 ， 把 日 志 信息 记 和 一 个 关系 ， 例 如 takes_trail。 日 志 信 息 应 包括 用 户 id 
(假设 函数 user_id( ) 提供 该 信息 ) 和 一 个 时 间 惟 ， 以 及 旧 的 和 新 的 值 。 你 还 要 提供 takes_trail 关系 
的 模式 。 

b. 以 上 实现 方法 是 否 能 保证 由 恶意 数据 库 管理 员 ( 或 者 那些 设法 得 到 管理 员 密码 的 人 ) 所 做 的 更 新 也 
会 被 审计 追踪 。 解 释 你 的 答案 。 

9.24 黑客 能 够 欺骗 你 相信 他们 的 Web 站 点 实际 上 是 你 所 信任 的 一 个 Web 站 点 ( 比如 一 家 银行 或 者 信用 卡 
Web 站 点 ) 。 他 们 可 以 使 用 误导 性 的 电子 邮件 ， 或 者 甚至 通过 入 侵 网 络 基础 设施 将 目的 地 为 (比如 ) 
mybank. com 的 网 络 传输 重新 路 由 到 黑客 的 网 站 。 如 果 你 在 黑客 的 站 点 上 输入 用 户 名 和 密码 ， 该 站 点 
就 会 把 它 记录 下 来 ， 以 后 就 能 用 它 来 侵 人 你 在 真实 站 点 的 账户 。 当 你 使 用 一 个 URL， 比 如 https: // 
mybank. com, HTTPS 协议 可 以 用 来 防止 这 样 的 攻击 。 解 释 该 协议 如 何 使 用 数字 证 书 来 验证 站 点 的 合 
法 性 。 

9.25 解释 什么 是 用 于 验证 的 询问 -应答 系统 。 为 什么 它 比 传统 的 基于 密码 的 系统 更 安全 ? 

项 目 建议 

下 面 都 是 较 大 的 项 目 ， 可 以 由 一 组 学 生 在 一 个 学 期 内 完成 。 项 目的 难度 可 以 通过 增加 或 者 减少 功能 来 

调整 。 

项 目 9.1 选 一 个 你 最 喜爱 的 交互 网 站 ， 比 如 Bebo, Blogger, Facebook, Flickr, Last. FM, Twitter, 
WikiPedia; 这 只 是 一 些 例子 ， 还 有 更 多 其 他 的 交互 网 站 。 这 些 网 站 中 的 大 部 分 都 管理 大 量 
的 数据 ， 并 使 用 数据 库存 储 并 处 理 这 些 数据 。 实 现 你 挑选 的 一 个 网 站 的 功能 的 子 集 。 需 要 
明确 的 是 ， 即 使 实现 这 种 网 站 的 功能 的 一 个 有 意义 的 子 集 也 远 超过 了 一 个 课程 设计 要 求 的 
工作 量 ， 不 过 可 以 找 一 些 有 趣 的 功能 来 实现 ， 足 够 满足 课程 设计 的 工作 量 即 可 。 422 

目前 流行 的 网 站 大 部 分 都 大 量 使 用 JavaScript 创建 丰富 的 界面 。 搭 建 这 种 界面 非常 耗 时 ， 
所 以 至 少 在 最 初 你 可 能 会 希望 用 它 实现 你 的 项 目的 界面 ， 然 后 在 时 间 人 允许 的 情况 下 再 添加 
更 多 的 功能 。 利 用 Web 应 用 开发 框架 或 网 上 的 Javascript 库 ， 比 如 Yahoo 用 户 界面 库 ， 来 加 
快 你 的 开发 。 

项 目 9.2 创建 一 个 “混合 网 站 ” ， 即 用 诸如 Google 或 Yahoo 地 图 API 的 Web 服务 创建 一 个 交互 网 站 。 
例如 ， 这 些 地 图 API 提供 一 种 在 网 页 上 展示 地 图 及 在 地 图 上 重 二 的 其 他 信息 的 方法 。 你 可 以 
实现 一 个 餐厅 推荐 系统 ， 使 用 用 户 提 交 的 餐厅 信息 ， 比 如 位 置 、 美 食 、 价 格 范围 以 及 评分 信 
息 。 用 户 搜索 的 结果 可 以 在 地 图 上 显示 。 你 可 以 允许 类 Wikipedia 的 功能 ， 比 如 让 用 户 可 以 
添加 信息 并 编辑 其 他 用 户 添加 的 信息 ， 并 安排 可 以 删除 恶意 更 新 的 审阅 人 。 你 还 可 以 实现 社 
区 功能 ， 比 如 给 你 的 朋友 提供 的 评分 更 高 的 权重 。 

项 目 9.3 你 的 学 校 可 能 使 用 了 一 个 课程 管理 系统 ， 比 如 Moodle, Blackboard 或 WebCT。 实 现 这 样 一 种 
课程 管理 系统 的 功能 的 子 集 。 例 如 ， 你 可 以 提供 作业 提交 和 评分 功能 ， 包 括 为 学 生 和 老师 / 
助教 提供 讨论 作业 的 评分 的 机 制 。 你 还 可 以 提供 问卷 调查 或 其 他 机 制 以 获得 反馈 。 

项 目 9.4 考虑 实践 习题 7.3( 第 7 章 ) 中 的 E-R 模型 ， 它 表示 一 个 联赛 中 各 队 的 信息 。 设 计 并 实现 一 个 
基于 Web 的 系统 来 输入 、 更 新 和 查看 这 些 数据 。 

项 目 9.5 设计 并 实现 一 个 购物 车 系统 ， 该 系统 可 以 让 购买 者 将 商品 放置 到 购物 车 中 (你 可 以 决定 为 每 
件 商 品 提供 的 信息 ) ， 最 后 一 起 购买 。 你 可 以 扩展 并 使 用 第 7 章 中 习题 7.20 中 的 E-R 模式 。 
你 应 该 检查 商品 是 否 有 货 并 用 你 觉得 适合 的 方式 处 理 商 品 缺 货 的 情况 。 

项 目 9.6 设计 并 实现 一 个 基于 Web 的 系统 为 一 所 大 学 的 课程 记录 学 生 注册 信息 和 成 绩 信 息 。 

项 目 9.7 设计 并 实现 一 个 系统 记录 课程 表现 信息 一 一 具体 来 说 ， 即 每 个 学 生 在 每 门 课程 中 的 每 次 作业 
或 考试 中 所 获得 的 分 数 ， 以 及 对 各 项 成 绩 进行 (加 权 ) 求 和 以 得 到 课程 总 成 绩 。 人 作业/ 考试 的 
数量 不 可 以 预先 定义 ; 即 ， 任 何 时 候 都 可 以 加 入 更 多 的 作业 或 考试 。 该 系统 还 应 该 可 以 支持 
等 级 评定 ， 人 允许 对 于 不 同 的 级 别 指定 分 隔 点 。 [423 | 

你 也 可 以 将 它 与 项 目 9.6 中 的 学 生 注册 系统 (可 能 由 另 一 个 项 目 组 实现 ) 相 结合 。 
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项 目 9.8 


项 目 9.9 


项 目 9. 10 


项 目 9.11 


项 目 9.12 


项 目 9. 13 


项 目 9. 14 


项 目 9. 15 


项 目 9. 16 


数据 库 设计 


设计 和 实现 一 个 基于 Web 的 系统 ， 用 来 在 你 的 学 校 中 预订 教室 。 它 必须 支持 周期 性 的 预订 
(整个 学 期 中 每 周 固定 的 天 /时 间 ) ， 也 要 支持 在 周期 性 预订 中 取消 某 个 指定 的 讲座 。 

你 也 可 以 将 它 与 项 目 9.6 中 的 学 生 注册 系统 ( 可 能 由 另 一 个 项 目 组 实现 ) 相 结合 ， 这 样 可 
以 为 课程 预订 教室 ， 取 消 讲座 或 新 增 额外 讲座 可 以 通过 一 个 单独 的 界面 来 记录 并且 要 将 其 
反映 到 教室 预订 情况 中 ， 然 后 通过 电子 邮件 通知 给 所 有 的 学 生 。 
设计 并 实现 一 个 系统 ， 管 理 在 线 的 多 选 题 考试 。 你 应 该 支持 分 布 式 的 考题 提交 ( 由 助教 提 
交 ) ， 负 责 该 课程 的 人 可 以 编辑 题目 ， 并 且 可 以 从 已 有 的 考题 集合 中 创建 试卷 。 你 还 应 该 能 
够 在 线 管理 考试 ， 可 以 让 所 有 学 生 都 在 一 个 固定 的 时 间 参 加 考试 ; 或 者 让 学 生 在 任何 时 间 都 
可 以 开始 考试 ， 但 是 从 开始 到 结束 有 一 个 时 间 限 制 ( 支持 一 种 或 者 两 种 方案 都 支持 ) ， 并 且 规 
定时 间 结 束 时 将 成 绩 反 馈 给 学 生 。 
设计 并 实现 一 个 系统 ， 管 理 电 子 邮件 顾客 服务 。 到 达 的 电子 邮件 进入 一 个 公用 的 缓冲 池 中 。 
一 组 顾客 服务 代理 人 负责 答复 电子 邮件 。 如 果 某 封 电 子 邮 件 是 正在 答复 的 序列 的 一 部 分 (用 
电子 邮件 的 in-reply-to 域 来 跟踪 ) ， 这 个 邮件 应 该 由 早先 答复 它 的 那个 代理 人 来 答复 。 系 统 
应 该 追踪 所 有 到 达 的 邮件 和 答复 ， 这 样 代 理 人 可 以 在 答复 一 封 电子 邮件 之 前 看 到 顾客 以 前 
问 过 的 所 有 问题 。 
设计 并 实现 一 个 简单 的 电子 商场 ， 该 电子 商场 可 以 按照 不 同 的 类 别 ( 应 该 形成 一 个 层次 结 
构 ) 列 出 用 于 销售 或 购买 的 商品 。 你 可 能 还 希望 支持 提醒 服务 : 一 个 用 户 可 以 在 某 一 个 特定 
类 别 中 注册 自己 感 兴趣 的 商品 ， 也 许 还 有 一 些 其 他 限制 ， 而 不 公开 她 的 兴趣 ， 当 这 样 的 商 
品 促销 时 ， 系 统 会 通知 该 用 户 。 
设计 并 实现 一 个 基于 Web 的 新 闻 组 系统 ， 用 户 应 该 可 以 订阅 新 闻 组 ， 并 且 浏 览 新 闻 组 中 的 
文章 。 该 系统 跟踪 用 户 阅读 过 的 文章 使 它们 不 会 再 次 显示 。 该 系统 还 提供 对 旧 文 章 的 搜索 
支持 。 你 可 能 还 希望 提供 文章 的 评分 服务 ， 这 样 ， 高 分 的 文章 高 亮度 显示 ， 从 而 使 繁忙 的 
用 户 可 以 跳 过 低 分 的 文章 。 
设计 并 实现 一 个 基于 Web 的 系统 ， 管 理 一 个 运动 梯子"。 许 多 人 来 注册 ,并 给 予 初始 的 排 
名 ( 可 能 基于 以 前 的 表现 ) 。 任 何人 可 以 通过 比赛 挑战 其 他 人 ， 而 排名 按照 比赛 结果 进行 相 
应 的 调整 。 一 个 调整 排名 的 简单 系统 仅 是 当 胜 者 原先 排 在 败 者 后 面 时 ， 在 排名 中 将 胜 者 移 
到 败 者 的 前 面 。 你 也 可 以 尝试 实现 更 加 复杂 的 排名 调整 系统 . 
设计 并 实现 一 个 出 版 物 列表 服务 。 这 个 服务 应 该 允许 输入 有 关 出 版 物 的 信息 ， 例 如 书号 、 
作者 、 年 份 、 出 版 物 出 现 地 点 、 页 数 等 。 作 者 应 该 是 一 个 具有 属性 (如 名 字 、 机 构 、 部 门 、 
电子 邮件 、 地 址 和 主页 ) 的 单独 实体 。 

你 的 应 用 应 该 支持 同一 数据 的 多 个 视图 。 例 如 ， 你 应 该 提供 某 个 给 定 作者 的 所 有 出 版 
物 ( 比如 按 年 份 排序 )， 或 者 提供 来 自 某 个 给 定 机 构 或 部 门 的 作者 的 所 有 出 版 物 。 你 也 应 该 
支持 在 整个 数据 库 或 每 个 视图 上 按 关键 词 搜索 。 
所 有 组 织 中 的 一 项 常见 任务 是 收集 一 组 人 的 结构 化 信息 。 例 如 ， 一 个 经 理 可 能 需要 要 求职 
员 输 入 他 们 的 休假 计划 ; 一 个 教授 可 能 希望 从 学 生 中 收集 关于 某 个 特定 主题 的 反馈 ; 或 者 
一 个 组 织 活动 的 学 生 和 希望 允许 其 他 学 生 注 册 活 动 ， 或 者 某 人 和 希望 针对 某 个 主题 进行 一 个 在 
线 投票 。 

建立 一 个 允许 用 户 很 容易 创建 信息 收集 活动 的 系统 。 当 创建 一 个 活动 时 ， 该 活动 的 创 
建 人 必须 定义 谁 是 有 资格 参加 的 ， 为 了 达到 这 个 目的 ， 你 的 系统 必须 维护 用 户 信息 ， 并 且 
允许 定义 一 个 用 户 子 集 的 谓词 。 活 动 的 创建 人 应 当 能 够 指定 一 组 用 户 需 要 提供 的 输入 (有 类 
型 、 默 认 值 和 有 效 性 检查 ) 。 活 动 应 当 关联 一 个 截止 时 间 ， 并 能 够 向 尚未 提交 信息 的 用 户 发 
送 通知 。 活 动 创建 者 可 以 选择 是 在 指定 的 日 期 或 时 间 自 动 执行 截止 ， 还 是 登录 系统 然后 宣 
布 截止 。 提 交 信 息 的 统计 信息 能 够 生成 一 一 为 了 达到 这 个 目的 ， 应当 允许 活动 创建 者 对 输 
入 的 信息 建立 简单 的 汇总 。 活 动 创建 者 可 以 选择 将 部 分 汇总 信息 公开 以 让 所 有 用 户 都 能 查 
看 ， 要 么 持续 地 ( 比如 有 多 少 人 已 经 响应 ) ， 要 么 在 截止 期 之 后 ( 比如 平均 回馈 分 值 ) 。 
建立 一 个 函数 库 以 简化 Web 界面 的 生成 。 你 必须 至 少 实现 以 下 函数 : 显示 JDBC 结果 集 ( 以 
表格 形式 ) 的 函数 ,创建 不 同 种 类 的 文本 和 数字 输入 ( 带 有 验证 规则 ， 比 如 输入 类 型 和 可 选 
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范围 ， 在 客户 端 用 适当 的 Javascript 代码 执行 ) 的 函数 ， 输 入 日 期 和 时 间 值 ( 带 有 默认 值 ) 的 
函数 ， 基 于 结果 集 生成 菜单 项 的 函数 。 要 得 到 加 分 ， 可 以 允许 用 户 设置 格式 参数 ， 比 如 颜 
色 和 字体 ， 以 及 在 表格 中 提供 分 页 支持 (隐藏 的 表单 参数 可 以 用 来 指示 需要 显示 的 页 ) 。 建 
立 一 个 数据 库 应 用 样 例 以 展示 这 些 函 数 的 使 用 。 

项 目 9.17 设计 并 实现 一 个 基于 Web 的 多 用 户 日 历 系统 。 该 系统 需 追 踪 每 个 用 户 的 约会 ， 包 括 多 发 事 
件 ， 如 周 会 ， 及 共享 事件 ( 事件 创建 者 更 新 事件 将 反映 至 所 有 分 享 该 事件 的 用 户 ) 。 系 统 需 
提供 安排 多 用 户 事件 的 界面 ， 该 界面 允许 事件 创建 者 添加 受 邀 请 的 用 户 。 系 统 需 提 供 事件 
的 电子 邮件 通知 。 要 得 到 加 分 ， 可 以 实现 一 个 Web 服务 ， 该 服务 可 以 用 在 客户 端 上 运行 的 
提醒 程序 中 ， 


工具 


开发 一 个 Web 应 用 需要 多 个 软件 工具 ， 比 如 应 用 服务 器 、 编 译 器 、 像 Java 或 C# 这 样 的 程序 设计 语言 的 
编辑 器 以 及 其 他 可 选 的 工具 ， 比 如 Web 服务 器 。 有 一 些 对 Web 应 用 开发 提供 支持 的 集成 开发 环境 。 两 款 最 
流行 的 开源 IDE 为 [BM 开发 的 Eclipse 以 及 Sun 微 系统 开发 的 Netbeans。 微 软 的 Visual Studio 是 在 Windows 环 
境 中 使 用 最 为 广泛 的 IDE, 

支持 servlet 和 JSP 的 应 用 服务 器 包括 Apache Tomcat ( jakarta. apache. org), Glassfish ( glassfish. 
dev. java. net) , JBoss( jboss. org) 以 及 Caucho 的 Resin (www. caucho. com). Apache Web 服务 器 ( apache. org) 
是 目前 使 用 最 为 广泛 的 Web 服务 器 。 微 软 的 IIS( Internet Information Services ) 是 一 款 广泛 用 于 微软 Windows 
平台 并 支持 微软 的 ASP. NET( msdn. microsoft. com/asp. net/ ) 的 Web 兼 应 用 服务 器 . 

IBM 的 WebSphere( www. software. ibm. com) 为 Web 应 用 开发 和 部 署 提 供 了 许多 软件 工具 ， 包 括 应 用 服务 
器 、IDE、 应 用 集成 中 间 件 、 业 务 流程 管理 软件 以 及 系统 管理 工具 。 

上 述 工 具 中 有 些 是 开源 软件 可 以 免费 使 用 ， 有 些 对 于 非 商业 用 途 或 个 人 使 用 是 免费 的 ， 而 另外 一 些 则 
需要 付费 。 更 多 信息 可 查看 各 相关 网 站 。 

Yahoo! 用 户 界 面 (YUI) 的 JavaScript 库 ( developer. yahoo. com/yui ) 广泛 用 于 创建 跨 浏 览 器 的 JavaScript 
程序 。 


文献 注解 


有 关 servlet 的 信息 ， 包 括 指南 、 标 准 说 明和 软件 ， 可 以 在 java. sun. con/products/servlet 上 找到 。 有 关 
JSP 的 信息 可 以 在 java. sun. com/products/jsp 上 找到 。 关 于 ISP 标签 库 的 信息 也 能 在 该 URL 上 找到 。 关 于 
.NET 框架 的 信息 以 及 关于 使 用 ASP. NET 进行 Web 应 用 开发 的 信息 可 以 在 msdn. microsoft. com 上 找到 . 
Atreya 等 [2002 ] 提供 了 涵盖 数字 签名 的 教科 书 ， 其 中 包括 X. 509 数字 证 书 以 及 公 钥 基础 设施 。 
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| 第 三 部 分 


Part 3 


数据 存储 和 查询 





虽然 数据 库 系 统 提供 了 数据 的 高 层 视图 ， 但 最 终 数据 必须 以 比特 的 形式 存储 在 一 个 或 多 
个 存储 设备 上 。 如 今 ， 绝 大 多 数 的 数据 库 将 数据 存储 在 磁盘 上 (而 且 越 来 越 多 地 在 闪存 上 )， 
并 将 数据 取 入 内 存 用 于 处 理 ,， 或 者 将 数据 拷贝 到 磁带 和 其 他 备份 设备 上 用 于 归档 存储 。 存 储 
设备 的 物理 特性 对 数据 的 存储 方式 影响 重大 ， 这 尤其 是 因为 对 磁盘 上 随机 数据 片段 的 访问 比 
内 存 访 问 慢 得 多 : 磁盘 访问 需要 几 十 毫秒 ， 而 内 存 访问 只 需 十 分 之 一 微 秒 。 

第 10 章 从 物理 存储 介质 的 概览 开始 ， 包 括 将 由 于 故障 而 引起 数据 丢失 的 可 能 性 最 小 化 的 
机 制 。 然 后 ， 该 章 描 述 记 录 是 如 何 映射 到 文件 ， 然 后 又 如 何 映射 到 磁盘 中 的 比特 的 。 

许多 查询 只 涉及 了 文件 中 一 小 部 分 的 记录 。 上 索引 是 一 种 有 助 于 无 须 检查 所 有 记录 而 快速 
定位 所 需 关 系 记 录 的 结构 ， 本 教材 的 索引 就 是 一 个 索引 的 实例 ， 尽 管 它 是 为 人 使 用 的 ， 这 和 与 
数据 库 索 引 不 同 。 第 11 章 描 述 数 据 库 系 统 使 用 的 几 种 索引 类 型 。 

用 户 查 询 的 执行 必须 基于 存放 在 存储 设备 中 的 数据 库 的 内 容 。 我 们 可 以 方便 地 将 查询 分 
成 一 些 更 小 的 操作 ， 这 些 操 作 可 以 大 致 对 应 于 关系 代数 操作 。 第 12 章 描 述 如 何 处 理 查询 ， 并 
给 出 用 于 实现 单独 操作 的 算法 ， 然 后 概述 为 了 处 理 查询 ， 这 些 操作 是 如 何 同步 执行 的 。 


处 理 一 个 查询 有 许多 可 选 的 方法 ， 这 些 方法 的 执行 代价 有 很 大 的 不 同 。 查 询 优 化 是 指 寻 |427 


找 执行 一 个 给 定 查询 的 最 低 代 价 方法 的 过 程 。 第 13 章 描 述 查 询 优 化 过 程 。 
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存储 和 文件 结构 





前 面 各 章 强调 了 数据 库 的 较 高 层 模型 。 例 如 ， 在 概念 层 或 逻辑 层 上 ， 我 们 认为 关系 模型 中 的 数 
据 库 是 表 的 集合 。 的 确 ， 数 据 库 用 户 需要 关注 的 层次 正 是 数据 库 的 逻辑 模型 。 因 为 数据 库 系统 的 目 
标 是 简化 和 协助 对 数据 的 访问 ， 数 据 库 系统 的 用 户 不 必 被 系统 实现 的 物理 细节 所 困扰 。 

但 是 ， 在 本 章 以 及 第 11 章 、 第 12 章 和 第 13 章 ， 作 为 对 较 低 层 的 研究 ， 我 们 将 描述 实现 前 几 章 
给 出 的 数据 模型 和 语言 的 不 同方 法 。 我 们 将 从 基本 存储 介质 (如 磁盘 和 磁带 系统 ) 的 特性 开始 ， 然 后 
我 们 将 定义 不 同 的 数据 结构 ， 这 些 数 据 结构 使 我 们 能 够 快速 地 访问 数据 。 我 们 将 考虑 几 种 可 供 选择 
的 数据 结构 ， 各 种 数据 结构 适合 于 不 同类 型 的 数据 访问 。 数 据 结 构 的 最 终 选 择 依赖 于 系统 的 使 用 方 
式 和 特定 机 器 的 物理 特性 。 


10.1 物理 存储 介质 概述 


大 多 数 计 算 机 系统 中 存在 多 种 数据 存储 类 型 。 可 以 根据 访问 数据 的 速度 ， 购 买 介质 时 每 单位 数 
据 的 成 本 ， 以 及 介质 的 可 靠 性 对 这 些 存 储 介质 进行 分 类 。 以 下 是 几 种 有 代表 性 的 介质 : 

。 高 速 缓冲 存储 器 (cache) 。 高 速 缓 冲 存 储 器 是 最 快 最 昂贵 的 存储 介质 。 高 速 缓冲 存储 器 一 般 很 

小 ， 由 计算 机 系统 硬件 来 管理 它 的 使 用 。 在 数据 库 系 统 中 ， 我 们 不 需要 考虑 高 速 缓 冲 存储 器 
的 存储 管理 。 但 值得 注意 的 是 ,在 设计 查询 处 理 的 数据 结构 和 算法 时 ， 数 据 库 实现 者 也 会 注 
意 高 速 缓冲 存储 器 的 影响 。 

© 主 存储 器 ( main memory) 。 主 存储 器 是 用 于 存放 可 处 理 的 数据 的 存储 介质 。 通 用 机 器 指令 在 主 

存储 器 上 执行 。 尽 管 在 个 人 电脑 上 的 主 存储 器 可 以 包含 几 个 GB 的 数据 ， 甚 至 在 大 型 服务 器 
系统 中 包含 数 百 个 GB 的 数据 ， 但 是 一 般 情 况 下 它 对 于 存储 整个 数据 库 来 说 还 是 太 小 (或 太 昂 
贵 )。 如 果 发 生 电 源 故 障 或 者 系统 崩 演 ， 主 存储 器 中 的 内 容 通 常会 丢失 。 
© 快 闪存 储 器 (flash memory) 。 快 内 存储 器 不 同 于 主 存储 器 的 地 方 是 在 电源 关闭 (或 故障 ) 时 数 
据 可 保存 下 来 。 目 前 有 两 种 类 型 的 快 内 存储 器 ， 称 作 NAND 和 NOR 快 闪 。 对 于 既定 价格 ， 
NAND 快 内 拥有 更 高 的 存储 容量 ， 并 且 广 泛 作为 一 些 设 备 的 数据 存储 使 用 ， 例 如 照相 机 、 音 
乐 播放 器 和 手机 ， 同 时 也 越 来 越 多 地 用 于 笔记 本 电脑 。 相 比 于 主 存储 器 ， 快 闪存 储 器 拥有 每 
字 节 更 低 的 价格 ， 以 及 具有 非 易 失 性 ， 即 便 电 源 切断 ， 它 也 能 保留 存储 的 数据 。 

快 闪 存储 器 还 广泛 地 用 于 在 “USB A” 中 存储 数据 ， 它 可 以 插入 电脑 设备 的 通用 串 行 总 线 
( Universal Serial Bus，USB ) 槽 。 这 种 USB 盘 已 经 成 为 在 计算 机 系统 之 间 传 输 数据 的 流行 手段 ( 以 前 的 
软盘 起 相同 的 作用 ， 但 如 今 它 因 有 限 的 容量 而 废弃 ) 。 

在 存储 中 等 数量 数据 时 ， 快 内 存储器 也 在 作为 磁盘 存储 器 的 替代 品 越 来 越 多 地 使 用 。 这 种 磁盘 
驱动 器 替代 品 就 是 所 谓 的 固态 驱动 器 (solid-state drive) 。 在 2009 年 ， 一 个 64GB 的 固态 硬盘 驱动 器 售 
价 不 到 200 美元 ， 并 且 容 量 范围 可 达 160GB。 此 外 ， 快 内 存储 器 广泛 使 用 在 服务 器 系统 中 ， 通 过 组 
存 经 常 使 用 的 数据 来 提高 性 能 ， 因 为 它 提供 比 磁盘 更 快 的 访问 速度 ， 和 比 主 存储 器 更 大 的 存储 容量 
(对 于 既定 价格 )。 

© 磁盘 存储 器 ( magnetic-disk storage) 。 用 于 长 期 联机 数据 存储 的 主要 介质 是 磁盘 。 通 常 整个 数 

据 库 都 存储 在 磁盘 上 。 为 了 能 够 访问 数据 ， 系 统 必 须 将 数据 从 磁盘 移 到 主 存储 器 。 在 完成 指 
定 的 操作 后 ， 修 改过 的 数据 必须 写 回 磁盘 。 
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在 2009 年 ， 磁盘 容量 从 80GB 到 1.5TB， 并 且 1TB 的 磁盘 价格 约 为 100 T, HARE 
以 大 约 每 年 50% 的 速度 增长 ， 而 且 每 年 我 们 都 可 以 预期 有 更 大 容量 的 磁盘 出 现 。 磁 盘存 储 器 
不 会 因为 系统 故障 和 系统 崩溃 丢失 数据 。 磁 盘存 储 设备 本 身 有 时 可 能 会 发 生 故 障 ， 导 致 数据 
的 毁坏 ， 但 是 发 生 磁 盘 故障 的 概率 比 发 生 系统 崩溃 的 概率 小 得 多 。 
© 光学 存储 器 (optical storage) 。 光 学 存储 器 最 流行 的 形式 是 光盘 ( Compact Disk, CD) ， 它 可 以 容 
纳 大 约 700MB 的 数据 ， 播 放 约 80 分 钟 。 数 字 视 频 光 盘 ( Digital Video Disk, DVD) 的 每 一 盘面 
可 以 容纳 4.7GB 或 者 8. 5GB 的 数据 (一 张 双 面 盘 最 多 可 以 容纳 17GB 的 数据 ) 。 可 以 用 数字 万 
能 光盘 ( digital versatile disk ) 代替 数字 视频 光盘 ( digital video disk) 作为 DVD 的 全 称 ， 因 为 DVD 
可 以 存储 任何 数字 数据 ， 而 不 仅仅 是 视频 数据 。 数 据 通过 光学 的 方法 存储 到 光盘 上 ， 并 通过 
激光 器 读 取 。 一 种 称 作 蓝光 ( Blu - ray) DVD 的 更 高 容量 格式 可 以 单 层 存储 27GB 或 双 层 存储 
54GB 数据 。 [430 | 
用 于 只 读 光 盘 (CD-ROM) 和 只 读 DVD( DVD-ROM) 的 光盘 是 不 可 写 的 ， 但 是 提供 预先 记 
录 的 数据 。 有 些 “ 记 录 一 次 ”的 光盘 (CD-R) 和 DVD(DVD-R 和 DVD +R) 只 可 以 写 一 次 ， 这 样 
的 光盘 也 称 为 写 一 次 读 多 次 ( Write-Once，Read-Many ，WORM) 光 盘 。 也 有 “ 写 多 次 ”的 光盘 
(CD-RW) 和 DVD(DVD-RW, DVD + RW 和 DVD-RAM) ， 它 们 都 可 以 多 次 写 人 数据 。 
自动 光盘 机 (jukebox) 系统 包含 少量 驱动 器 和 大 量 可 按 要 求 (通过 机 械 手 ) 自动 装 和 人 某 一 驱 
动 器 的 光盘 。 
© 磁带 存储 器 (tape storage) 。 磁 带 存储 器 主要 用 于 备份 数据 和 归档 数据 。 尽 管 磁带 比 磁盘 便宜 
得 多 ， 但 是 访问 数据 也 比 磁 盘 慢 得 多 ， 这 是 因为 磁带 必须 从 头 顺 序 访 问 。 因 为 这 个 原因 ， 磁 
带 存储 器 称 为 顺序 访问 (sequential-access) 的 存储 器 。 相 对 而 言 ， 磁 盘存 储 器 称 为 直接 访问 
(direct-access) 的 存储 器 ， 因 为 它 可 以 从 磁盘 的 任何 位 置 读 取 数 据 。 
磁带 具有 很 大 的 容量 (现在 的 磁带 可 以 容纳 40 ~300GB 的 数据 ) ， 并 且 可 以 从 磁带 设备 中 
移出 ， 因 此 它们 非常 适合 进行 便宜 的 归档 存储 。 磁 带 库 ( 自动 磁带 机 ) 用 于 存储 异常 巨大 的 数 
据 集合 ， 比 如 可 能 有 几 百 TB(1TB = 10 字 节 ) 的 卫星 数据 ， 或 少数 情况 下 甚至 是 若干 PB 的 数 
据 (1PB =10” 字 节 ) 。 
根据 不 同 存储 介质 的 速度 和 成 本 ， 可 以 把 它们 按 层次 结构 组 织 起 来 ( 见 图 10-1 ) 。 层 次 越 高 ， 这 
种 存储 介质 的 成 本 就 越 贵 ， 但 是 速度 
就 越 快 。 当 我 们 沿 着 层次 结构 向 下 ， 
存储 介质 每 比特 的 成 本 下 降 , 但 是 访 
问 时 间 会 增加 。 这 种 权衡 是 合理 的 : 
如 果 某 一 存储 系统 比 另 一 种 存储 系统 
快 并 且 便 宜 ( 其 他 特性 相同 ) ， 那 么 就 
没有 理由 使 用 那 种 又 慢 又 昂贵 的 存储 
系统 。 实 际 上 ， 当 磁带 和 半导体 存储 
器 变 得 更 快 更 便宜 时 ， 很 多 早期 存储 
设备 ， 包 括 纸 带 机 和 磁 心 存储 器 ， 都 
进 了 博物 馆 。 当 磁盘 还 很 昂贵 并 且 只 
有 很 小 的 存储 容量 时 ， 我们 用 磁带 存 
储 正 在 使 用 的 数据 。 但 是 在 今天 ， 几 
乎 所 有 正在 使 用 的 数据 都 存储 在 磁盘 
上 ， 只 在 极 少数 情况 下 存储 在 磁带 或 
自动 光盘 机 中 。 
最 快 的 存储 介质 ( 例如 高 速 缓冲 存 LENE ERER 
储 器 和 主 存储 器 ) 称 为 基本 存储 (primary storage)。 层 次 结构 中 基本 存储 介质 的 下 一 层 介 质 ( 例 如 磁 
盘 ) 称 为 辅助 存储 (secondary storage ) 或 联机 存储 (online storage) 。 层 次 结构 中 最 底层 的 介质 (如 磁带 
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机 和 自动 光盘 机 ) 称 为 三 级 存储 (tertiary storage) 或 脱 机 存储 (offline storage) 。 

不 同 存储 系统 除了 速度 和 成 本 不 同 之 外 ,还 存在 一 个 存储 易 失 性 的 问题 。 易 失 性 存储 ( volatile 
storage) 在 设备 断 电 后 将 丢失 所 有 内 容 。 在 图 10-1 所 示 的 层次 结构 中 ， 从 主 存储 器 向 上 的 存储 系统 都 
是 易 失 性 存储 ， 而 主 存储 器 之 下 的 存储 系统 都 是 非 易 失 性 存储 。 为 了 保护 数据 ， 必 须 将 数据 写 到 非 
易 失 性 存储 ( nonvolatile storage) 中 去 。 我 们 将 在 第 16 章 重新 闻 述 这 个 问题 ， 


10.2 磁盘 和 快 内 存储 器 


磁盘 为 现代 计算 机 系统 提供 了 绝 大 部 分 的 辅助 存储 。 尽 管 磁盘 容量 每 年 都 在 增长 ， 但 是 大 型 应 
用 对 存储 容量 的 需求 也 在 快速 增长 ， 在 有 些 情况 下 甚至 比 磁盘 容量 的 增长 还 要 快 。 一 个 非常 大 型 的 
数据 库 可 能 需要 上 百 张 磁盘 。 近 几 年 来 ， 快 闪存 储 器 存储 容量 快速 增加 ， 并 且 在 一 些 应 用 中 逐渐 成 
为 磁盘 存储 的 竞争 者 。 
10.2.1 磁盘 的 物理 特性 


磁盘 在 物理 上 是 相对 简单 的 ( 见 图 10-2)。 磁 盘 的 每 一 个 盘 片 (platter) 是 扁平 的 圆 盘 。 它 的 两 个 
表面 都 覆盖 着 磁性 物质 ， 信 息 就 记录 在 表面 上 。 盘 片 由 硬 金属 或 玻璃 制 成 





图 10-2 磁盘 移动 头 机 制 


当 磁 盘 被 使 用 时 ， 驱 动 马 达 使 磁盘 以 很 高 的 恒定 速度 旋转 (通常 为 每 秒 60、90 或 120 转 ， 也 可 
达到 每 秒 250 转 ) 。 有 一 个 读 写 头 恰 好 位 于 盘 片 表面 的 上 方 。 盘 片 的 表面 从 逻辑 上 划分 为 磁道 
(track) ， 磁 道 又 划分 为 扇 区 ( sector) 。 扇 区 是 从 磁盘 读 出 和 写 人 信息 的 最 小 单位 。 对 于 现在 的 磁盘 ， 
扇 区 大 小 一 般 为 512 字 节 ， 每 一 个 盘 片 有 约 50 000 ~ 100 000 条 磁道 ， 每 条 磁盘 有 1 ~5 个 盘 片 。 内 
侧 的 磁道 ( 离 转轴 近 的 地 方 ) 长 度 较 短 ， 在 现代 的 磁盘 中 ， 外 侧 的 磁道 比 内 侧 的 磁道 拥有 更 多 的 扇 
区 。 一 般 而 言 ， 内 侧 每 磁道 大 约 包含 500 ~ 1000 个 鹿 区 ， 而 外 侧 每 磁道 大 约 包 含 1000 ~ 2000 个 扇 
区 。 对 于 不 同 模式 的 磁盘 ， 上 面 的 数字 会 有 变化 ,高 容量 的 模式 通常 在 每 条 磁道 上 含有 更 多 的 扇 区 ， 
而 且 在 每 个 盘 片上 有 更 多 的 磁道 。 

通过 反 转 磁性 物质 磁化 的 方向 ， 读 写 头 (read-write head ) 将 信息 磁化 存储 到 扇 区 中 

磁盘 的 每 个 盘 片 的 每 一 面 都 有 一 个 读 写 头 ， 读 写 头 通过 在 盘 片上 移动 来 访问 不 同 的 磁道 。 一 张 
磁盘 通常 包括 很 多 个 盘 片 ， 所 有 磁道 的 读 写 头 安装 在 一 个 称 为 磁盘 臂 ( disk arm) 的 单独 装置 上 ， 并 且 
一 起 移动 。 安 装 在 转轴 上 的 所 有 磁盘 盘 片 和 安装 在 磁盘 臂 上 的 所 有 读 写 头 统称 为 磁头 - 磁盘 装置 
(head-disk assembly) 。 因 为 所 有 盘 片上 的 读 写 头 一 起 移动 ， 所 以 当 某 一 个 盘 片 的 读 写 头 在 第 1; 条 磁道 
上 时 ， 所 有 其 他 盘 片 的 读 写 头 也 都 在 各 自 盘 片 的 第 i 条 磁道 上 。 因 此 ， 所 有 盘 片 的 第 i 条 磁道 合 在 一 
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起 称 为 第 i 个 柱 面 (cylinder) 。 

HE, 市场 上 占 主导 地 位 的 是 盘 片 直径 为 3.5 英寸 的 磁盘 。 它 们 比 早先 流行 的 大 直径 磁盘 ( 可 以 
达到 14 英寸 ) 成 本 低 、 寻 道 时 间 快 (由 于 寻 道 距离 变 短 )， 而且 还 可 以 提供 更 大 的 存储 容量 。 小 直径 
磁盘 用 于 便携 设备 (如 笔记 本 电脑 ， 以 及 手持 电脑 和 便携 音乐 播放 器 ) 。 

为 了 增 大 记录 密度 ， 读 写 头 尽 可 能 地 靠近 磁盘 盘 片 的 表面 。 读 写 头 一 般 浮 于 盘 片 表面 之 上 几 微 
米 ; 磁盘 的 旋转 产生 微风 ， 而 磁头 装置 的 形状 使 其 在 微风 作用 下 恰好 浮 于 盘 片 表面 之 上 。 因 为 读 写 
头 离 盘 片 表面 非常 近 ， 所 以 盘 片 必须 制作 得 非常 平 。 

读 写 头 损坏 是 一 个 问题 。 如 果 读 写 头 接触 到 盘 片 的 表面 ， 读 写 头 会 刮 掉 磁 盘 上 的 记录 介质 ， 破 
坏 存放 在 那里 的 数据 。 在 早期 的 磁盘 上 ， 读 写 头 接触 盘 片 表面 所 刊 掉 的 介质 将 散落 到 其 他 盘 片 及 其 
读 写 头 之 间 ， 引 起 更 多 的 损坏 ， 因 此 一 个 读 写 头 的 损坏 可 能 导致 整 张 磁盘 失效 。 目 前 使 用 的 磁盘 驱 
动 器 使 用 一 层 磁 金 属 薄膜 作 为 存储 记录 的 介质 。 这 样 的 磁盘 和 以 前 的 涂 氧 化 膜 的 磁盘 相 比 ， 不 易 因 
为 读 写 头 损坏 而 产生 故障 。 

磁盘 控制 器 ( disk controller) 作为 计算 机 系统 和 实际 的 磁盘 驱动 器 硬件 之 间 的 接口 。 在 现代 磁盘 
系统 中 ， 磁 盘 控 制 器 在 磁盘 驱动 单元 内 部 实现 。 它 接受 高 层次 的 读 写 扇 区 的 命令 ， 然 后 开始 动作 ， 
如 移动 磁盘 臂 到 正确 的 磁道 ， 并 实际 地 读 写 数据 。 磁 盘 控 制 器 为 它 所 写 的 每 个 扇 区 附加 校 验 和 
(checksum) ， 校 验 和 是 从 写 到 扇 区 中 的 数据 计算 得 到 的 。 当 读 取 一 个 扇 区 时 ， 磁 盘 控 制 器 用 读 到 的 
数据 再 一 次 计算 校 验 和 ， 并且 把 它 与 存储 的 校 验 和 比较 。 如 果 数 据 被 破坏 ， 则 新 计算 出 的 校 验 和 与 
存储 的 校 验 和 不 一 致 的 可 能 性 就 很 高 。 如 果 发 生 了 这 样 的 错误 ,磁盘 控制 器 就 会 重读 几 次 ; 如 果 错 
误 继续 发 生 ， 磁 盘 控 制 器 就 会 发 出 一 个 读 操作 失败 的 信和 号。 

磁盘 控制 器 执行 的 另 一 个 有 趣 的 任务 是 坏 扇 区 的 重 映射 (remapping of bad sector) 。 当 磁盘 初始 格 
式 化 时 ， 或 试图 写 一 个 扇 区 时 ， 如 果 磁 盘 控 制 器 检测 到 一 个 损坏 的 扇 区 ， 它 会 把 这 个 扇 区 在 逻辑 上 
映射 到 另 一 个 物理 位 置 (从 为 此 目的 而 留 出 的 额外 扇 区 中 分 配 ) 。 重 映射 记录 在 磁盘 或 非 易 失 性 存储 
器 中 ， 而 写 操作 在 新 的 位 置 上 执行 。 

磁盘 通过 一 个 高 速 互 连 通道 连接 到 计算 机 系统 。 有 大 量 的 通用 接口 用 于 将 磁盘 连接 到 计算 机 ， 
现今 一 般 使 用 的 接口 是 : (1) SATA, tH 884% ATA(serial ATA s) ， 最 新 版 本 的 SATA 称 作 SATA TI 
或 者 SATA3 Gb( ATA 标准 的 旧版 本 称 作 PATA ， 或 并 行 ATA ， 或 者 IDE， 在 早期 广泛 地 使 用 ， 并且 现 
在 依旧 可 用 )，(2) 小 型 计算 机 系统 互联 (Small-Computer-System Interconnect，SCSI， 发 音 为 
“scuzzy”) ，(3)SAS， 也 叫 串 行 附着 SCSI( serial attached SCSI), ， 和 (4) 光 纤 通 道 接口 (Fibre Channel 
Interface ) 。 便 携 式 外 部 磁盘 系统 经 常 使 用 USB 接口 或 正 EE 1394 火线 接口 。 

磁盘 通常 可 以 通过 电缆 直接 与 计算 机 系统 的 磁盘 接口 相连 ， 也 可 以 放置 到 远 端 并 通过 高 速 网 络 
与 磁盘 控制 器 相连 。 在 存储 区 域 网 ( Storage Area Network, SAN) 体系 结构 中 ， 大 量 的 磁盘 通过 高 速 网 
络 与 许多 计算 机 服务 器 相连 。 通 常 磁盘 采用 独立 磁盘 宛 余 阵列 ( Redundant Array of Independent Disk , 
RAID, 将 在 10.3 WMA) 技术 进行 本 地 化 组 织 ， 从 而 给 服务 器 一 个 很 大 且 非 常 可 靠 的 磁盘 的 逻辑 视 
图 。 尽 管 可 能 被 网 络 分 开 ， 计 算 机 和 磁盘 子 系统 继续 通过 SCSI, SAS 和 光纤 通道 接口 互相 通信 。 通 
过 存储 区 域 网 对 磁盘 的 远程 访问 ， 意 味 着 磁盘 可 以 由 并 行 运行 一 个 应 用 程序 的 不 同 部 分 的 多 台 计 算 
机 所 共享 。 远程 访 问 同时 也 意味 着 包含 重要 数据 的 磁盘 可 以 存放 在 有 系统 管理 员 监 视 和 维护 的 集中 
式 服 务 器 房间 中 ， 而 不 是 将 它们 分 散在 一 个 组 织 的 不 同 部 分 中 。 

网 络 附加 存储 ( Network Attached Storage, NAS) H SAN 发 展 而 来 。NAS 很 像 SAN， 但 是 它 通过 使 
用 网 络 文件 系统 协议 (如 NFS 或 CIFS ) 提供 文件 系统 接口 ， 而 不 是 看 似 一 张大 磁盘 的 网 络 存储 器 . 


10. 2.2 磁盘 性 能 的 度量 
磁盘 质量 的 主要 度量 指标 是 容量 、 访 问 时 间 、 数 据 传输 率 和 可 靠 性 。 
访问 时 间 ( access time) 是 从 发 出 读 写 请 求 到 数据 开始 传输 之 间 的 时 间 。 为 了 访问 ( 即 读 或 写 ) 磁 
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盘 上 指定 扇 区 的 数据 ， 磁 盘 臂 首先 必须 移动 ， 以 定位 到 正确 的 磁道 ， 然 后 等 待 磁盘 旋转 ， 直 到 指定 
的 扇 区 出 现在 它 下 方 。 磁 盘 臂 重 定位 的 时 间 称 为 寻 道 时 间 ( seek time) ， 它 随 磁 盘 臂 移动 距离 的 增 大 
而 增 大 。 典 型 的 寻 道 时 间 在 2 ~30 毫秒 之 间 ， 依 赖 于 目的 磁道 距离 磁盘 臂 的 初始 位 置 有 多 远 。 较 小 
的 磁盘 因为 移动 距离 较 短 而 寻 道 时 间 较 短 。 

平均 寻 道 时 间 (average seek time) 是 寻 道 时 间 的 平均 值 ， 是 在 一 个 (均匀 分 布 的 ) 随机 请 求 的 序列 
上 计算 得 到 的 。 假 设 所 有 的 磁道 包含 相同 的 扇 区 数 ， 同 时 我 们 忽略 读 写 头 开始 移动 和 结束 移动 所 花 
费 的 时 间 ， 我 们 可 以 得 到 平均 寻 道 时 间 是 最 坏 情况 下 寻 道 时 间 的 1/3。 考 虑 到 前 面 忽 略 的 这 些 因素 ， 
平均 寻 道 时 间 大 约 是 最 长 寻 道 时 间 的 1/2。 现 在 , 平均 寻 道 时 间 在 4 ~ 10 毫秒 之 间 ， 依 赖 于 磁盘 
模式 。 

一 且 读 写 头 到 达 了 所 需 的 磁道 ， 等 待 访问 的 扇 区 出 现在 读 写 头 下 所 花费 的 时 间 称 为 旋转 等 待 时 
间 ( rotational latency time) 。 现 在 一 般 的 磁盘 转速 在 每 分 钟 5400 转 ( 每 秒 90 转 ) 到 每 分 钟 15 000 转 ( 每 


Eh 250 转 ) 之 间 ， 或 者 等 价 地 ， 在 每 转 4 毫秒 到 每 转 11 毫秒 之 间 。 平均 情况 下 ， 磁 盘 需 要 旋转 半 周 
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才能 使 所 要 访问 的 扇 区 开始 处 于 读 写 头 的 下 方 。 因 此 磁盘 的 平均 旋转 等 待 时 间 是 磁盘 旋转 一 周 时 间 
的 1/2. 

访问 时 间 是 寻 道 时 间 和 旋转 等 待 时 间 的 总 和 ， 范 围 在 8 ~ 20 毫秒 之 间 。 一 旦 待 访问 数据 的 第 一 
个 扇 区 来 到 读 写 头 下 方 ， 数 据 传 输 就 开始 了 。 数 据 传输 率 ( data-transfer rate ) 是 从 磁盘 获得 数据 或 者 
向 磁盘 存储 数据 的 速率 。 目 前 的 磁盘 系统 支持 每 秒 25 ~ 100MB 的 数据 最 大 传输 率 。 对 于 磁盘 的 内 侧 
磁道 ， 数 据 传 输 率 明 显 低 于 最 大 传输 率 ， 例 如 ， 一 张 最 大 传输 率 为 每 秒 100MB 的 磁盘 ， 其 内 侧 磁道 
持续 传输 率 约 为 每 秒 30MB 。 

最 后 一 个 经 常 使 用 的 磁盘 度量 标准 是 平均 故障 时 间 ( Mean Time To Failure, MTTF), ， 这 是 磁盘 可 
靠 性 的 度量 标准 。 磁 盘 ( 或 其 他 任何 系统 ) 的 平均 故障 时 间 是 ， 平 均 说 来 我 们 可 以 期 望 系统 无 故障 连 
续 运 行 的 时 间 量 。 据 生产 商 声 称 ， 现 代 磁 盘 的 平均 故障 时 间 在 500 000 ~ 1 200 000 小 时 之 间 ( 大 约 
57 ~ 136 年 ) 。 事 实 上 ， 这 里 声称 的 平均 故障 时 间 是 基于 全 新 磁盘 发 生 故 障 的 可 能 性 计算 的 。 这 里 给 
出 的 数据 的 意思 是 说 ， 对 于 给 定 的 1 000 张 相 对 较 新 的 磁盘 ， 如 果 MTTF 是 1 200 000 小 时 ， 则 平均 
来 说 ， 在 1200 小 时 内 这 些 磁盘 中 将 会 有 一 张 发 生 故 障 。 平 均 故 障 时 间 为 1 200 000 小 时 并 不 意味 着 
该 磁盘 预期 可 以 工作 136 年 ! 大 多 数 磁盘 预期 可 以 工作 5 年 左右 ， 但 是 使 用 了 几 年 之 后 ， 其 故障 发 
生 率 会 显著 提高 。 

台式 机 的 磁盘 驱动 器 通常 支持 每 秒 150MB 传输 率 的 串 行 ATA (SATA) 接口 ， 或 者 支持 每 秒 
300MB 传输 率 的 SATA-I 3Gb 接口 。PATA5 接口 支持 每 秒 133MB 的 传输 率 。 为 服务 器 系统 设计 的 磁 
盘 驱 动 器 大 都 支持 提供 最 高 可 达 每 秒 320MB 传输 率 的 Ultra320 SCSI 接口 ， 或 者 是 提供 每 秒 3GB 或 者 
6GB 传输 率 的 串 行 附着 SCSI( SAS) 接口 。 通 过 网 络 连接 到 服务 器 的 存储 区 域 网 络 (SAN ) 设备 通常 使 
用 光纤 通道 FC -2Gb 或 4 - Gb 接口 ， 该 接口 提供 最 高 可 达 每 秒 256 或 512MB 的 传输 率 。 一 个 接口 的 
传输 率 由 连接 到 这 个 接口 的 所 有 磁盘 所 共享 ， 除 了 某 些 只 允许 一 张 磁盘 连接 一 个 接口 的 串口 
10.2.3 磁盘 块 访问 的 优化 

磁盘 VO 请 求 是 由 文件 系统 和 大 多 数 操作 系统 具有 的 虚拟 内 存 管 理 器 产生 的 。 每 个 请 求 指定 了 
要 访问 的 磁盘 地 址 ， 这 个 地 址 是 以 块 号 的 形式 提供 的 。 一 个 块 (block ) 是 一 个 逻辑 单元 ， 它 包含 固定 
数目 的 连续 扇 区 。 块 大 小 在 512 字 节 到 几 KB 之 间 。 数 据 在 磁盘 和 主 存储 器 之 间 以 块 为 单位 传输 。 术 
语 页 (page) 常 用 来 指 块 ， 尽 管 在 有 些 语 境 ( 例 如 闪存 ) 中 指 的 是 另外 的 含义 。 

来 自 磁盘 的 连续 请 求 有 可 以 归 类 成 顺序 访问 模式 或 随机 访问 模式 。 在 一 个 顺序 访问 ( sequential 
access) 模式 中 ， 连 续 的 请 求 会 请 求 处 于 相同 的 磁道 或 是 相 邻 的 磁道 上 连续 的 块 。 在 顺序 访问 中 读 取 
块 时 ， 第 一 块 可 能 需要 一 次 磁盘 寻 道 ， 但 是 相继 的 请 求 既 不 需要 寻 道 ， 也 不 需要 对 相 邻 磁道 的 寻 道 ， 
这 比 对 一 条 更 远 处 的 磁道 寻 道 要 快 。 

与 之 相反 ， 在 随机 访问 (random access) 模式 中 ， 相 继 的 请 求 会 请 求 那些 随机 位 于 磁盘 上 的 块 。 
每 一 个 请 求 都 需要 一 次 磁盘 寻 道 。 一 张 磁盘 在 一 秒 钟 内 能 满足 的 随机 块 访问 的 数量 取决 于 寻 道 时 间 ， 
并 且 通 常 是 每 秒 100 ~ 200 的 访问 次 数 。 由 于 每 次 寻 道 只 有 少量 的 数据 ( 一块 数据 ) 被 读 取 ， 因 此 随机 
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访问 模式 的 数据 传输 率 明显 低 于 顺序 访问 模式 。 
为 了 提高 访问 块 的 速度 ， 产 生 了 许多 技术 。 
© 缓冲 (buffering) 。 从 磁盘 读 取 的 块 暂时 存储 在 内 存 缓 冲 区 中 ， 以 满足 将 来 的 要 求 。 缓 冲 通 过 


操作 系统 和 数据 库 系 统 共同 运作 。 关 于 数据 库 缓 冲 将 在 10. 8 节 进 行 更 详细 的 讨论 。 

预 读 (read-ahead) 。 当 一 个 磁盘 块 被 访问 时 ， 相 同 磁 道 的 连续 块 也 被 读 入 内 存 缓冲 区 中 ， 即 
便 没 有 针对 这 些 块 的 即将 来 临 的 请 求 。 在 顺序 访问 的 情况 下 ， 当 它们 被 请 求 时 ， 这 种 预 读 可 
以 确保 许多 块 已 经 在 内 存 中 ， 减 少 了 磁盘 寻 道 和 读 取 每 块 的 旋转 等 待 时 间 。 操 作 系 统 也 经 常 
对 操作 系统 文件 预先 读 取 连 续 的 块 。 但 是 ， 预 读 对 于 随机 块 访问 并 不 是 很 有 用 。 

调度 (scheduling) 。 如 果 需 要 把 一 个 柱 面 上 的 几 个 块 从 磁盘 传输 到 主 存储 器 ， 我 们 可 以 按 块 经 
过 读 写 头 的 顺序 发 出 访问 块 的 请 求 ， 从 而 节省 访问 时 间 。 如 果 所 需 的 块 在 不 同 的 柱 面 上 ， 按 
照 使 磁盘 臂 移 动 最短 距 离 的 顺序 发 出 访问 块 的 请 求 是 非常 有 利 的 。 磁 盘 臂 调度 ( disk- arm- 
scheduling) 算法 试图 把 对 磁道 的 访问 按照 能 增加 可 以 处 理 的 访问 数量 的 方式 排序 。 通 常 使 用 
的 算法 是 电梯 算法 (elevator algorithm) ， 这 种 算法 的 工作 方式 与 许多 电梯 的 工作 方式 非常 相 
似 。 假 设 一 开始 ， 磁 盘 臂 从 最 内 端的 磁道 向 磁盘 的 最 外 端 移动 。 在 电梯 算法 的 控制 下 ， 对 每 
条 有 访问 请 求 的 磁道 ， 磁 盘 臂 都 在 那 条 磁道 停 下 ， 为 这 条 磁道 的 请 求 提 供 服 务 ， 然 后 继续 向 
外 移动 ， 直 到 没有 对 更 外 层 磁 道 的 等 待 请 求 。 这 时 ， 磁 盘 臂 掉 转 方向 ， 开 始 向 内 侧 移动 ， 同 
样 在 每 条 有 请 求 的 磁道 处 停 下 ， 直 到 没有 更 靠近 中 心 的 磁道 上 有 请 求 在 等 待 。 接 着 ， 它 掉 转 
方向 ， 开 始 一 个 新 的 周期 。 磁 盘 控 制 器 通常 对 读 请 求 进行 重新 排序 以 提高 性 能 ， 因 为 它 最 清 
楚 磁 盘 块 的 组 织 、 磁 盘 盘 片 的 旋转 位 置 和 磁盘 臂 的 位 置 。 

文件 组 织 (file organization) 。 为 了 减少 块 访问 时 间 ， 我 们 可 以 按照 与 预期 的 数据 访问 方式 最 接 
近 的 方式 来 组 织 磁盘 上 的 块 。 例 如 ， 如 果 我 们 预计 一 个 文件 将 顺序 地 访问 ， 那 么 理想 情况 下 
我 们 应 该 使 文件 的 所 有 块 存储 在 连续 的 相 邻 柱 面 上 。 老 的 操作 系统 ， 如 IBM 大 型 机 的 操作 系 
统 ， 给 程序 员 提 供 了 对 文件 位 置 的 精确 控制 ， 允 许 程 序 员 保 留 一 组 柱 面 来 存储 一 个 文件 。 然 
而 ， 这 种 控制 给 程序 员 或 系统 管理 员 带 来 了 决策 上 的 负担 ， 例 如 要 决定 给 一 个 文件 分 配 多 少 
柱 面 ， 并 且 当 数据 插入 文件 或 从 文件 中 删除 时 ,重新 组 织 文件 需要 昂贵 的 代价 。 

随后 的 操作 系统 ， 如 UNIX 和 Windows 操作 系统 ， 对 用 户 隐 藏 了 磁盘 的 组 织 ， 并 且 由 操 

作 系 统 内 部 来 管理 空间 的 分 配 。 尽 管 它 们 不 能 保证 一 个 文件 的 所 有 块 顺序 分 布 ， 但 它们 一 次 
为 一 个 文件 分 配 多 个 连续 的 块 (一 个 区 (extent) ) 。 然 后 ， 文 件 的 顺序 访问 只 需 每 个 区 寻 道 一 
次 ， 而 不 是 每 个 块 寻 道 一 次 。 经 过 一 段 时 间 ， 一 个 连续 的 文件 将 变 得 碎片 化 (fragmented ) , 
即 它 的 块 散布 在 整 张 磁盘 上 。 为 了 减少 碎片 ， 系 统 可 以 对 磁盘 上 的 数据 进行 一 次 备份 ， 然 后 
再 恢复 整 张 磁盘 。 恢 复 操 作 将 每 个 文件 的 块 连续 地 (或 几乎 连续 地 ) 写 回 。 一 些 系 统 (如 
Windows 操作 系统 的 不 同 版 本 ) 提 供 扫 描 整 张 磁盘 然后 移动 块 以 减少 碎片 的 工具 。 这 种 技术 所 
实现 的 性 能 提高 非常 显著 。 
非 易 失 性 写 缓冲 区 ( nonvolatile write buffer) 。 因 为 主 存储 器 中 的 内 容 在 发 生 电 源 故障 时 将 全 部 
丢失 ， 所 以 关于 数据 库 更 新 的 信息 必须 记录 到 磁盘 上 ， 这 样 才 能 在 系统 崩溃 时 得 以 保存 。 因 
此 ， 更 新 操作 密集 的 数据 库 应 用 的 性 能 ， 如 事务 处 理 系统 的 性 能 ， 高 度 依赖 于 磁盘 写 操 作 的 
速度 。 

我 们 可 以 使 用 非 易 失 性 随机 访问 存储 器 (NonVolatile Random-Access Memory, NV-RAM) 大 
幅度 地 加 速写 磁盘 的 操作 。NV-RAM 的 内 容 在 发 生 电 源 故 障 时 不 会 丢失 。 一 种 实现 NV-RAM 
的 常用 方法 是 使 用 有 备用 电池 的 RAM。 其 思想 是 ， 当 数据 库 系统 (或 操作 系统 ) 请 求 往 磁盘 
上 写 一 个 块 时 ， 磁 盘 控制 器 将 这 个 块 写 到 NV-RAM 缓冲 区 中 ， 然 后 立即 通知 操作 系统 写 操作 
已 成 功 完成 。 当 磁盘 上 没有 其 他 请 求 时 ， 或 者 当 NV-RAM 缓冲 区 满 时 ， 磁 盘 控 制 器 将 这 些 数 
据 写 到 磁盘 上 相应 的 目标 地 址 处 。 当 数据 库 系统 请 求 写 一 个 块 时 ， 只 有 在 NV-RAM 缓冲 区 满 
时 ， 才 会 有 一 个 延迟 。 从 系统 崩溃 中 进行 恢复 时 ，NV-RAM 中 所 有 缓冲 的 未 完成 的 写 操作 将 
写 回 到 磁盘 。 某 些 特定 的 高 端 磁盘 会 使 用 NV-RAM 缓冲 区 ,但 是 NV-RAM 更 多 应 用 于 “ RAID 
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控制 器 ”， 我 们 将 在 10.3 节 研 究 RAID. 
。 日 志 磁 盘 (log disk)。 减 少 写 等 待 时 间 的 另 一 种 方法 是 使 用 日 志 磁 盘 ， 即 一 种 专门 用 于 写 顺 序 
日 志 的 磁盘 ， 这 和 非 易 失 性 RAM 缓冲 区 的 使 用 非常 相似 。 对 日 志 磁 盘 的 所 有 访问 都 是 顺序 
438 的 ， 这 从 根本 上 消除 了 寻 道 时 间 ， 并 且 一 次 可 以 写 几 个 连续 的 块 ， 使 得 写 日 志 磁 盘 比 随机 的 
写 要 快 许多 倍 。 和 前 面 一 样 ， 数 据 也 必须 写 到 它们 在 磁盘 上 的 实际 位 置 ， 但 是 数据 库 系 统 不 
需要 等 待 这 种 写 操 作 的 完成 ， 日 志 磁 盘 会 在 以 后 完成 写 操 作 。 进 一 步 说 ， 日 志 磁 盘 可 以 为 了 
最 少 化 磁盘 臂 的 移动 而 重 排 写 操作 的 顺序 。 如 果 系 统 在 实际 磁盘 写 操作 完成 以 前 崩溃， 在 系 
统 恢复 后 ， 系 统 可 以 读 取 日 志 磁 盘 ， 找 到 那些 还 没有 完成 的 写 操 作 并 将 它们 完成 。 
支持 上 述 日 志 磁 盘 的 文件 系统 称 作 日 志文 件 系 统 (journaling file system ) 。 日 志文 件 系统 其 
至 可 以 在 没有 单独 的 日 志 磁 盘 的 情况 下 实现 ， 此 时 它 将 数据 和 日 志 存 储 在 同一 张 磁盘 上 。 这 
样 做 可 以 节省 财政 开支 ， 但 是 会 降低 系统 性 能 。 
大 多 现代 文件 系统 都 实现 了 日 志 ， 并 在 写 人 内 部 文件 系统 的 信息 (如 文件 分 配 信息 ) 时 使 
用 日 志 磁 盘 。 早 期 文件 系统 允许 在 不 使 用 日 志 磁 盘 的 情况 下 对 写 操 作 重新 排序 ， 一旦 系统 崩 
演 ， 磁 盘 上 的 文件 系统 数据 结构 将 会 有 被 破坏 的 风险 。 例 如 ， 假 定 一 个 使 用 链表 的 文件 系 
统 ， 在 链表 的 末端 插入 一 个 新 结 点 时 ， 先 写 人 新 结 点 的 数据 ， 然 后 更 新 来 自前 面 的 结 点 的 指 
针 。 还 假设 写 操作 重新 排序 ， 使 得 指针 先 更 新 ， 而 系统 在 写 和 人 新 结 点 之 前 崩溃 ， 那 么 结 点 的 
内 容 将 会 是 此 前 磁盘 上 的 废 数据 ， 从 而 导致 数据 结构 的 破坏 。 
为 了 处 理 这 种 数据 结构 破坏 的 可 能 性 ， 早 期 文件 系统 必须 在 系统 重新 启动 时 执行 一 个 文 
件 系 统一 致 性 检验 ， 以 保证 数据 结构 是 一 致 的 。 且 如 果 它 们 不 一 致 ， 必 须 执 行 额 外 的 步骤 还 
原 它们 以 保证 一 致 性 。 这 些 检验 会 使 得 系统 崩溃 后 的 重启 动 有 较 长 的 延 时 ,而且 这 个 延 时 随 
着 磁盘 系统 容量 的 增加 而 变 得 更 加 严重 。 日 志文 件 系统 允许 快速 重启 动 而 不 需要 这 样 的 一 致 
性 检验 。 
但 是 ， 由 应 用 程序 执行 的 写 操 作 一 般 不 写 入 日 志 磁 盘 中 。 数 据 库 系统 实现 它们 自己 形式 
的 日 志 ， 我 们 将 在 第 16 章 研究 。 
10.2.4 快 内 存储 
正如 10. 1 节 所 提 到 的 ,一 共有 两 种 快 闪存 储 器 ， 即 NOR ANA NAND AN, NOR 快 闪 允 许 随 
机 访问 闪存 中 的 单个 字 ， 并 且 拥 有 和 主 存 可 媲美 的 读 取 速 度 。 而 NAND 快 内 和 NOR RAAT, EM 
读 取 需要 将 整个 数据 页 从 NAND 快 闪 取 到 主 存储 器 中 ， 该 数据 页 通常 包括 512 ~ 4096 字 节 。NAND 
快 闪 中 的 页 和 磁盘 中 的 扇 区 十 分 相似 。 但 是 NAND 快 闪 明显 比 NOR 快 闪 便 宜 ， 并 且 拥 有 更 高 的 存储 
容量 ， 且 目前 更 广泛 使 用 。 

439 采用 NAND 快 闪 构建 的 存储 系统 提供 与 磁盘 存储 器 相同 的 面向 块 的 接口 。 与 磁盘 相 比 ， 闪 存 可 
以 提供 更 快 的 随机 存 取 : 一 个 数据 页 ， 从 闪存 中 可 以 在 约 1 ~ 2 微 秒 内 检索 到 ， 而 从 磁盘 上 的 一 个 随 
机 访问 则 需要 5 ~ 10 上 毫秒。 闪存 具有 比 磁盘 低 的 传输 速率 ， 一 般 来 说 为 每 秒 20MB。 最 近 的 一 些 内存 
的 传输 速率 增加 到 每 秒 100 ~200MB。 然 而 ， 固 态 驱 动 器 并 行 地 使 用 多 块 闪 存 芯 片 ， 将 传输 速率 提高 
到 每 秒 200MB 以 上 ， 这 上 比 大 多 数 磁盘 的 传输 速率 更 快 。 

闪存 的 写 人 稍 有 些 复杂 。 写 一 个 闪存 页 面 通常 需要 几 微 秒 。 然 而 ,一旦 写 和 信 ， 闪 存 的 页 面 不 能 
直接 覆盖 。 它 必须 先 擦 除 然后 再 重 写 。 一 次 擦 除 操 作 可 以 在 多 个 页 面 执行 ， 称 为 擦 除 块 ( erase 
block) ， 这 种 操作 需 时 约 1 ~ 2 毫秒。 一 个 擦 除 块 的 大 小 (在 闪存 文 献 中 通常 描述 为 “ 块 ") 通 常 明显 比 
存储 系统 的 块 大 很 多 。 此 外 ， 对 一 个 闪存 页 可 以 擦 除 多 少 次 存在 限制 ,通常 大 约 为 10 万 ~100 万 次 
一 旦 达到 此 限制 ， 在 存储 位 就 可 能 发 生 错 误 。 

闪存 系统 通过 映射 逻辑 页 码 到 物理 页 码 ， 限 制 了 慢 擦 除 速度 和 更 新 限制 的 影响 。 当 一 个 逻辑 页 
更 新 时 ， 它 可 以 重新 映射 到 任何 已 擦 除 的 物理 页 ， 它 原来 的 位 置 可 以 随后 擦 除 。 每 个 物理 页 都 有 一 
个 小 的 存储 区 域 来 保存 它 的 逻辑 地 址 ; 如 果 逻 辑 地 址 重新 映射 到 一 个 不 同 的 物理 页 ， 则 原来 的 物理 
页 被 标记 为 已 删除 。 因 此 ， 通 过 扫描 物理 页 ， 我 们 可 以 发 现 每 个 逻辑 页 的 位 置 。 为 了 快速 访问 ， 逮 
辑 到 物理 的 页 面 映射 被 复制 到 内 存 的 转换 表 (translation table) 中 。 
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包含 多 个 删除 页 面 的 块 将 会 定期 清除 ， 并 注意 先 复 制 这 些 块 中 未 删除 的 页 面 到 不 同 块 (转换 表 中 
对 这 些 未 删除 的 页 面 进行 更 新 ) 中 。 由 于 每 个 物理 页 面 只 能 更 新 固定 次 数 ， 因 此 擦 除 多 次 的 物理 页 面 
被 标记 成 “ 冷 数 据 ”， 换 句 话说 ， 数 据 很 少 更 新 ; 没有 擦 除 多 次 的 页 用 来 存储 “ 热 数据 ”， 即 ， 频 繁 更 
新 的 数据 。 这 种 在 物理 块 中 均匀 分 布 擦 除 操作 的 原则 称 作 损耗 均衡 ( wear leveling) ， 而 且 通 常 是 由 闪 
存 控制 器 透明 地 执行 。 如 果 一 个 物理 页 由 于 过 多 次 更 新 而 损坏 ， 它 可 以 不 再 使 用 ， 而 不 影响 整个 
闪存 。 

所 有 的 上 述 动作 通过 一 个 叫做 闪存 转换 层 (flash translation layer) 的 软件 层 完成 。 在 这 一 层 之 上 ， 
闪存 存储 器 看 起 来 和 磁盘 存储 器 一 样 ， 都 提供 同样 的 面向 页 / 扇 区 的 接口 ， 除 了 闪存 存储 器 快 得 多 . 
因此 ， 文 件 系统 和 数据 库存 储 结构 可 以 看 到 相同 的 底层 存储 结构 逻辑 视图 ,无论 是 闪存 存储 器 或 磁 
盘存 储 器 。 

混合 硬盘 驱动 器 (hybird disk drive) 是 结合 了 小 容量 闪存 存储 器 的 硬盘 系统 ， 对 频繁 访问 的 数据 ， 
该 驱动 器 作为 缓存 使 用 。 频 繁 访问 但 很 少 更 新 的 数据 最 适合 于 缓存 在 闪存 存储 器 中 。 


10.3 RAID 


虽然 磁盘 的 存储 容量 在 迅速 增长 ， 但 是 ， 有 些 应 用 (特别 是 Web、 数 据 库 和 多 媒体 应 用 ) 的 数据 
存储 需求 增长 太 快 ， 以 致 在 这 些 应 用 中 需要 大 量 的 磁盘 来 存储 数据 。 

在 一 个 系统 中 使 用 大 量 的 磁盘 为 提高 数据 读 写 速率 提供 了 机 会 ， 如 果 并 行 访问 磁盘 的 话 。 很 多 
独立 的 读 和 写 操作 也 可 以 并 行 执行 。 此 外 ， 这 种 组 织 方式 提供 了 提高 数据 存储 可 靠 性 的 潜力 ， 因 为 
可 以 在 多 张 磁盘 中 存储 宛 余 信息 。 因 此 一 个 磁盘 的 故障 不 会 导致 数据 的 丢失 。 

为 了 提高 性 能 和 可 靠 性 ， 人 们 提出 了 统称 为 独立 磁盘 元 余 阵 列 ( Redundant Array of Independent 
Disk, RAID) 的 多 种 磁盘 组 织 技术 。 

在 过 去 ， 系 统 设计 者 认为 用 多 张 较 小 且 廉 价 的 磁盘 构成 的 系统 替代 大 而 昂贵 的 磁盘 是 一 种 合算 
的 方法 : 小 磁盘 系统 的 每 兆 字 节 的 价格 比 大 磁盘 系统 便宜 。 事 实 上 ，RAID 中 的 工 现在 代表 的 意思 是 
独立 (independent) ， 原 先 代表 的 意思 是 廉价 (inexpensive) 。 然 而 现在 ， 所 有 的 磁盘 物理 上 都 比较 小 ， 
大 容量 磁盘 每 兆 字 节 的 价格 实际 上 也 降低 了 。 使 用 RAID 是 因为 它 有 更 高 的 可 靠 性 和 更 高 的 执行 效 
率 ， 而 不 再 是 因为 经 济 原因 。 使 用 RAID 的 另 一 个 关键 理由 是 它 易 于 管理 和 操作 。 

10.3.1 通过 元 余 提 高 可 靠 性 

让 我 们 首先 考虑 可 靠 性 问题 。N 张 磁盘 组 成 的 集合 中 某 张 磁盘 发 生 故 障 的 概率 比特 定 的 一 张 磁 
盘 发 生 故 障 的 概率 要 高 。 假 设 一 张 磁盘 发 生 故 障 的 平均 时 间 为 100 000 小 时 ( 稍 大 于 11 年 )。 这 样 ， 
由 100 张 磁盘 组 成 的 阵列 发 生 磁盘 故障 的 平均 时 间 为 100 000/100 = 1000 小 时 ( 约 为 42 天 ) ， 这 个 时 
间 一 点 也 不 长 ! 如 果 我 们 只 存储 了 数据 的 一 个 拷贝 ,那么 任何 一 张 磁盘 发 生 故 障 都 将 导致 大 量 数据 
的 丢失 (正如 10. 2. 1 节 讨 论 的 那样 ) 。 这 样 高 的 数据 丢失 率 是 无 法 接受 的 。 

引入 宛 余 (redundancy) 是 解决 这 个 可 靠 性 问题 的 方法 ， 即 存储 正常 情况 下 不 需要 的 额外 信息 ， 但 
这 些 信息 可 在 发 生 磁 盘 故 障 时 用 于 重建 丢失 的 信息 。 这 样 ， 即 使 有 一 张 磁盘 发 生 了 故障 ， 数 据 也 不 
会 丢失 ， 从 而 延长 了 磁盘 发 生 故 障 的 有 效 平均 时 间 ( 这 里 只 计 导 臻 数据 丢失 或 数据 不 可 用 的 磁盘 故 
障 ) 。 

实现 宛 余 最 简单 (但 最 昂贵 ) 的 方法 是 复制 每 一 张 磁盘 。 这 种 技术 称 为 镜像 ( mirroring) (或 者 有 时 
称 为 影子 ) 。 这 样 ， 一 张 还 辑 磁盘 由 两 张 物理 磁盘 组 成 ， 并 且 每 一 次 写 操作 都 要 在 两 张 磁盘 上 执行 。 
如 果 其 中 一 张 磁盘 发 生 了 故障 ， 数 据 可 以 从 另 一 张 磁盘 读 出 。 只 有 当 第 一 张 磁盘 的 故障 被 修复 之 前 ， 
第 二 张 磁盘 也 发 生 了 故障 时 ， 数 据 才 会 丢失 。 

采用 镜像 技术 的 磁盘 的 平均 故障 时 间 ( 这 里 的 故障 是 指数 据 的 丢失 ) 依赖 于 单 张 磁盘 的 平均 故障 
时 间 和 平均 修复 时 间 ( mean time to repair) ， 平 均 修 复 时 间 是 替换 发 生 故障 的 磁盘 并 且 恢 复 这 张 磁盘 
上 的 数据 所 花费 的 (平均 ) 时 间 。 假 设 两 张 磁盘 发 生 故 障 是 相互 独立 的 ， 即 一 张 磁盘 的 故障 和 另 一 张 
磁盘 的 故障 之 间 没 有 联系 。 那 么 ， 如 果 一 张 单独 磁盘 的 平均 故障 时 间 是 100 000 小 时 ， 平 均 修 复 时 间 
是 10 小 时 ， 则 镜像 磁盘 系统 的 平均 数据 丢失 时 间 ( mean time to data loss) 为 100 000’/(2 * 10) = 
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500 * 10" 小 时 ， 即 57 000 年 ! (这 里 就 不 再 探究 推导 过 程 ， 文 献 注 解 中 的 参考 文献 里 提供 了 细节 。) 

读者 应 该 意识 到 磁盘 故障 之 间 的 独立 性 假设 是 不 合理 的 。 电 源 故 障 和 自然 灾害 ， 如 地 震 、 火 灾 
和 洪水 ， 将 导致 两 张 磁盘 在 同一 时 间 毁 坏 。 当 磁盘 逐渐 老化 ， 发 生 故 障 的 可 能 性 将 随 之 增加 ， 同 时 
增加 了 在 第 一 张 磁盘 被 修复 时 ， 第 二 张 磁盘 也 发 生 故 障 的 机 会 。 尽 管 有 这 些 方面 需要 考虑 ， 镜 像 磁 
盘 系统 仍然 比 单一 磁盘 系统 提供 了 更 高 的 可 靠 性 。 现 在 已 有 平均 数据 丢失 时 间 在 500 000 ~ 1 000 000 
小 时 (或 55 ~110 年 ) 的 镜像 磁盘 系统 。 

电源 故障 是 特别 需要 考虑 的 问题 ， 因 为 它们 比 自然 灾害 的 发 生 频 繁 得 多 。 如 果 在 电源 发 生 故 障 
时 没有 正在 向 磁盘 传输 数据 ， 那 么 电源 故障 就 不 必 考 虑 。 然 而 ， 即 使 有 磁盘 镜像 ， 如 果 正 在 对 两 张 
磁盘 上 相同 的 块 进行 写 操作 ， 并 且 在 两 个 块 完全 写 完 之 前 电源 发 生 故 障 ， 那 么 这 两 个 块 将 处 于 不 一 
致 的 状态 。 解 决 这 个 问题 的 方法 是 ， 先 写 一 个 拷贝 ， 再 写 另 一 人 个。 这样， 两 个 拷贝 中 有 一 个 总 是 一 
致 的 。 当 我 们 在 电源 发 生 故障 后 重新 启动 时 ， 需 要 做 一 些 额外 的 动作 ， 以 从 不 完全 的 写 操作 中 恢复 
这 个 问题 将 在 习题 10. 3 中 讨论 。 
10. 3.2 通过 并 行 提 高 性 能 

现在 让 我 们 考虑 对 多 张 磁盘 进行 并 行 访 问 的 好 处 。 通 过 做 盘 镜 像 ， 处 理 读 请 求 的 速度 将 翻 倍 ， 
因为 读 请 求 可 以 发 送 到 任意 一 张 磁盘 上 (只 要 组 成 一 对 的 两 张 磁盘 都 是 可 用 的 ， 而 且 一 般 情况 下 总 是 
如 此 ) 。 每 个 读 操作 的 传输 速率 和 单一 磁盘 系统 中 的 传输 速率 是 一 样 的 ， 但 是 每 单位 时 间 内 读 操作 的 
数目 将 翻 倍 。 

我 们 可 以 通过 在 多 张 磁盘 上 进行 数据 拆 分 (striping data) 来 提高 传输 速率 。 数 据 拆 分 最 简单 的 形 
式 是 将 每 个 字 节 按 比特 分 开 ， 存储 到 多 个 磁盘 上 。 这 种 拆 分 称 为 比特 级 拆 分 (bit-level striping). fyi) 
如 ， 如 果 我 们 有 一 个 由 8 张 磁盘 组 成 的 阵列 ， 我 们 将 每 个 字 节 的 第 i 位 写 到 第 i 张 磁 盘 上 。 这 8 张 磁 
盘 组 成 的 阵列 可 以 被 看 成 一 张 单一 的 磁盘 ， 这 张 磁盘 的 一 个 扇 区 的 大 小 是 通常 大 小 的 8 倍 ， 并 且 更 重 
要 的 是 它 的 传输 速率 是 通常 速率 的 8 倍 。 在 这 样 的 组 织 结构 中 ， 每 张 磁盘 都 参与 每 次 的 访问 ( 读 或 写 ) ， 
所 以 它 每 秒 所 处 理 的 访问 操作 的 总 数 和 一 张 磁盘 所 处 理 的 是 一 样 的 ， 但 是 在 相同 时 间 内 ， 它 每 次 访问 
所 读 取 的 数据 量 是 一 张 磁盘 上 的 8 倍 。 位 级 拆 分 可 以 推广 到 磁盘 总 数 为 8 的 倍数 或 8 的 因子 的 情况 。 
例如 ， 如 果 我 们 使 用 由 4 张 磁盘 组 成 的 阵列 ， 每 个 字 节 的 第 位 和 第 4 +i 位 写 到 第 i 张 磁盘 上 。 

块 级 拆 分 ( block-level striping) 是 将 块 拆 分 到 多 张 磁盘 。 它 把 磁盘 阵列 看 成 一 张 单独 的 大 磁盘 ， 并 
且 给 块 进行 逻辑 编号 ， 这 里 我 们 假设 块 的 逻辑 编号 从 0 开始 。 对 于 mn 张 磁盘 的 阵列 ， 块 级 拆 分 将 磁 
盘 阵列 逻辑 上 的 第 ;个 块 存 储 到 第 (i mod n) +1 张 磁盘 上 : 即 用 第 | i/n 个 物理 块 存储 逻辑 块 i。 例 
如 ， 有 8 张 磁盘 ， 逻 辑 磁盘 块 0 存储 在 磁盘 1 的 第 0 个 物理 块 上 ; 逻辑 磁盘 块 11 存储 在 磁盘 4 的 第 1 
个 物理 块 上 。 当 读 一 个 大 文件 时 ， 块 级 拆 分 可 以 同时 从 nn 张 磁盘 上 并 行 地 读 取 个 块 ， 从 而 获得 对 
于 大 的 读 操 作 的 高 数据 传输 率 。 当 读 取 单 块 数据 时 ， 其 数据 传输 率 与 单个 磁盘 上 的 数据 传输 率 相同 ， 
但 是 剩 下 的 m -1 张 磁盘 可 以 自由 地 进行 其 他 操作 。 

块 级 拆 分 是 最 常用 的 数据 拆 分 形式 。 其 他 层次 的 拆 分 ， 例 如 将 扇 区 按 字 节 拆 分 或 者 将 块 按 扇 区 
拆 分 ， 也 是 可 以 实现 的 。 

总 之 ， 磁 盘 系 统 中 的 并 行 有 两 个 主要 的 目的 : 

1. 负载 平衡 多 个 小 的 访问 操作 ( 块 访问 ) ， 以 提高 这 种 访问 操作 的 吞吐 量 。 

2. 并 行 执行 大 的 访问 操作 ， 以 减少 大 访问 操作 的 响应 时 间 。 
10.3.3 RAID 级 别 


镜像 提供 了 高 可 靠 性 ， 但 它 十 分 晶 贵 。 拆 分 提供 了 高 数据 传输 率 ， 但 不 能 提高 可 靠 性 。 通 过 结 
合 “奇偶 校 验 位 "(在 下 文 描述 ) 和 磁盘 拆 分 思想 ， 从 而 以 较 低 的 代价 提供 数据 元 余 ， 人 们 已 经 提出 了 
一 些 不 同 的 替换 方案 。 这 些 方案 具有 不 同 的 成 本 和 性 能 之 间 的 权衡 ， 并 且 分 为 若干 RAID 级 别 ( RAID 
level) 。 图 10-3 表示 这 些 级 别 (在 图 10-3 中 ，P 表示 纠 错位 ，C 表示 数据 的 第 二 个 拷贝 )。 对 于 所 有 
的 级 别 ， 该 图 描绘 了 4 张 磁盘 的 数据 ， 而 其 中 描绘 的 其 余 磁盘 用 于 存储 故障 恢复 时 所 使 用 的 的 元 余 
信息 。 
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RAID 0 级 ( RAID level 0) ， 指 块 级 拆 分 但 没有 任何 元 余 ( 例 如 镜像 或 奇偶 校 验 位 ) 的 磁盘 阵列 。 
图 10-3a 给 出 了 一 个 大 小 为 4 的 磁盘 阵列 。 





RAID 1 级 (RAID level 1) ， 指 的 是 使 用 块 级 拆 分 SEE > 
的 磁盘 镜像 。 图 10-3b 给 出 了 一 个 镜像 的 组 织 结 YFA 
构 ， 存 储 4 张 磁盘 的 数据 。 a) RAID 0: 无 兄 余 拆 分 
注意 一 些 厂商 使 用 RAID 1 +0 级 或 RAID 10 级 c > 
来 指 代 使 用 拆 分 的 镜像 ， 使 用 RAID 1 级 指 代 不 使 DODODDBSS fe] 
用 拆 分 的 镜像 。 不 使 用 拆 分 的 镜像 可 以 与 磁盘 阵列 b) RAID 1: 镜像 磁盘 
一 起 使 用 ， 以 呈现 为 一 张 单一 的 大 型 可 靠 磁盘 : 如 一 
果 每 张 磁 盘 有 M 块 ， 逻 辑 块 0~M-1 存储 在 磁盘 0 pHo 
E, ik M ~2M -1 存储 在 磁盘 1( 第 二 张 磁盘 ) c) RAID 2: 内 存 风 格 的 纠 错 码 


上 ， 依 次 类 推 ， 且 每 张 磁盘 都 有 镜像 。 © 


RAID 2 级 (RAID level 2) ， 也 称 为 内 存 风格 的 纠 错 Caana 


人 码 ( Error-Correcting-Code, ECC) 组 织 结 构 ， 使 用 奇 = 
d) RAID 3: 位 交叉 奇偶 校 验 
偶 校 验 位 。 长 期 以 来 ， 内 存 系统 使 用 奇偶 校 验 位 来 








实现 错误 检测 和 纠正 。 内 存 系统 中 的 每 个 字 节 都 有 

一 个 与 之 相 联 系 的 奇偶 校 验 位 ， 它 记录 了 这 个 字 节 gEogEE 

中 为 1 的 位 数 是 偶数 (奇偶 校 验 位 = 0) 还 是 奇数 e) RAID 4: 块 交叉 奇偶 校 验 

(奇偶 校 验 位 si ) o 如 果 这 个 字 节 中 有 一 位 被 破坏 a |) eS 

(1 变 成 0， 或 0 变 成 1) ,那么 这 个 字 节 的 奇偶 校 ja 
验 位 就 会 改变 ， 而 与 存储 的 奇偶 校 验 位 不 匹配 。 同 f) RAID 5: 块 交叉 的 分 布 奇偶 校 验 


样 地 ， 如 果 存 储 的 奇偶 校 验 位 被 破坏 ， 它 就 不 能 和 : 
计算 出 的 奇偶 校 验 位 相 匹配 。 因 此 ， 内 存 系统 可 以 a 
检测 到 所 有 的 1 位 错误 。 纠 错 码 机 制 存储 两 个 或 更 i re 
多 的 附加 位 ， 并 且 如 果 有 一 位 被 破坏 ， 它 可 以 重建 
数据 。 图 10-3 RAID 级 别 

通过 把 字 节 拆 分 存储 到 多 张 磁盘 上 ， 纠 错 码 的 
思想 可 以 直接 用 于 磁盘 阵列 。 例 如 ， 每 个 字 节 的 第 一 位 存储 在 磁盘 0 中 ,第 二 位 存储 在 磁盘 1 
中 ， 如 此 下 去 ， 直 到 第 8 位 存储 在 磁盘 7 中 ， 纠 错位 存储 在 其 余 的 磁盘 中 。 

图 10-3c 显示 了 2 级 方案 。 标 记 为 P 的 磁盘 存储 了 纠 错位 。 如 果 其 中 一 张 磁盘 发 生 了 故障 ， 
可 以 从 其 他 磁盘 中 读 出 字 节 的 其 余 位 和 相关 的 纠 错位 ， 并 用 它们 来 重建 被 破坏 的 数据 。 图 10- 
3c 显示 了 一 个 大 小 为 4 的 磁盘 阵列 。 注 意 ， 对 于 4 张 磁盘 的 数据 ，RAID 2 级 方案 只 需要 3 张 磁 
盘 的 开销 ， 而 不 像 RAID 1 级 需要 4 张 磁盘 的 开销 。 
RAID 3 级 ( RAID level 3) ， 位 交叉 的 奇偶 校 验 组 织 结构 。RAID 3 级 在 RAID 2 级 的 基础 上 进行 
了 改进 。 与 内 存 系统 不 同 ， 磁 盘 控制 器 能 够 检测 一 个 扇 区 是 否 正 确 地 读 出 ， 所 以 可 以 使 用 一 个 
单一 的 奇偶 校 验 位 来 检 错 和 纠 错 。 它 的 思想 如 下 : 如 果 一 个 扇 区 被 破坏 ， 系 统 能 准确 地 知道 是 
哪个 扇 区 坏 了 ， 并 且 对 扇 区 中 的 每 一 位 ， 系 统 可 以 通过 计算 其 他 磁盘 上 对 应 扇 区 的 对 应 位 的 奇 
偶 值 来 推断 出 该 位 是 1 还 是 0。 如 果 其 余 位 的 奇偶 校 验 位 等 于 存储 的 奇偶 校 验 位 ， 则 丢失 的 位 
是 0, 反之 为 1。 














注意 一 些 厂商 使 用 术语 RAID 0 + 1 来 指 代 RAID 的 一 个 版 本 ， 该 版 本 用 拆 分 创建 一 个 RAID 0 阵列 ， 并 用 另 一 个 
阵列 作为 该 阵列 的 镜像 。 它 与 RAID 1 的 区 别 在 于 如 果 一 张 磁盘 发 生 错误 ， 包 含 该 磁盘 的 RAID 0 阵列 变 为 不 可 
用 ， 镜 像 的 阵列 仍然 可 以 使 用 ， 因 此 没有 数据 丢失 。 在 一 张 磁盘 发 生 错误 时 ， 这 一 安排 不 如 RAD 1， 因 为 RAID 
0 阵列 中 的 其 他 磁盘 在 RAID 1 中 可 以 继续 使 用 ,但 是 在 RAID 0 + 1 中 仍然 是 无 用 的 - 
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RAID 3 级 和 RAID 2 级 一 样 好 ,但 是 在 额外 磁盘 的 数目 方面 更 加 节省 ( 它 只 有 一 张 磁盘 的 
开销 )， 所 以 在 实际 中 并 不 使 用 RAID 2。 图 10-3d 表示 RAID 3 级 方案 。 

RAID 3 级 与 RAID 1 级 相 比 有 两 个 好 处 。RAID 3 级 对 多 张 常规 磁盘 只 需要 一 个 奇偶 校 验 磁 

盘 ， 而 RAID 1 级 对 每 张 磁盘 都 需要 一 张 镜像 磁盘 ， 因 此 RAID 3 级 减少 了 存储 的 开销 ; 因为 使 
用 NN 道 数据 拆 分 的 RAID 3 级 对 一 个 字 节 的 读 写 散 布 在 多 张 磁盘 中 ， 所 以 它 使 用 NN 道 数据 拆 分 
读 写 一 个 块 的 传输 率 是 RAID 1 级 的 N 倍 。 但 另 一 方面 ， 因 为 每 张 磁盘 都 要 参与 每 个 IO 请求， 
所 以 RAID 3 级 每 秒 钟 支持 的 VO 操作 数 较 少 。 
RAID 4 级 ( RAID level 4) ， 块 交叉 的 奇偶 校 验 组 织 结 构 。 它 像 RAID 0 级 一 样 使 用 块 级 拆 分 ， 此 
外 在 一 张 独立 的 磁盘 上 为 其 他 N 张 磁盘 上 对 应 的 块 保留 一 个 奇偶 校 验 块 。 图 10-3e 表示 了 这 种 
方法 。 如 果 一 张 磁盘 发 生 故 障 ， 可 以 使 用 奇偶 校 验 块 和 其 他 磁盘 上 对 应 的 块 来 恢复 发 生 故 障 的 
磁盘 上 的 块 。 

它 读 取 一 个 块 只 访问 一 张 磁盘 ， 因 此 允许 其 他 的 请 求 在 其 他 磁盘 上 执行 。 这 样 ， 每 个 访问 
操作 的 数据 传输 率 较 低 ， 但 可 以 并 行 地 执行 多 个 读 操 作 ， 从 而 能 产生 较 高 的 总 VO 传输 率 。 由 
于 所 有 磁盘 可 以 并 行 地 读 ， 因 此 读 取 大 量 数据 的 操作 有 很 高 的 传输 率 。 写 入 大 量 数 据 的 操作 也 
有 很 高 的 传输 率 ， 因 为 数据 和 奇偶 校 验 位 可 以 并 行 地 写 。 

但 是 ， 小 的 独立 的 写 操作 不 能 并 行 地 执行 。 写 一 个 块 需要 访问 存储 这 个 块 的 磁盘 和 存储 奇 

偶 校 验 位 的 磁盘 ， 因 为 存储 奇偶 校 验 位 的 块 需要 更 新 。 另 外 ， 为 了 计算 新 的 奇偶 校 验 位 ， 需 要 
读 出 存储 奇偶 校 验 位 的 块 的 旧 值 和 要 写 和 的 块 的 旧 值 。 因 此 ， 一 个 单独 的 写 操作 需要 4 次 磁盘 
访问 : 两 次 读 操作 以 读 取 两 个 旧 块 ， 两 次 写 操作 以 写 入 两 个 新 块 。 
RAID 5 级 (RAID level 5) ， 块 交叉 的 分 布 奇偶 校 验 位 的 组 织 结构 。RAID 5 级 在 RAID 4 级 的 基 
础 上 进行 了 改进 ， 将 数据 和 奇偶 校 验 位 都 分 布 到 所 有 的 N+ 1 张 磁盘 中 ， 而 不 是 在 N 张 磁盘 上 
存储 数据 并 在 一 张 磁盘 上 存储 奇偶 校 验 位 。 在 RAID 5 级 中 ， 所 有 磁盘 都 能 参与 对 读 请 求 的 服 
务 ， 而 不 像 RAID 4 级 中 存储 奇偶 校 验 位 的 磁盘 不 参与 读 操 作 ， 所 以 RAID 5 级 增加 了 在 一 段 给 
定 的 时 间 中 能 处 理 的 请 求 总 数 。 对 每 个 由 个 逻辑 磁盘 块 组 成 的 集合 来 说 ， 其 中 一 张 磁盘 存储 
奇偶 校 验 块 ， 而 其 余 的 N 张 磁盘 存储 逻辑 磁盘 块 。 

图 10-3f 表示 了 这 种 方法 的 设置 ， 校 验 块 P 分布 到 所 有 磁盘 上 。 例 如， 在 5 张 磁 盘 组 成 的 
阵列 中 ， 人 逻辑 块 4 、4k +1、4k+2、4k+3 对 应 的 奇偶 校 验 块 已， 存储 在 第 上 mod 5 张 磁盘 中 ; 
余下 的 4 张 磁盘 中 对 应 的 块 存储 45 ~ 44 +3 这 四 个 数据 块 。 下 面 的 表 描 述 了 0 ~ 19 这 前 20 个 块 
和 它们 的 奇偶 校 验 块 在 磁盘 中 是 如 何 排列 的 。 对 于 以 后 的 块 重复 这 样 的 存储 模式 。 











注意 奇偶 校 验 块 不 能 和 其 所 对 应 的 数据 块 存 储 在 同一 张 磁盘 上 ， 如 果 这 样 ， 一 张 磁盘 发 生 

故障 会 导致 数据 和 奇偶 校 验 位 的 丢失 ， 数 据 将 是 不 可 恢复 的 。RAID 5 级 包含 RAID 4 级 ， 因 为 
它 在 相同 的 成 本 下 提供 了 更 好 的 读 写 性 能 ， 所 以 RAID 4 级 在 实际 中 未 使 用 。 
RAID 6 级 ( RAID level 6), P+Q RHR, EF RAID 5 级 非常 相似 ， 但 是 存储 了 额外 的 宛 余 
信息 ， 以 应 对 多 张 磁盘 发 生 故 障 的 情况 。RAID 6 不 使 用 奇偶 校 验 的 方法 ， 而 是 使 用 像 Reed- 
Solomon 码 (参见 文献 注解 ) 之 类 的 纠 错 码 。 如 图 10-3g 所 示 ， 这 种 方法 与 RAID 5 级 对 每 4 位 数 
据 存储 1 个 奇偶 校 验 位 不 同 ， 它 为 每 4 位 数据 存储 2 位 的 元 余 信息 ， 这 样 系统 可 容忍 两 张 磁盘 
发 生 故 障 。 


最 后 我 们 要 注意 的 是 ， 对 于 这 里 描述 的 基本 RAID 策略 ， 人 们 提出 了 许多 变种 ， 不 同 的 厂商 采用 
不 同 的 术语 来 描述 其 变种 。 
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10.3.4 RAID 级 别 的 选择 

选择 RAID 级 别 应 该 考虑 以 下 的 因素 : 

。 所 需 的 额外 磁盘 存储 带 来 的 花费 。 

© 在 IO 操作 数量 方面 的 性 能 需求 。 

。 磁盘 故障 时 的 性 能 。 

o 数据 重建 过 程 ( 即 ， 故 障 磁盘 上 的 数据 在 新 磁盘 上 重建 的 过 程 ) 中 的 性 能 。 

重建 故障 磁盘 上 数据 的 时 间 可 能 很 长 ， 并 且 时 间 随 着 使 用 的 RAID 级 别 不 同 而 不 同 。RAID 1 级 的 
数据 重建 是 最 简单 的 ， 因 为 数据 可 以 从 另 一 张 磁盘 中 拷贝 得 到 。 对 其 他 级 别 ， 我们 需要 访问 磁盘 阵列 
中 所 有 其 他 磁盘 来 重建 故障 磁盘 上 的 数据 。 如 果 需 要 提供 连续 的 可 用 数据 ， 如 高 性 能 数据 库 所 做 的 那 
样 ， 那 么 RAID 系统 的 重建 性 能 ( rebuild performance ) 将 是 一 个 重要 因素 。 此 外 ， 因 为 重建 时 间 占 了 大 
部 分 的 恢复 时 间 ， 所 以 重建 性 能 也 会 影响 平均 数据 丢失 时 间 。 

RAID 0 级 用 于 数据 安全 性 不 是 很 重要 的 高 性 能 应 用 。 因 为 RAD 2 级 和 RAID 4 级 被 RAID 3 级 和 
RAID 5 级 所 包含 ， 所 以 RAID 级 别 的 选择 只 限于 在 剩 下 的 级 别 中 进行 。 比 特级 拆 分 (RAID 3 级 ) 不 如 块 
级 拆 分 (RAID 5 级 ) ， 这 是 因为 块 级 拆 分 对 于 大 量 数据 的 传输 有 与 RAID 3 级 同样 好 的 数据 传输 率 ， 同 
时 对 于 小 量 数据 的 传输 使 用 更 少 的 磁盘 。 对 于 小 量 数据 传输 ， 磁 盘 访 问 时 间 占 主要 地 位 ， 所 以 并 行 读 
取 并 没有 带 来 好 处 。 事 实 上 ， 对 于 小 量 数据 传输 ，RAID 3 级 可 能 比 RAID 5 级 的 性 能 更 差 ， 这 是 由 于 
只 有 当 所 有 磁盘 上 的 相关 扇 区 都 读 出 后 传输 才 算 完成 , 因此 采用 RAID 3 级 的 磁盘 阵列 的 平均 延迟 变 得 
非常 接近 于 单 张 磁盘 在 最 坏 情 况 下 的 延迟 ， 从 而 抵消 了 其 较 高 传输 速率 的 长 处 。 当 前 ， 许 多 RAID 的 
实现 并 不 支持 RAID 6 级 ,但 是 RAID 6 级 提供 比 RAIDS 级 更 高 的 可 靠 性 ， 可 以 用 于 数据 安全 十 分 重要 
的 应 用 。 

{E RAID 1 级 和 RAID5 级 中 做 出 选择 十 分 困难 。 由 于 RAID 1 级 提供 最 好 的 写 操作 的 性 能 ， 因 此 在 
例如 数据 库 系统 日 志文 件 的 存储 这 样 的 应 用 中 使 用 广泛 。RAID 5 级 与 RAID 1 级 相 比 具有 和 较 低 的 存储 
负载 ， 但 写 操作 需要 更 高 的 时 间 开 销 。 对 于 经 常 进行 读 操作 而 很 少 进行 写 操作 的 应 用 ，RAID 5 级 是 
首选 。 

许多 年 以 来 ， 磁 盘 的 存储 容量 以 每 年 超过 50% 的 速度 增长 ， 每 字 节 的 价格 却 以 相同 的 速率 下 降 。 
因而 ， 对 许多 现存 的 具有 中 等 存储 要 求 的 数据 库 应 用 而 言 ， 磁 盘 镜像 所 需 的 额外 磁盘 存储 的 开销 相对 
变 小 了 (但 是 ， 对 于 像 视频 数据 存储 这 样 的 高 强度 存储 的 应 用 而 言 ， 额 外 磁盘 存储 的 开销 仍然 是 一 个 重 
要 问题 )。 存 取 速 度 的 增长 相对 缓慢 (大 约 每 10 年 翻 三 倍 ) ,但 是 每 秒 所 需 的 VO 操作 数 飞 速 增长 ， 特 
别 是 对 Web 应 用 服务 器 。 

RAID 5 级 增加 了 写 单 个 逻辑 块 所 需 的 VO 操作 数 ， 在 写 性 能 方面 付出 了 较 长 时 间 的 代价 。 因 而 ， 
RAID 1 级 成 为 许多 具有 中 等 存储 需求 和 高 VO 需求 的 应 用 的 RAID 级 别 选 择 。 

RAID 系统 的 设计 者 还 需要 做 出 一 些 其 他 决定 。 例 如 ， 一 个 阵列 中 应 该 有 多 少 磁 盘 ? 每 个 奇偶 校 验 
位 应 保护 几 位 数据 ? 如果 阵列 中 的 磁盘 越 多 ， 数 据 传 输 率 就 越 高 ， 但 是 系统 将 会 越 昂 贵 。 如 果 一 个 奇 
偶 校 验 位 保护 的 数据 位 越 多 ， 存 储 奇偶 校 验 位 的 空间 开销 就 会 越 小 ， 但 是 这 会 增加 在 第 一 张 发生 故 障 
的 磁盘 被 修复 前 第 二 张 磁盘 也 发 生 故 障 的 机 会 ， 从 而 导致 数据 丢失 
10. 3.5 硬件 问题 

选择 RAID 实现 要 考虑 的 另 一 个 因素 在 硬件 层 上 。RAID 可 以 在 不 改变 硬件 层 ， 只 修改 软件 的 基础 
上 实现 ， 这 样 的 RAID 称 为 软件 RAID( software RAID), 。 然 而 ， 建 立 支 持 RAID 的 专用 硬件 也 会 带 来 下 
面 所 介绍 的 很 大 的 好 处 。 具 有 专用 硬件 支持 的 系统 称 为 硬件 RAID( hardware RAID ) 系统 。 

硬件 RAID 实现 能 够 使 用 非 易 失 性 RAM 在 需要 执行 的 写 操作 执行 之 前 记录 它们 。 如 果 发 生 电源 故 
障 ， 在 系统 恢复 时 ， 它 可 以 从 非 易 失 性 RAM 中 获得 有 关 未 完成 的 写 操作 的 信息 ， 并 完成 它们 。 如 果 没 
有 这 种 硬件 支持 ， 就 需要 做 一 些 额外 的 工作 ， 检 测 在 电源 故障 前 只 有 部 分 写 人 的 块 (参看 实践 习题 
10.3) 。 

即使 所 有 的 写 操作 全 部 完成 ， 也 有 很 小 的 可 能 发 生 磁盘 中 的 某 个 扇 区 在 某 个 时 刻 不 可 读 ， 即 便 先 
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前 它 已 经 成 功 写 信 了。 个 别 扁 区 数据 流失 的 原因 可 能 是 多 种 多 样 的 ， 包 括 制造 缺陷 或 者 一 条 轨道 在 相 
邻 轨道 重复 写 人 时 发 生 数 据 损坏 。 这 样 丢 失 的 数据 是 先前 成 功 写 人 的 ， 有 时 称 为 潜在 故障 (latent 
failure ) 或 位 腐 ( bit rot) 。 当 发 生 这 样 的 故障 时 ， 如 果 发 现 得 早 ， 则 数据 可 以 通过 RAD 组 织 中 的 其 他 磁 
盘 进行 恢复 。 但 是 ， 如 果 该 故障 未 被 发 现 ， 并 且 在 其 他 磁盘 的 一 个 扇 区 存在 潜在 故障 时 ， 那 么 单个 磁 
盘 故 障 可 能 导致 数据 丢失 

为 了 尽量 减少 数据 丢失 的 可 能 ， 良 好 的 RAID 控制 器 会 进行 擦洗 (scrubbing) ， 也 就 是 说 ， 在 磁盘 
空闲 时 期 ， 对 每 张 磁盘 的 每 一 个 肩 区 进行 读 取 ， 如 果 发 现 某 个 肩 区 无 法 读 取 ， 则 数据 从 RAID 组 织 的 
其 余 磁盘 中 进行 恢复 ， 并 写 回 到 扇 区 中 。( 如 果 物 理 讲 区 损坏 ， 磁 盘 控制 器 将 逻辑 肩 区 地 址 重新 映射 到 

磁盘 上 其 他 的 物理 扇 区 地 址 。) 

一 些 硬件 RAID 实现 允许 热 交 换 (hot swapping) ， 就 是 在 不 切断 电源 的 情况 下 将 出 错 磁盘 用 新 的 磁 
盘 蔡 换 。 由 于 磁盘 的 替换 不 需要 等 待 系统 关闭 这 段 时 间 ， 因 此 热 交 换 减 少 了 平均 恢复 时 间 。 事 实 上 ， 
现在 的 许多 关键 系统 都 以 24 x7 的 时 间 表 运行 ， 即 : 一 天 运行 24 小 时 ， 一 周 运 行 7 天 。 因 而 没有 时 间 
关闭 系统 和 替换 故障 磁盘 。 进 一 步 而 言 ， 许 多 RAID 实现 给 每 一 个 磁盘 阵列 ( 或 一 个 磁盘 阵列 集 ) 分 配 
一 张 空闲 磁盘 。 当 系统 中 有 磁盘 发 生 了 故障 ， 空 闲 磁盘 会 立即 代替 故障 磁盘 工作 。 这 样 可 以 显著 降低 
平均 修复 时 间 ， 减 小 数据 丢失 的 机 会 。 可 以 从 容 地 替换 掉 故 障 磁盘 。 

在 RAID 系统 中 ， 电 源 、 磁 盘 控制 器 甚或 系统 互 连 都 可 能 成 为 使 RAID 系统 停止 工作 的 单个 故障 发 
生 点 。 为 了 避免 这 种 可 能 性 ， 好 的 RAD 实现 提供 多 个 备用 电源 (有 电池 备份 ， 可 以 使 RAID 在 电源 故 
障 后 仍 能 继续 工作 ) 。 这 样 的 RAID 系统 还 拥有 多 个 磁盘 接口 ， 和 RAID 系统 与 计算 机 系统 的 多 个 互 连 
(或 者 与 计算 机 系统 网 络 的 连接 ) 。 因 而 ， 任 何 单个 部 件 的 故障 不 会 使 RAID 系统 停止 工作 
10.3.6 其 他 的 RAID 应 用 

RAID 的 概念 已 经 推广 到 其 他 的 存储 设备 上 ， 包 括 磁带 阵列 和 无 线 系统 上 的 数据 广播 。 在 运用 于 磁 
带 阵列 时 ，RAID 可 以 在 磁带 阵列 中 的 一 盘 磁带 毁坏 后 恢复 磁带 上 的 数据 。 当 运用 于 数据 广播 时 ， 数 据 
块 分 成 小 单元 ， 连 同 奇偶 校 验 单元 一 起 传播 。 如 果 其 中 一 个 单元 由 于 某 种 原因 没有 接收 到 ， 它 可 以 从 
其 他 的 单元 中 重新 构造 出 来 。 


10.4 第 三 级 存储 


在 大 型 数据 库 系统 中 ， 一 些 数据 可 能 要 放置 在 第 三 级 存储 中 。 两 种 最 常用 的 第 三 级 存储 介质 是 光 
盘 和 磁带 。 
10.4.1 光盘 

在 发 布 软件 、 多 媒体 数据 (如 声音 和 图 像 ) 和 其 他 电子 出 版 物 方面 ， 光 盘 已 经 成 为 一 种 流行 的 介 
质 。 光 盘 具 有 640 ~700MB 的 存储 容量 。 此 外 ， 光 盘 的 大 批量 生产 十 分 便宜 。 在 一 些 需要 大 量 数据 的 
应 用 中 ,数字 视频 光盘 (DVD ) 正在 代替 光盘 。DVD-5 格式 的 光盘 可 以 存储 4. 7GB 的 数据 (在 一 个 记录 
层 ) mi DVD-9 格式 的 光盘 可 以 存储 8.5GB 的 数据 (在 两 个 记录 层 ) 。 在 光盘 的 两 面 都 存储 就 具有 更 大 
的 容量 ; 如 ， 作 为 DVD-5 格式 和 DVD-9 格式 的 双 面 存储 版 本 ，DVD-10 格式 和 DVD-18 格式 分 别 可 以 

存储 9.4GB 和 17GB 的 数据 ,蓝光 DVD 格式 具有 27 ~54GB 的 更 高 的 单 碟 存 储 容量 。 

由 于 CD 和 DVD 驱动 器 的 激光 头 组 件 更 重 ， 因 此 比 一 般 的 磁盘 驱动 器 需要 更 长 的 寻 道 时 间 ( 通 常 
是 100 毫秒 ) 。 虽 然 最 快 的 CD 和 DVD 驱动 器 转速 和 低档 的 磁盘 驱动 器 转速 接近 ， 大 约 是 每 分 钟 
3000 转 ， 但 是 仍 比 一 般 的 磁盘 驱动 器 转速 慢 。CD 驱动 器 的 旋转 速度 原来 是 和 音频 CD 的 标准 一 致 ， 
DVD 驱动 器 的 旋转 速度 原来 是 和 DVD 视频 标准 一 致 ， 但 是 ， 现 在 的 驱动 器 旋转 速度 比 标准 速度 高 很 
BAR o 

CD 和 DVD 的 数据 传输 率 比 磁盘 的 数据 传输 率 要 慢 一 些 。 目 前 的 CD 驱动 器 的 读 取 速 度 大 约 是 每 
秒 3 ~6MB， 而 DVD 是 每 秒 8 ~20MB。 与 磁盘 一 样 ， 光 盘 在 外 侧 轨道 存储 的 数据 比 内 侧 轨道 要 多 。 光 
盘 的 数据 传输 率 用 n x 表示 ， 意 思 是 驱动 器 支持 的 传输 速率 是 标准 速率 的 n 倍 ， 现 在 常用 的 CD 是 50 
倍速 ，DVD 是 16 倍速 。 
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因为 可 记录 一 次 的 光盘 (CD-R、DVD-R 和 DVD +R) 容 量 大 ， 比 磁盘 有 更 长 的 寿命 ， 而 且 可 以 在 远 
程 存储 和 移 除 ， 所 以 适合 于 数据 分 发 ， 尤 其 适合 于 数据 的 归档 存储 。 因 为 它们 不 能 重 写 ， 所 以 它们 可 
用 于 存储 不 应 更 改 的 信息 ， 比 如 审计 追踪 信息 。 可 多 次 重 写 的 版 本 ( 像 CD-RW、DVD-RW、DVD + RW 
#1 DVD-RAM ) 也 可 用 于 数据 归档 。 

自动 光盘 机 (jukebox ) 是 存储 大 量 的 光盘 (可 以 达到 几 百 张 ) 的 设备 ， 它 可 以 按照 需求 自动 将 光盘 装 
载 到 少量 驱动 器 (通常 是 1 ~ 10 个 驱动 器 ) 中 的 一 个 上 。 这 样 一 个 系统 的 总 计 存 储 总 量 可 以 是 若干 个 
TB。 当 光盘 被 访问 时 ， 机 械 手 把 它 从 架子 移 到 驱动 器 上 (在 驱动 器 中 的 光盘 首先 要 放 回 到 架子 上 ) 。 光 
盘 的 装载 和 和 印 载 时 间 通 常 是 几 秒 的 数量 级 ， 这 比 光盘 的 访问 时 间 要 长 得 多 。 

10.4.2 磁带 

尽管 相对 而 言 磁带 的 保存 时 间 更 长 久 些 ， 并 且 能 够 存储 大 量 的 数据 ， 但 是 它 与 磁盘 和 光盘 相 比 速 
度 较 慢 。 更 重要 的 是 ， 磁 带 只 能 进行 顺序 存 取 。 因 此 磁带 不 能 提供 辅助 存储 所 需 的 随机 访问 ， 虽 然 在 
历史 上 ， 磁 带 是 先 于 磁盘 被 作为 辅助 存储 介质 使 用 的 。 

磁带 主要 用 于 备份 ， 存 储 不 经 常 使 用 的 数据 ， 以 及 作为 将 数据 从 一 个 系统 转 到 另 一 个 系统 的 脱 机 
介质 。 磁 带 还 应 用 于 存储 大 量 数据 ， 例 如 视频 和 图 像 数 据 ， 它 们 不 需要 迅速 地 访问 ， 或 者 因为 数据 量 
太 大 以 至 于 磁盘 存储 太 昂贵 。 

磁带 绕 在 一 条 轴 上 ， 通 过 卷 绕 或 反 卷 来 经 过 读 写 头 。 移动 到 磁带 上 正确 的 位 置 可 能 需要 几 秒 钟 甚 
至 几 分 钟 ， 而 不 是 几 毫 秒 。 然 而 一 旦 定位 完成 ， 磁 带 设 备 能 够 以 接近 磁盘 设备 的 密度 和 速度 来 写 数据 。 
磁带 的 容量 取决 于 磁带 的 长 度 、 宽 度 和 读 写 头 所 能 读 写 的 密度 。 当 前 市 场 上 的 磁带 格式 千差万别 。 当 
前 磁带 的 容量 也 相差 其 远 ， 有 几 个 GB 的 数字 音频 磁带 ( Digital Audio Tape，DAT) 格 式 ，10 ~ 40GB 的 数 
字 线 性 磁带 (Digital Linear Tape，DLT) 格式 ，100GB 或 者 更 高 的 Ultrium 格式 ， 以 及 330GB 的 Ampex 
螺旋 扫描 ( Ampex helical scan) 磁带 格 式 。 数 据 传输 率 在 每 秒 几 到 几 十 MB 的 数量 级 。 

磁带 设备 是 相当 可 靠 的 ， 好 的 磁带 驱动 系统 对 刚 写 的 数据 执行 一 次 读 操作 以 确保 数据 正确 记录 。 
但 是 磁带 能 可 靠 地 读 写 的 次 数 是 有 限 的 。 

自动 磁带 机 (tape jukebox) ， 像 自动 光盘 机 一 样 ， 存 放大 量 的 磁带 ， 并 有 少量 可 用 于 安装 磁带 的 驱 
动 器 。 它 用 于 存储 大 量 数 据 ， 存 储 范围 最 大 可 达 若 干 -PB(10 字 节 ) ， 而 存 取 时 间 在 几 秒 到 几 分钟 的 数 
量 级 。 需 要 如 此 巨大 的 数据 存储 的 应 用 包括 通过 遥感 卫星 搜集 数据 的 影像 系统 和 用 于 电视 广播 的 大 型 
视频 库 。 

一 些 磁带 格式 (如 Accelis 格式 ) 支 持 更 快 的 寻 道 时 间 ( 是 几 十 秒 的 数量 级 )， 是 为 那些 从 自动 磁带 
机 获取 数据 的 应 用 设计 的 。 许 多 其 他 的 磁带 格式 提供 更 大 的 容量 ,但 是 以 更 慢 的 存 取 速度 为 代价 ， 这 
样 的 格式 对 于 不 需要 快速 访问 的 数据 备份 是 很 理想 的 。 

磁带 驱动 器 已 经 无 法 跟 上 磁盘 驱动 器 容量 的 巨大 增长 和 对 应 的 存储 代价 的 降低 。 尽 管 磁带 的 成 
本 很 低 ， 但 磁带 驱动 器 和 磁带 库 的 成 本 明显 高 于 一 张 磁盘 的 成 本 : 一 个 能 存储 几 TB 数据 的 磁带 库 可 
能 价值 几 万 美元 。 对 于 大 量 应 用 而 言 ， 较 之 磁带 备份 ， 备 份 数据 到 磁盘 驱动 器 已 经 成 为 一 种 划算 的 
选择 。 

10.5 文件 组 织 


一 个 数据 库 被 映射 到 多 个 不 同 的 文件 ， 这 些 文件 由 底层 的 操作 系统 来 维护 。 这 些 文件 永久 地 存在 
于 磁盘 上 。 一 个 文件 (fle) 在 逻辑 上 组 织 成 为 记录 的 一 个 序列 。 这 些 记 录 映 射 到 磁盘 块 上 。 因 为 文件 由 
操作 系统 作为 一 种 基本 结构 提供 ， 所 以 我 们 将 假定 作为 基础 的 文件 系统 是 存在 的 。 我 们 需要 考虑 用 文 
件 表示 逻辑 数据 模型 的 不 同方 式 。 

每 个 文件 分 成 定 长 的 存储 单元 ， 称 为 块 (block)。 块 是 存储 分 配 和 数据 传输 的 基本 单元 。 大 多 数 数 
据 库 默认 使 用 4 ~8KB 的 块 大 小 ， 但 是 当 创建 数据 库 实 例 时 ， 许 多 数据 库 允 许 指定 块 大 小 。 更 大 的 块 
在 一 些 数据 库 应 用 中 是 很 有 用 的 : 


450 | 
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一 个 块 可 能 包括 很 多 条 记录 。 一 个 块 所 包含 的 确切 的 记录 集合 是 由 使 用 的 物理 数据 组 织 形式 所 
[451] 决定 的 。 我 们 假定 没有 记录 比 块 更 大 。 这 个 假定 对 多 数 数据 处 理应 用 都 是 现实 的 ， 例 如 我 们 所 举 的 

大 学 例子 。 当 然 ， 数 据 库 中 会 有 几 种 大 数据 项 ， 例 如 图 片 ， 可 能 比 一 个 块 要 大 很 多 。10. 5. 2 节 会 4 
要 地 讨论 如 何 通过 单独 地 存储 大 数据 项 ， 并 且 存 储 指 向 记录 中 大 数据 项 的 指针 来 处 理 类 似 的 大 数 
据 项 。 

此 外 ， 我 们 需要 要 求 每 条 记录 包含 在 单个 块 中 ， 换 句 话 说， 没有 记录 是 部 分 包含 在 一 个 块 中 ， 部 
分 包含 在 另 一 个 块 中 。 这 个 限制 简化 并 加 速 数据 项 访问 。 

在 关系 数据 库 中 ， 不 同 关系 的 元 组 通常 具有 不 同 的 大 小 。 把 数据 库 映射 到 文件 的 一 种 方法 是 使 用 
多 个 文件 ， 在 任意 一 个 文件 中 只 存储 一 个 固定 长 度 的 记录 。 另 一 种 选择 是 构造 自己 的 文件 ， 使 之 能 够 容 
纳 多 种 长 度 的 记录 。 然 而 ， 定 长 记录 文件 比 变 长 记录 文件 更 容易 实现 。 很 多 用 于 定 长 记录 文件 的 技术 可 
以 应 用 到 变 长 的 情况 。 因 此 ， 我 们 首先 考虑 定 长 记录 文件 ， 并 且 随 后 考虑 变 长 记录 存储 。 


10.5.1 定 长 记录 


例如 ， 让 我 们 考虑 由 大 学 数据 库 中 的 instructor 记录 组 成 的 一 个 文件 。 文 件 中 的 每 个 记录 定义 (使 用 
伪 人 代码) 如下: 


type instructor = record 
ID varchar(5); 
name varchar( 20 ) ; 
dept_name varchar( 20); 
salary numeric(8, 2) ; 
end 


假设 每 个 字符 占 1 个 字 节 ，numeric(8，2) 占 8 个 ”记录 0 
字 节 。 假 设 我 们 为 每 个 属性 ID, name 和 dept_name 分 WRI 
配 可 以 容纳 的 最 大 字 节 数 ， 而 不 是 分 配 可 变 的 字 节 记录 2 oer tee 
数 。 于 是 instuctor 记录 占 53 个 字 节 。 一 个 简单 的 方法 ”记录 4 | 32343 | ElSaid | Histor 
是 使 用 前 53 个 字 节 来 存储 第 一 条 记录 ， 接 下 来 的 53 WRS | 33456 | Gold | Physics | 87000 | 
个 字 节 存储 第 二 条 记录 ， 以 此 类 推 ( 如 图 10-4 所 示 ) 。 记录 6 [S5 | Ka | Comp. Sei [75000 _| 
然而 这 种 简单 的 方法 有 两 个 问题 : 记录 8 ee E 
。 除非 块 的 大 小 恰好 是 53 的 倍数 ( 一般 是 不 太 e 
可 能 的 ) ， 否 则 一 些 记录 会 跨 过 块 的 边界 , 即 
一 条 记录 的 一 部 分 存储 在 一 个 块 中 ， 而 另 一 se an | 
部 分 存储 在 另 一 个 块 中 。 于 是 ， 读 写 这 样 一 图 10-4 包含 account 记录 的 文件 
条 记录 需要 两 次 块 访问 。 

。 从 这 个 结构 中 删除 一 条 记录 十 分 困难 。 删 除 的 记录 所 占据 的 空间 必须 由 文件 中 的 其 他 记录 来 填 
充 ， 或 者 我 们 必须 用 一 种 方法 标记 删除 的 记录 使 得 它 可 以 被 忽略 。 








为 了 避免 第 一 个 问题 ， 我 们 在 一 个 块 中 只 分 配 Gas aaa 
它 能 完整 容纳 下 的 最 大 的 记录 数 (这 个 数字 可 以 很 WR [1221 | Wu | Einance | 90000 
容易 通过 块 大 小 除 以 记录 大 小 计算 出 来 ， 并 废弃 小 i ae ee e 


数 部 分 ) 。 每 个 块 中 余下 的 字 节 就 不 使 用 了 。 

当 一 条 记录 被 删除 时 ， 我 们 可 以 把 紧 跟 其 后 的 
记录 移动 到 被 删 记录 先前 占据 的 空间 ， 依 次 类 推 ， 
直到 被 删 记 录 后 面 的 每 一 条 记录 都 向 前 做 了 移动 
( 见 图 10-5)。 这 种 方法 需要 移动 大 量 的 记录 。 简 单 
地 将 文件 的 最 后 一 条 记录 移 到 被 删 记录 所 占据 空间 
中 可 能 更 容易 一 些 ( 如 图 10-6 所 示 )。 图 10-5 图 10-4 中 的 文件 : 删除 了 记录 3 

移动 记录 以 占据 被 删 记录 所 释放 空间 的 做 法 并 并 且 移动 所 有 记录 
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不 理想 ， 因 为 这 样 做 需要 额外 的 块 访问 操作 。 由 于 插入 操作 通常 比 删 除 操作 更 频繁 ， 因 此 让 已 被 删 记 [452 
录 占 据 的 空间 空 着 ， 一 直 等 到 随后 进行 的 插入 操作 重 。 记录 0 453, 


用 这 个 空间 ， 这 样 做 是 可 以 接受 的 。 仅 在 被 删 记录 上 记录! [z 
rs 5 | 15151 | Mozart | | Music | 

做 一 个 标记 是 不 够 的 ， 因为 当 插 入 操作 执行 时 ， 找到 记录 11 | 98345 Elec. Eng. 

这 个 可 用 空间 十 分 困难 。 因 此 我 们 需要 引入 额外 的 。 记录 4 EI Said 


结构 。 
记录 6 
在 文件 的 开始 处 ， 我 们 分 配 一 定数 量 的 字 节 作为 。 记录 8 80000 
文件 头 (file header) 。 文 件 头 将 包含 有 关 文件 的 各 种 WRI 
信息 。 到 目前 为 止 ， 我 们 需要 在 文件 头 中 存储 的 只 有 EO e 
内 容 被 删除 的 第 一 个 记录 的 地 址 。 我 们 用 这 第 一 个 记 10-6 图 10-5 中 的 文件 ， 删 除了 记录 3 
录 来 存储 第 二 个 可 用 记录 的 地 址 ， 依 次 类 推 。 我 们 可 并 且 移动 最 后 一 条 记录 
以 直观 地 把 这 些 存储 的 地 址 看 作 指针 ， 因 为 它们 指向 
一 个 记录 的 位 置 。 于 是 ， 被 删除 的 记录 形成 了 一 条 链表 ， 经 常 称 为 空闲 列表 (free list) 。 图 10-7 给 出 的 
是 图 10-4 中 的 文件 在 删除 第 1、4 和 6 条 记录 后 的 情况 。 
在 插入 一 条 新 记录 时 ， 我 们 使 用 文件 头头 文件 
所 指向 的 记录 ， 并 改变 文件 头 的 指针 以 指向 “记录 0 
下 一 个 可 用 记录 。 如 果 没 有 可 用 的 空间 , 我 。 记录 ! | | 
们 就 把 这 条 新 记录 添加 到 文件 未 尾 。 ba 
对 定 长 记录 文件 的 插入 和 删除 是 容易 实 。 ”记录 4 
现 的 ， 因 为 被 删除 记录 留 出 的 可 用 空间 恰好 记录 5 
是 插入 记录 所 需要 的 空间 。 如 果 我 们 允许 文 ”记录 6 

















EE 


15151 eae Music 
22222 Physics 
33456 | Gold Physics 


记录 7 | 58583 lifieri oe : 
件 中 包含 不 同 长 度 的 记录 ， 这 样 的 匹配 将 不 Sa, 
再 成 立 。 插 和 的 记录 可 能 无 法 放 入 一 条 被 删 R 
除 记录 所 释放 的 空间 中 ,或 者 只 能 占用 这 个 记录 10 | 83821 | = Comp. Sci. 
空间 的 一 部 分 。 记录 11 ay Elec. Eng. 
10.5.2 ” 变 长 记录 图 10-7 删除 了 第 1、4 和 6 条 记录 的 图 10-4 中 的 文件 


变 长 记录 以 下 面 几 种 方式 出 现在 数据 库 系统 中 : 
。 多 种 记录 类 型 在 一 个 文件 中 存储 。 
© 人 允许 一 个 或 多 个 字段 是 变 长 的 记录 类 型 。 
。 允许 可 重复 字段 的 记录 类 型 ， 例 如 数组 或 多 重 集合 。 
实现 变 长 记录 存在 不 同 的 技术 ,任何 这 样 的 技术 都 必须 解决 两 个 不 同 的 问题 : 
© 如 何 描 述 一 条 记录 ， 使 得 单个 属性 可 以 轻松 地 抽取 。 
© 在 块 中 如 何 存储 变 长 记录 ， 使 得 块 中 的 记录 可 以 轻松 地 抽取 。 
一 条 有 变 长 度 属性 的 记录 表示 通常 具有 两 个 部 分 : 初始 部 分 是 定 长 属性 ， 接 下 来 是 变 长 属性 。 对 
于 定 长 属性 ， 如 数字 值 、 日 期 或 定 长 字符 串 ， 分 配 存储 它们 的 值 所 需 的 字 节 数 。 对 于 变 长 属性 ， 如 
varchar 类 型 ， 在 记录 的 初始 部 分 中 表示 为 一 个 对 ( 偏 移 量 ， 长 度 ) 值 ， 其 中 偏 移 量 表示 在 记录 中 该 属性 
的 数据 开始 的 位 置 ， 长 度 表示 变 长 属性 的 字 节 长 度 。 在 记录 的 初始 定 长 部 分 之 后 ， 这 些 属 性 的 值 是 连 
续 存 储 的 。 因 此 ， 无 论 是 定 长 还 是 变 长 ， 记 录 初 始 部 分 存储 有 关 每 个 属性 的 固定 长 度 的 信息 。 
图 10-8 描述 这 样 一 个 记录 表示 的 例子 。 该 图 显示 了 一 个 instuctor 记录 ， 它 的 前 三 个 属性 JD、name 
和 dept _ name 是 变 长 字符 串 ， 其 第 4 个 属性 salary 是 一 个 大 小 固定 的 数值 。 我 们 假设 偏 移 量 和 长 度 值 存 
储 在 两 个 字 节 中 ， 即 每 个 属性 占 4 个 字 节 。salary 属性 假设 用 8 个 字 节 存储 ， 并 且 每 个 字符 串 占用 和 其 |454 | 
拥有 字符 数 一 样 多 的 字 节 数 。 ki 
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m 位 图 ( 存 于 1 个 字 节 中 ) 


% 





21,5 | 26, 10} 36, 10 | 65000 j E | Srinivasan Comp. Sci. 
字 节 0 4 8 12 W2 26 36 5 


图 10-8 变 长 记录 的 表示 


这 个 图 也 说 明了 空位 图 ( null bitmap) 的 使 用 ， 它 用 来 表示 记录 的 哪个 属性 是 空 值 。 在 这 个 特定 的 
WRP, WR salary 是 空 值 ， 该 位 图 的 第 4 位 将 置 1， 存 储 在 12 ~ 19 字 节 的 salary 值 将 被 忽略 。 由 于 记 
录 有 4 个 属性 ， 尽 管 更 多 属性 需要 更 多 字 节 ， 但 该 记录 的 空位 图 只 占用 1 个 字 节 。 在 一 些 表 示 中 ， 空 
位 图 存储 在 记录 的 开头 ， 并 且 对 于 空 属性 不 存储 数据 ( 值 或 偏 移 量 /长 度 ) 。 这 种 表示 以 抽取 记录 属性 
的 额外 工作 为 代价 来 节省 存储 空间 。 对 于 记录 拥有 大 量 字段 ， 并 且 大 多 数 都 是 空 的 特定 应 用 ， 这 样 的 
表示 特别 有 用 。 











块头 记录 




















空闲 空间 的 尾部 
图 10-9 分 槽 的 页 结构 


我 们 接 下 来 处 理 在 块 中 存储 变 长 记录 的 问题 ， 分 横 的 页 结构 (slotted-page structure) 一 般 用 于 在 块 中 
组 织 记录 ， 如 图 10-9 “所 示 。 每 个 块 的 开始 处 有 一 个 块头 ， 其 中 包含 以 下 信息 : 

1. 块头 中 记录 条 目的 个 数 。 

2. 块 中 空闲 空间 的 末尾 处 。 

3. 一 个 由 包含 记录 位 置 和 大 小 的 记录 条 目 组 成 的 数组 。 

实际 记录 从 块 的 尾部 开始 连续 排列 。 块 中 空闲 空间 是 连续 的 ， 在 块头 数组 的 最 后 一 个 条 目 和 第 一 
条 记录 之 间 。 如 果 插 入 一 条 记录 ， 在 空闲 空间 的 尾部 给 这 条 记录 分 配 空间 ， 并 且 将 包含 这 条 记录 大 小 
和 位 置 的 条 目 添 加 到 块头 中 。 

如 果 一 条 记录 被 删除 ， 它 所 占用 的 空间 被 释放 ， 并 且 它 的 条 目 被 设置 成 被 删除 状态 ( 例如 这 条 记录 
的 大 小 被 设置 为 -1)。 此 外 ， 块 中 在 被 删除 记录 之 前 的 记录 将 被 移动 ， 使 得 由 删除 而 产生 的 空闲 空间 
被 重用 ， 并 且 所 有 空闲 空间 仍然 存在 于 块头 数组 的 最 后 一 个 条 目 和 第 一 条 记录 之 间 。 块 头 中 的 空闲 空 
间 末 尾 指针 也 要 做 适当 修改 。 只 要 块 中 有 空间 ， 使 用 类 似 的 技术 可 以 使 记录 增长 或 缩短 。 移 动 记 录 的 
代价 并 不 高 ， 因 为 块 的 大 小 是 有 限制 的 : 典型 的 值 为 4 ~8KB。 

分 槽 的 页 结构 要 求 没有 指针 直接 指向 记录 。 取 而 代 之 ， 指 针 必 须 指 向 块头 中 记 有 记录 实际 位 置 的 
条 目 。 在 支持 指向 记录 的 间接 指针 的 同时 ， 这 种 间接 层次 允许 移动 记录 以 防止 在 块 的 内 部 出 现 碎片 
空间 。 

数据 库 常 常 要 存储 比 磁盘 块 大 得 多 的 数据 ， 例 如 ， 一 张 图 片 或 一 个 音频 记录 的 大 小 可 能 是 几 MB, 
而 一 个 视频 文件 可 能 达到 几 个 GB。 回 忆 一 下 我 们 以 前 讲 过 SQL 支持 blob 和 clob 类 型 ， 它 们 存储 二 进 
制 大 对 象 和 字符 大 对 象 。 

大 多 数 关 系数 据 库 限 制 记 录 不 大 于 一 个 块 的 大 小 以 简化 缓冲 区 管理 和 空闲 空间 管理 。 大 对 象 常常 
存储 到 一 个 特殊 文件 (或 文件 的 集合 ) 中 而 不 是 与 记录 的 其 他 ( 短 ) 属 性 存储 在 一 起 。 然 后 一 个 指向 该 对 
象 的 (逻辑 ) 指针 存储 到 包含 该 大 对 象 的 记录 中 。 大 对 象 常常 表示 我 们 在 11. 4. 1 节 要 学 习 的 B fh 
组 织 。B ` 树 文件 组 织 允 许 我 们 读 取 一 个 完整 的 对 象 ， 或 对 象 中 指定 的 字 节 范围 ， 以 及 插入 和 删除 对 象 
的 部 分 。 
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10.6 文件 中 记录 的 组 织 


迄今 为 止 ， 我 们 研究 了 如 何在 一 个 文件 结构 中 表示 记录 。 关 系 是 记录 的 集合 。 给 定 一 个 记录 的 集 
合 之 后 ， 下 一 个 问题 就 是 如 何在 文件 中 组 织 它们 。 下 面 是 在 文件 中 组 织 记录 的 几 种 可 能 的 方法 : 
© 堆 文 件 组 织 ( heap file organization) 。 一 条 记录 可 以 放 在 文件 中 的 任何 地 方 ， 只 要 那个 地 方 有 空 
间 存 放 这 条 记录 。 记 录 是 没有 顺序 的 。 通 常 每 个 关系 使 用 一 个 单独 的 文件 。 
© 顺序 文件 组 织 ( sequential file organization) 。 记 录 根 据 其 “搜索 码 " 的 值 顺序 存储 。10. 6. 1 节 描 述 
了 这 种 组 织 方式 。 
© 散 列 文件 组 织 (hashing file organization ) 。 在 每 条 记录 的 某 些 属性 上 计算 一 个 散 列 函 数 。 散 列 函 
数 的 结果 确定 了 记录 应 放 到 文件 的 哪个 块 中 。 第 11 章 描述 这 种 组 织 方式 。 它 与 那 一 章 所 描述 [456 | 
的 索引 结构 密切 相关 。 | | 
WE, FARRER TAIE. (EE S RR EM HAA ( multitable clustering file 
organization) 中 ， 几 个 不 同 关系 的 记录 存储 在 同一 个 文件 中 。 而 且 ， 不 同 关系 的 相关 记录 存储 在 相同 的 
块 中 ， 于 是 一 个 VO 操作 可 以 从 所 有 关系 中 取 到 相关 的 记录 。 例如， 两 个 关系 做 连接 运算 时 相 匹 配 的 
记录 被 认为 是 相关 的 。10. 6. 2 节 描 述 这 种 组 织 方式 。 
10.6.1 顺序 文件 组 织 
顺序 文件 ( sequential file) 是 为 了 高 效 处 理 按 某 个 搜索 码 的 顺序 排序 的 记录 而 设计 的 。 搜 索 码 
(search key) 是 任何 一 个 属性 或 者 属性 的 集合 。 它 没有 必要 是 主 码 ， 甚 至 也 无 须 是 超 码 。 为 了 快速 地 按 
搜索 码 的 顺序 获取 记录 ， 我 们 通过 指针 把 记录 链接 
起 来 。 每 条 记录 的 指针 指向 按 搜索 码 顺序 排列 的 下 
一 条 记录 。 此 外 ， 为 了 减少 顺序 文件 处 理 中 的 块 访 
问 数 ， 我 们 在 物理 上 按 搜索 码 顺序 或 者 尽 可 能 地 接 
近 按 搜索 码 顺序 存储 记录 。 
图 10-10 表示 了 在 大 学 例子 中 由 instructor 记录 
组 成 的 顺序 文件 。 在 该 例子 中 ， 记 录 按 搜索 码 顺序 
存储 ， 这 里 使 用 ID 作为 搜索 码 。 
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[32343 _|EISaid | History | 60000 | = 
[33456 [Gold | Physis | 87000 | -< 
[45565 [Katz | Comp. Sei | 75000 | 
58563 |Catiier [History | 62000 | 一 
[76543 |Singh | Finance | s0000 | + 
[76766 _|Crick | Biology | 72000 | 二- 







| 83821 | Brandt | | Comp. Sci. | mp. Sci. | 92000 | 
顺序 文件 组 织 形式 允许 记录 按 排序 的 顺序 读 取 ， 上 有 3 RE a | 一 








这 对 于 显示 以 及 第 12 章 将 研究 的 特定 查询 处 理 算法 l 
非常 有 用 。 图 10-10 instructor 记录 组 成 的 顺序 文件 
然而 ， 在 插入 和 删除 记录 时 维护 记录 的 物理 顺 
序 是 十 分 困难 的 ， 因 为 一 次 单独 的 插入 或 删除 操作 导致 移动 很 多 记录 是 代价 很 高 的 。 我 们 可 以 按照 前 [458] 
面 看 到 的 那样 ， 使 用 指针 链表 来 管理 删除 。 对 插入 操作 ， 应 用 如 下 规则 : 
1. 在 文件 中 定位 按 搜索 码 顺序 处 于 待 插入 A 
记录 之 前 的 那 条 记录 。 | 12121 | Wu | Finane | 90000 | +5 
2. 如 果 这 条 记录 所 在 块 中 有 一 条 空闲 记录 |_15151_| Mozart | Music | 40000 | -] 


22222 | Ei i Physi 95000 
( 即 删 除 后 留 下 来 的 空间 ) ， 就 在 这 里 插入 新 的 = 


记录 。 否 则 ， 将 新 记录 插入 到 一 个 溢出 块 中 。 





不 管 哪 种 情况 ， 都 要 调整 指针 ， 使 其 能 按 搜索 
码 顺序 把 记录 链接 在 一 起 。 > 





图 10-11 表示 图 10-10 所 示 文 件 在 插入 记录 | 76766 Biology 72000 , 
(32222, Verdi, Music, 48000) 之 后 的 情况 。 图 |_83821 
10-11 中 的 结构 允许 快速 插入 新 的 记录 ,但 是 迫 ” LSS | Kim Hop Te Sh a + 
使 顺序 处 理 文件 的 应 用 程序 不 得 不 按 与 记录 的 P 
物理 顺序 不 一 样 的 顺序 来 处 理 记录 。 NERA See Me a 


如 果 需 要 存储 在 溢出 块 中 的 记录 相当 少 ， 图 10-11 执行 插入 后 的 顺序 文件 
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这 种 方法 会 工作 得 很 好 。 然 而 ， 搜 索 码 顺序 和 物理 顺序 之 间 的 一 致 性 可 能 会 完全 丧失 ， 在 这 种 情况 下 ， 
顺序 处 理 将 变 得 效率 十 分 低下 。 此 时 ,文件 应 该 重组 ( reorganized) ， 使 得 它 再 一 次 在 物理 上 顺序 存放 
这 种 重组 的 代价 是 很 高 的 ， 并 且 必 须 在 系统 负载 很 低 的 时 候 执行 。 需 要 重组 的 频率 依赖 于 新 记录 捅 人 
的 频率 。 在 插入 很 少 发 生 的 极端 情况 下 ， 使 文件 在 物理 上 总 保持 排序 的 顺序 是 可 能 的 ， 在 这 种 情况 下 ， 
图 10-10 中 的 指针 域 是 不 需要 的 。 
10.6.2 多 表 聚 簇 文件 组 织 

很 多 关系 数据 库 系统 将 每 个 关系 存储 在 单独 的 文件 中 ， 以 便 它们 可 以 利用 操作 系统 所 提供 的 文件 
系统 的 所 有 好 处 。 通 常 ， 关 系 的 元 组 可 以 表示 成 定 长 记录 。 因 此 ， 关系 可 以 映射 到 一 个 简单 的 文件 结 
构 上 。 关 系数 据 库 系 统 的 这 种 简单 实现 非常 适合 于 廉价 的 数据 库 实现 ,例如 ， 骨 入 式 系 统 和 便携 式 设 
备 中 的 数据 库 实现 。 在 这 种 系统 中 ， 数据库 的 规模 很 小 ， 因 此 复杂 的 文件 结构 不 会 带 来 什么 好 人 处。 而 
且 ， 在 这 样 的 环境 中 ， 必 须 使 数据 库 系 统 目 标 代码 总 量 非常 小 。 简 单 的 文件 结构 可 以 减少 实现 这 个 系 
统 的 代码 量 。 

这 种 简单 的 关系 数据 库 实现 在 数据 库 的 规模 增 大 时 就 不 令 人 满意 了 。 我 们 已 经 看 到 ,仔细 地 设计 
记录 在 块 中 的 分 配 和 块 自身 的 组 织 方式 可 以 获得 性 能 上 的 好 处 。 显 而 易 见 ， 一 个 更 复杂 的 文件 结构 将 
更 有 效 ， 即 使 我 们 保留 在 一 个 独立 的 文件 中 存储 一 个 关系 的 策略 。 

然而 ， 很 多 大 型 数据 库 系 统 在 文件 管理 方面 并 不 直接 依赖 于 下 层 的 操作 系统 ， 而 是 让 操作 系统 分 
配给 数据 库 系统 一 个 大 的 操作 系统 文件 。 数 据 库 系统 把 所 有 关系 存储 在 这 个 文件 中 ， 并且 自 己 管理 这 
个 文件 。 

即使 一 个 文件 中 有 多 个 关系 ， 默 认 情 况 下 ， 多 数 数据 库 在 一 个 给 定 块 中 只 存储 一 个 关系 的 记录 。 
这 简化 了 数据 管理 。 但 是 ,在 某 些 情况 下 ， 在 一 个 块 中 存储 多 个 关系 的 记录 会 很 有 用 。 为 了 理解 在 一 
个 块 中 存储 多 个 关系 的 记录 的 的 好 处 ， 我 们 考虑 对 大 学 数据 库 的 如 下 SQL 查询 : 

. select dept_name, building, budget, ID, name, salary 
from department natural join instructor 
这 个 查询 计算 department 关系 和 instructor 关系 的 连接 。 因 此 ， 对 department 的 每 个 元 组 ， 系 统 必 须 找 到 
具有 相同 dept_name 的 instructor 元 组 。 理 想 情 况 下 ， 这 些 记 录 通 过 索引 的 帮助 来 定位 ， 这 将 在 第 11 章 
讨论 。 然 而 ,不管 这 些 记录 如 何 定位 ， 它 们 都 需要 从 磁盘 上 传输 到 主 存储 器 中 。 在 最 坏 的 情况 下 ， 每 
个 记录 将 处 于 不 同 的 块 中 ， 迫 使 我 们 为 查询 所 需 的 每 条 记录 执行 一 次 读 块 操作 。 

作为 一 个 具体 的 例子 ， 考 虑 分 别 在 图 10-12 和 图 10-13 中 的 department 和 instructor 关系 (简化 起 见 ， 
我 们 只 包括 了 前 面 所 用 到 的 关系 中 元 组 的 一 个 子 集 ) 。 在 图 10-14 中 ， 我 们 给 出 了 一 个 为 高 效 执行 涉及 
department 自然 连接 instructor 的 查询 而 设计 的 文件 结构 。 每 个 系 的 instructor 元 组 存储 在 具有 相应 dept_ 
name 的 department 元 组 附近 。 这 种 结构 将 两 个 关系 的 元 组 混合 在 一 起 ， 而 允许 对 连接 的 高 效 处 理 。 当 
读 取 department 关系 的 一 个 元 组 时 ， 包 含 这 个 元 组 的 整个 块 从 磁盘 拷贝 到 主 存储 器 中 。 因 为 相应 的 
instructor 元 组 存储 在 靠近 department 元 组 的 磁盘 上 ， 所 以 包含 department 元 组 的 块 包含 处 理 查询 所 需 的 
instructor 关系 的 元 组 。 如 果 一 个 系 有 太 多 的 教师 ， 以 至 于 instructor 记录 不 能 存储 在 一 个 块 中 ， 则 其 余 
的 记录 出 现在 临近 的 块 中 。 





ID name deptname | salary 
10101 | Srinivasan | Comp. Sci. | 65000 























pean bigs 33456 | Gold Physics “| 87000 | 
Comp. Sci. | Taylor | 100000 45565 | Katz | Comp. Sci. | 75000 | 
Physics Watson 70000 83821 | Brandt | Comp. Sci. | 92000 | 
图 10-12 department 关系 图 10-13 instructor 关系 


&RRE NM AA (multitable clustering file organization ) 是 一 种 在 每 一 块 中 存储 两 个 或 者 更 多 个 关系 
的 相关 记录 的 文件 结构 ， 如 图 10-14 所 示 。 这 样 的 文件 组 织 允 许 我 们 使 用 一 次 块 的 读 操作 来 读 取 满足 
连接 条 件 的 记录 。 因 此 ， 我 们 可 以 更 高 效 地 处 理 这 种 特殊 的 查询 。 

在 图 10-14 所 示 的 例子 中 , 来 自 instructor 记录 的 dept_name 属性 被 省 略 掉 ， 这 是 因为 它 可 以 从 相关 
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department 记录 中 推断 出 来 ， 该 属性 可 能 会 在 一 些 实现 中 保留 ， 以 简化 属性 的 访问 。 我 们 假定 每 条 记录 
包含 它 所 属 关系 的 标识 符 ， 尽 管 这 没有 在 图 10-14 中 表示 出 来 。 

我 们 对 将 多 个 表 聚 集 到 一 个 文件 中 的 使 用 加 速 了 对 特定 连接 ( departiment 和 instructor 的 连接 ) 的 处 
H, 但 是 它 导致 其 他 类 型 查询 的 处 理 变 慢 。 例 如 : 


select ` 
from department 


与 在 单一 文件 中 存储 单一 关系 的 策略 相 比 ， 这 个 查询 需要 访问 更 多 的 块 ， 因 为 每 个 块 现在 明显 包含 更 
少 的 department 记录 。 为 了 在 图 10-14 的 结构 中 找到 department 关系 的 所 有 元 组 ， 我 们 可 以 用 指针 把 这 
个 关系 的 所 有 记录 链接 起 来 ， 如 图 10-15 所 示 

何 时 使 用 多 表 聚 簇 依赖 于 数据 库 设 计 者 所 认为 的 最 频繁 的 查询 类 型 。 多 表 聚 簇 的 谨慎 使 用 可 以 在 
查询 处 理 中 产生 明显 的 性 能 提高 。 











图 10-15 ” 带 指针 链 的 多 表 聚 复 文 件 结构 


10.7 数据 字典 存储 


到 目前 为 止 ， 我 们 只 考虑 了 关系 本 身 的 表示 。 一 个 关系 数据 库 系 统 需要 维护 关于 关系 的 数据 ， 如 
关系 的 模式 等 。 一 般 来 说 ， 这 样 的 “关于 数据 的 数据 ”" 称 为 元 数据 ( metadata ) 。 

关于 关系 的 关系 模式 和 其 他 元 数据 存储 在 称 为 数据 字典 ( data dictionary ) 或 系统 目录 ( system 
catalog) 的 结构 中 。 系 统 必 须 存 储 的 信息 类 型 有 : 

。 关系 的 名 字 。 

。 每 个 关系 中 属性 的 名 字 。 

。 属性 的 域 和 长 度 。 

。 在 数据 库 上 定义 的 视图 的 名 字 和 这 些 视图 的 定义 。 

。 完整 性 约束 (例如 ， 码 约束 ) 。 

此 外 ， 很 多 系统 为 系统 的 用 户 保 存 了 下 列 数据 ; 

。 授权 用 户 的 名 字 。 

。 关于 用 户 的 授权 和 账户 信息 。 

。 用 于 认证 用 户 的 密码 或 其 他 信息 。 

数据 库 可 能 还 会 存储 关于 关系 的 统计 数据 和 描述 数据 。 例 如 : 

。 每 个 关系 中 元 组 的 总 数 。 

© 每 个 关系 所 使 用 的 存储 方法 ( 例如， 上 聚 簇 或 非 聚 簇 ) 。 

数据 字典 也 会 记录 关系 的 存储 组 织 (顺序 、 散 列 或 堆 ) ， 和 每 个 关系 的 存储 位 置 : 

。 如 果 关 系 存储 在 操作 系统 文件 中 ,数据 字典 将 会 记录 包含 每 个 关系 的 文件 名 。 

。 如 果 数 据 库 把 所 有 关系 存储 在 一 个 文件 中 ， 数 据 字典 可 能 将 包含 每 个 关系 中 记录 的 块 记 在 如 链 

表 这 样 的 数据 结构 中 。 
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第 11 章 研究 索引 ， 在 那 一 章 中 ， 我 们 将 看 到 有 必要 存储 关于 每 个 关系 的 每 个 索引 的 信息 : 

。 索引 的 名 字 。 

。 被 索引 的 关系 的 名 字 。 

。 在 其 上 定义 索引 的 属性 。 

。 构造 的 索引 的 类 型 。 

实际 上 ， 所 有 这 些 元 数据 信息 组 成 了 一 个 微型 数据 库 。 一 些 数据 库 系统 使 用 专用 的 数据 结构 和 代 
码 来 存储 这 些 信息 。 通 常人 们 更 倾向 于 在 数据 库 中 存储 关于 数据 库 本 身 的 数据 。 通 过 使 用 数据 库 来 存 
储 系统 数据 ,我 们 简化 了 系统 的 总 体 结构 ， 并 且 人 允许 使 用 数据 库 的 全 部 能 力 来 对 系统 数据 进行 快速 
访问 。 

关于 如 何 使 用 关系 来 表示 系统 元 数据 的 确切 选择 必须 由 系统 设计 者 来 决定 。 图 10-16 是 一 种 可 选 
的 表示 ， 加 下 划 线 的 为 主 码 。 在 这 种 表达 方式 中 ,关系 Index_metadata 中 的 属性 index_attributes 假定 包 
含 由 一 个 或 多 个 属性 组 成 的 列表 ， 这些 属性 可 以 表示 成 形 如 “ dept_name，building” 的 字符 串 。 因 此 ， 
Index_metadata 不 符合 第 一 范式 。 尽 管 它 可 以 规范 化 ,但 是 上 面 的 表示 可 能 对 于 存 取 数据 而 言 会 更 加 有 
效 。 数 据 字 典 通 常 存储 成 非 规 范 化 的 形式 ， 以 便 进 行 快速 的 存 取 。 





当 数 据 库 系 统 从 关系 中 查找 记录 时 ， 它 必须 首先 通 。 Relan metadata | Fe | 
过 Relation_metadata 关系 来 查找 关系 的 位 置 和 存储 组 织 ， relation ne i+ relation name 

$ a à G number_of_attributes attribute name 
然后 通过 该 信 息 取 回 id 录 o 但 是 9 Relation_metadata 关 storage_organization | domain_type 


系 自身 的 存储 组 织 和 位 置 必须 记录 在 其 他 地 方 (例如 ， oe ease | 


length | 


在 数据 库 自 身 的 代码 段 中 ,或 者 数据 库 中 的 一 个 固定 > 











位 置 ) ， 这 是 因为 我 们 需要 使 用 这 些 信息 找到 Relation | talents 
metadata 的 内 容 4 ao 
inex Halil ‘User_metadata 
1 0. 8 数据 库 缓 冲 区 Le m nane a 
[encryptea_passwora 
数据 库 系统 的 一 个 主要 目标 就 是 尽量 减少 磁盘 和 a ee 
存储 器 之 间 传 输 的 块 数目 。 减 少 磁盘 访问 次 数 的 一 种 | ie ae 





方法 是 在 主 存储 器 中 保留 尽 可 能 多 的 块 。 这 样 做 的 目 
标 是 最 大 化 要 访问 的 块 已 经 在 主 存储 器 中 的 几率 ， 这 DiS Iara 
样 就 不 再 需要 访问 磁盘 。 

因为 在 主 存储 器 中 保留 所 有 的 块 是 不 可 能 的 ， 所 以 需要 管理 主 存储 器 中 用 于 存储 块 的 可 用 空间 的 
分 配 。 缓 冲 区 (buffer) 是 主 存储 器 中 用 于 存储 磁盘 块 的 拷贝 的 那 一 部 分 。 每 个 块 总 有 一 个 拷贝 存放 在 磁 
盘 上 ， 但 是 在 磁盘 上 的 拷贝 可 能 比 在 缓冲 区 中 的 拷贝 上 日。 负责 缓冲 区 空间 分 配 的 子 系统 称 为 缓冲 区 管 
理 器 (buffer manager) 。 
10.8.1 缓冲 区 管理 器 

当 数据 库 系统 中 的 程序 需要 磁盘 上 的 块 时 ， 它 向 缓冲 区 管理 器 发 出 请 求 ( 即 调 用 ) 。 如 果 这 个 块 已 
经 在 缓冲 区 中 ， 缓 冲 区 管理 器 将 这 个 块 在 主 存储 器 中 的 地 址 传 给 请 求 者 。 如 果 这 个 块 不 在 缓冲 区 中 ， 
缓冲 区 管理 器 首先 在 缓冲 区 中 为 这 个 块 分 配 空间 ， 如 果 需 要 的 话 ， 会 把 其 他 块 移 出 主 存储 器 ， 为 这 个 
新 块 腾 出 空间 。 移 出 的 块 仅 当 它 自从 最 近 一 次 写 回 磁盘 后 被 修改 过 才 被 写 回 磁盘 。 然 后 缓冲 区 管理 器 
把 请 求 的 块 从 磁盘 读 人 缓冲 区 ， 并 将 这 个 块 在 主 存 储 器 中 的 地 址 传 给 请 求 者 。 缓 冲 区 管理 器 的 内 部 动 
作对 发 出 磁盘 块 请 求 的 程序 是 透明 的 。 

如 果 你 熟悉 操作 系统 的 概念 ， 你 会 发 现 缓冲 区 管理 器 几乎 和 大 多 数 操作 系统 中 的 虚拟 存储 管理 器 
是 一 样 的 。 它 们 的 一 点 区 别 是 数据 库 的 大 小 会 比 机 器 的 硬件 地 址 空间 大 得 多 ， 因 此 存储 器 地 址 不 足以 
对 所 有 磁盘 块 进行 寻 址 。 此 外 ， 为 了 更 好 地 为 数据 库 系统 服务 ， 缓 冲 区 管理 器 必须 使 用 比 典型 的 虚拟 
存储 器 管理 策略 更 加 复杂 的 技术 : 

© 缓冲 区 替换 策略 (buffer replacement strategy) 。 当 缓冲 区 中 没有 剩余 空间 时 ， 在 新 块 读 和 缓冲 区 

之 前 ， 必 须 把 一 个 块 从 缓冲 区 中 移出 。 多 数 操作 系统 使 用 最 近 最 少 使 用 ( Least Recently Used, 
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LRU) 策 略 ， 即 最 近 访 问 最 少 的 块 被 写 回 磁盘 ， 并 从 缓冲 区 中 移 走 。 这 种 简单 的 方法 可 以 加 以 
改进 以 用 于 数据 库 应 用 。 
© 被 钉 住 的 块 (pinned block)。 为 了 使 数据 库 系 统 能 够 从 系统 崩 演 中 恢复 ( 见 第 16 章 ) ， 限 制 一 个 
块 写 回 磁盘 的 时 间 是 十 分 必要 的 。 例 如 : 当 一 个 块 上 的 更 新 操作 正在 进行 时 ， 大 多 数 恢复 系统 
不 允许 将 该 块 写 回 磁盘 。 不 允许 写 回 磁盘 的 块 称 为 被 钉 住 的 ( pinned) 块 。 尽 管 很 多 操作 系统 不 
提供 对 被 钉 住 的 块 的 支持 ,但 是 这 个 特性 对 可 从 崩溃 中 恢复 的 数据 库 系统 十 分 重要 。 
© 块 的 强制 写 出 (forced output of block)。 在 某 些 情况 下 ， 尽 管 不 需要 一 个 块 所 占用 的 缓冲 区 空间 ， 
但 必须 把 这 个 块 写 回 磁盘 。 这 样 的 写 操作 称 为 块 的 强制 写 出 (forced output) 。 我 们 将 在 第 16 BF 
看 到 需要 强制 写 出 的 原因 : 简单 地 说 ， 主 存储 器 的 内 容 ， 包 括 缓冲 区 的 内 容 ,在 崩溃 时 将 丢 
失 ， 而 磁盘 上 的 数据 一 般 在 月 当时 得 以 保留 。 
10.8.2 缓冲 区 替换 策略 
对 缓冲 区 中 的 块 替换 策略 而 言 ， 目 标 是 减少 对 磁盘 的 访问 。 对 通用 程序 来 说 ， 精 确 预言 哪个 块 将 
被 访问 是 不 可 能 的 。 因 此 ， 操 作 系统 使 用 过 去 的 块 访问 模式 来 预言 未 来 的 访问 。 通 常 我 们 假定 最 近 访 
问 过 的 块 最 有 可 能 再 一 次 被 访问 。 因 此 ， 如 果 必 须 蔡 换 一 个 块 ， 则 替换 最 近 访 问 最 少 的 块 。 这 种 方法 
称 为 最 近 最 少 使 用 (Least Recently Used, LRU) 块 蔡 换 策 略 。 
在 操作 系统 中 ，LRU 是 一 个 可 以 接受 的 替换 策略 。 然 而 ， 数 据 库 系统 能 够 比 操作 系统 更 准确 地 预 
测 未 来 的 访问 模式 。 用 户 对 数据 库 系 统 的 请 求 包括 若干 步 。 通 过 查看 执行 用 户 请 求 所 需 操 作 的 每 一 步 ， 
数据 库 系统 通常 可 以 预先 确定 哪些 块 将 是 需要 的 。 因 此 ， 与 依赖 过 去 而 预测 将 来 的 操作 系统 不 同 ， 数 
据 库 系统 至 少 可 以 得 到 短期 内 的 将 来 信息 。 
为 了 说 明 关 于 未 来 块 访问 的 信息 是 如 何 使 我 们 改进 LRU 策略 的 ， 考 虑 如 下 SQL 查询 处 理 : 


select +* 
from instructor natural join department 


假设 所 选择 的 处 理 这 个 请 求 的 策略 由 图 10-17 所 示 的 伪 码 程序 给 出 。 (第 12 章 将 研究 其 他 更 有 效 
的 策略 。) 





for each instructor 中 的 元 组 i do 
for each department 中 的 元 组 d do 
if i[ dept_name | = d| dept_name | 
then begin 
S x 为 下 列 式 子 定义 的 元 组 : 
x[ID]:= i[ ID] 
x[ dept_name] := il dept_name | 
x[ name] := il name | 
x[ building] := d[ building | | 
x[ budget] := d[ budget] | 
将 元 组 x 包含 进 instructor DXI department 的 结果 中 
end 
end 
end 











图 10-17 计算 连接 的 过 程 


假设 该 例子 中 的 两 个 关系 存储 在 不 同 的 文件 中 。 在 这 个 例子 中 ， 我 们 可 以 看 到 ， 一 旦 instructor 中 
的 一 个 元 组 处 理 过 ， 这 个 元 组 就 不 再 需要 了 。 因 此 一 旦 处 理 完 instructor 元 组 构成 的 一 个 完整 的 块 ， 这 
个 块 就 不 再 需要 存储 在 主 存储 器 中 了 ， 尽 管 它 刚 刚 使 用 过 。 一 旦 instructor 块 中 最 后 一 个 元 组 处 理 完毕 ， 
就 应 该 命令 缓冲 区 管理 器 释放 这 个 块 所 占用 的 空间 。 这 个 缓冲 区 管理 策略 称 为 立即 丢弃 (toss- 
immediate ) 策略 。 
现在 考虑 包含 department 元 组 的 块 。 对 instructor 关系 中 的 每 个 元 组 ， 我 们 需要 检查 department 元 组 | 465 


l 


的 每 个 块 。 当 一 个 department 块 处 理 完毕 后 ， 我 们 知道 这 个 块 要 到 所 有 其 他 department 块 处 理 完 才 会 被 466 


人 


再 次 访问 。 因 此 ， 最 近 最 常 使 用 的 department 块 将 是 最 后 一 个 要 再 次 访问 的 块 ， 最 近 最 少 使 用 的 
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department 块 是 接着 要 访问 的 块 。 这 个 假设 正好 与 构成 LRU 策略 基础 的 假设 相反 。 实 际 上 ， 上 述 过 程 
中 块 替换 的 最 优 策略 是 最 近 最 常 使 用 ( Most Recently Used, MRU) 策略 。 如 果 必 须 从 缓冲 区 中 移 除 一 个 
department 块 ，MRU 策略 将 选择 最 近 最 常 使 用 的 块 ( 当 块 被 使 用 时 不 能 被 替换 ) 。 

在 这 个 例子 中 ， 要 使 MRU 策略 正确 地 工作 ， 系 统 必须 把 当前 正在 处 理 的 department 块 钉 住 。 在 块 
中 最 后 一 个 department 元 组 处 理 完毕 后 ， 这 个 块 就 不 再 被 钉 住 ， 成 为 最 近 最 常 使 用 的 块 。 

除了 使 用 系统 所 拥有 的 关于 被 处 理 的 请 求 的 知识 ， 缓 冲 区 管理 器 也 可 以 使 用 有 关 一 个 请 求 将 访问 
某 个 特定 关系 的 概率 的 统计 信息 。 例 如 ， 用 来 记录 关系 的 逻辑 模式 和 它们 的 物理 存储 信息 的 数据 字典 
(在 10.7 节 中 进行 了 详细 介绍 ) ， 是 数据 库 中 最 经 常 访问 的 部 分 之 一 。 因 此 ， 缓 冲 区 管理 器 应 尽量 不 把 
数据 字典 从 主 存储 器 中 移 除 ， 除 非 有 其 他 因素 决定 了 非 这 样 做 不 可 。 第 11 章 将 讨论 文件 的 索引 。 因 为 
对 文件 索引 的 访问 可 能 比 文件 本 身 更 频繁 ， 所 以 不 是 迫不得已 ， 缓 冲 区 管理 器 一 般 不 应 把 索引 块 从 主 
存储 器 中 移 除 。 

理想 的 数据 库 块 替换 策略 需要 数据 库 操 作 的 知识 (包括 正在 执行 的 操作 和 将 来 会 执行 的 操作 ) 。 没 
有 哪个 策略 能 够 很 好 地 处 理 所 有 可 能 的 情况 。 实 际 上 ， 绝 大 多 数 数据 库 系 统 都 使 用 LRU 策略 ， 尽 管 这 
种 策略 有 其 缺点 。 在 习题 中 我 们 将 探究 其 他 可 选择 的 策略 。 

除了 块 被 再 次 访问 的 时 间 以 外 ,缓冲 区 管理 器 使 用 的 块 蔡 换 策略 还 受 其 他 因素 所 影响 。 如 果 系 统 
并 发 地 处 理 多 个 用 户 的 请 求 ， 并 发 控制 子 系统 ( 见 第 15 章 ) 可 能 会 延迟 某 些 请 求 ， 以 保证 数据 库 的 一 致 
性 。 如 果 缓 冲 区 管理 器 从 并 发 控制 子 系统 获得 了 关于 哪些 请 求 被 延迟 的 信息 ， 它 就 可 以 使 用 这 些 信息 
来 改变 它 的 块 蔡 换 策 略 。 具 体 地 说 ， 活 动 的 ( 非 延 迟 的 ) 请 求 所 需要 的 块 可 以 因为 被 延迟 的 请 求 所 需要 
的 块 换 出 而 在 缓冲 区 中 得 以 保留 。 

崩溃 - 恢复 子 系统 ( 见 第 16 He) 对 块 替 换 施加 了 严格 的 约束 。 如 果 一 个 块 修改 了 ， 不 允许 缓冲 区 管 
理 器 将 这 个 块 在 缓冲 区 中 的 新 内 容 写 回 磁盘 ， 因 为 这 将 破坏 块 的 旧 内 容 。 取 而 代 之 的 做 法 是 ， 块 管理 
器 在 写 回 块 之 前 ， 必 须 从 崩溃 -恢复 子 系统 处 寻求 许可 。 崩 演 - 恢复 子 系统 在 允许 缓冲 区 管理 器 写 回 

需要 的 块 之 前 ， 可 能 要 求 将 某 些 其 他 块 强制 写 出 。 在 第 16 章 中 ,我 们 将 精确 定义 缓冲 区 管理 器 与 崩 

省 -恢复 子 系统 之 间 的 交互 。 


10.9 总 结 


© 大 多 数 计算 机 系统 中 存在 多 种 数据 存储 类 型 。 我 们 可 以 根据 访问 数据 的 速度 、 购 买 介质 时 每 单位 数 
据 的 成 本 和 介质 的 可 靠 性 ， 对 这 些 存储 介质 进行 分 类 。 可 用 的 介质 有 高 速 缓冲 存储 器 、 主 存储 器 、 
快 闪存 储 器 、 磁 盘 、 光 盘 和 磁带 。 

。 存储 介质 的 可 靠 性 由 两 个 因素 决定 : 电源 故障 或 系统 崩溃 是 否 导 致 数据 丢失 ， 人 存储 设备 发 生物 理 故 
障 的 可 能 性 有 多 大 。 

。 通过 保留 数据 的 多 个 拷贝 ， 我 们 可 以 减少 物理 故障 的 可 能 性 。 对 磁盘 来 说 可 以 使 用 镜像 技术 。 或 者 

可 以 使 用 更 复杂 的 基于 独立 磁盘 见 余 阵列 ( RAID) 的 方法 。 通 过 把 数据 拆 分 到 多 张 磁盘 上 ， 可 以 提高 

大 数据 量 访问 的 吞吐 率 ; 通过 引入 多 张 磁盘 上 的 元 余 存 储 ， 可 以 显著 提高 可 靠 性 。 有 几 种 不 同 的 

RAID 组 织 形式 ,它们 具有 不 同 的 成 本 、 性 能 和 可 靠 性 特征 。 最 常用 的 是 RAID 1 级 (镜像 ) 和 RAID 5 

级 。 

我 们 可 以 把 一 个 文件 从 人 逻辑 上 组 织 成 映射 到 磁盘 块 上 的 一 个 记录 序列 。 把 数据 库 映 射 到 文件 的 一 种 

方法 是 使 用 多 个 文件 ， 每 个 文件 只 存储 固定 长 度 的 记录 。 另 一 种 方法 是 构造 文件 ， 使 之 能 适应 多 种 

长 度 的 记录 。 分 槽 的 页 方法 广泛 应 用 于 在 磁盘 块 中 处 理 变 长 记录 。 

因为 数据 以 块 为 单位 在 磁盘 存储 器 和 主 存储 器 之 间 传 输 ， 所 以 采取 用 一 个 单独 的 块 包含 相关 联 的 记 

录 的 方式 ， 将 文件 记录 分 配 到 不 同 的 块 中 是 可 取 的 。 如 果 我 们 能 够 仅 使 用 一 次 块 访问 就 可 以 存 取 我 

们 想 要 的 多 个 记录 ， 就 能 节省 磁盘 访问 次 数 。 因 为 磁盘 访问 通常 是 数据 库 系 统 性 能 的 瓶颈 ， 所 以 仔 

细 设 计 块 中 记录 的 分 配 可 以 获得 显著 的 性 能 提高 。 

。 数据 字典 ， 也 称 为 系统 目录 ， 用 于 记录 元 数据 ， 即 关于 数据 的 数据 ， 例 如 关系 名 、 属 性 名 和 类 型 、 
存储 信息 、 完 整 性 约束 和 用 户 信息 。 

。 减少 磁盘 访问 数量 的 一 种 方法 是 在 主 存储 器 中 保留 尽 可 能 多 的 块 。 因 为 在 主 存储 器 中 保留 所 有 的 块 
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是 不 可 能 的 ， 所 以 需要 为 块 的 存储 而 管理 主 存储 器 中 可 用 空间 的 分 配 。 缓 冲 区 是 主 存储 器 的 一 部 分 ， 
可 用 于 存储 磁盘 块 的 拷贝 。 负 责 分 配 缓冲 区 空间 的 子 系统 称 为 缓冲 区 管理 器 。 








































































































术语 回顾 

© 物理 存储 介质 口 电梯 算法 。 第 三 级 存储 
口 高 速 缓冲 存储 器 文件 组 织 口 光盘 
口 主 存储 器 DO 消除 碎片 O 磁带 
口 快 闪存 储 器 O 非 易 失 性 写 缓冲 区 自动 光盘 /磁带 机 
口 磁盘 存储 器 非 易 失 性 随机 存 取 存储 。 文件 
口 光盘 存储 器 器 ( NV-RAM) 。 文件 组 织 

© 磁盘 存储 器 口 日 志 磁 盘 口 文件 头 
盘面 © 独立 磁盘 见 余 阵列 (RAID) 口 空闲 列表 
口 硬盘 口 镜像 。 变 长 记录 
口 软盘 口 数据 拆 分 口 分 模 的 页 结构 
O 磁道 口 比特 级 拆 分 © 大 对 象 
口 扇 区 O 块 级 拆 分 © 堆 文 件 组 织 
口 读 写 头 © RAID 级 别 。 顺序 文件 组 织 
口 磁盘 臂 口 0 级 ( 块 级 拆 分 ， 没 有 。 散 列 文件 组 织 
口 柱 面 TTR) 。 BRR FAA 
口 磁盘 控制 器 口 1 级 ( 块 级 拆 分 ， 镜 像 ) 。 搜索 码 
口 校 验 和 口 3 级 (比特 级 拆 分 ， 奇偶 。 数据 字典 
O 坏 磁 道 的 重 映射 校 验 ) 。 系统 目录 

© 磁盘 性 能 度量 口 5 级 ( 块 级 拆 分 ， 分 布 式 。 缓冲 区 

访问 时 间 奇偶 校 验 ) 口 缓冲 区 管理 

口 寻 道 时 间 口 6 级 ( 块 级 拆 分 , P+Q 口 被 钉 住 的 块 
口 旋转 延迟 元 余 ) 口 块 的 强制 写 出 
口 数据 传输 率 。 重建 的 性 能 。 缓冲 区 替换 策略 
O 平均 故障 时 间 ( MTTF) e 软件 RAID O 最 近 最 少 使 用 ( LRU ) 

© 磁盘 块 © 硬件 RAID ] 立即 丢弃 

。 磁盘 块 访问 优化 © 热 交 换 O 最 近 最 常 使 用 ( MRU) 
口 磁盘 壁 调度 

实践 习题 


10. 1 


10.2 


10.3 


考虑 表 10-18 所 描述 的 4 张 磁盘 上 的 数据 和 奇偶 校 验 块 的 排列 : 

B, 表示 数据 块 ，P, 表示 奇偶 校 验 块 。 奇 个 校 验 块 P 是 数据 

块 By, ~ B, 的 校 验 块 。 这 种 排列 如 果 有 问题 的 话 ， 会 是 什 

么 问题 ? 

闪存 存储 : 

a 内 存 中 用 来 映射 逻辑 页 码 到 物理 页 码 的 闪存 转换 表 如 何 

创建 ? 

b. 假设 你 有 一 个 AGB 的 快 闪存 储 系统 ， 页 面 大 小 为 4096 。 ”图 !0-18 数据 和 奇偶 块 排列 
字 节 。 假 设 每 页 有 32 位 地 址 ， 并 且 转 换 表 用 数组 形式 存储 ， 则 该 闪存 转换 表 将 有 多 大 ? 

。。 如 果 经 常 有 大 范围 的 连续 逻辑 页 码 映射 到 连续 物理 页 码 ， 请 建议 如 何 缩减 转换 表 的 大 小 

当 一 个 磁盘 块 正在 被 写 的 时 候 发 生 电源 故障 会 导致 块 只 写 了 一 部 分 。 假 设 这 个 部 分 写 的 块 可 以 探测 出 

来 。 一 个 原子 的 写 块 操作 是 种 或 者 完成 对 磁盘 块 的 写 ， 或 者 什么 都 不 写 ( 即 不 会 部 分 写 ) 的 操作 。 提 

出 一 种 利用 原子 的 写 块 操作 实现 如 下 RAID 策略 的 方法 。 你 的 方法 应 该 包括 从 故障 中 恢复 时 的 工作 
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471 


472 





10.5 


10.6 


10.7 


10.8 


10.9 


10.21 


a. RAID 1 级 (镜像 ) 

b. RAID 5 级 ( 块 级 拆 分 ， 分 布 的 奇偶 校 验 ) 

考虑 从 图 10-6 的 文件 中 删除 记录 5。 比 较 下 列 实现 删除 的 技术 的 相对 优点 : 

a 移动 记录 6 到 记录 5 所 占用 的 空间 ， 然 后 移动 记录 7 到 记录 6 所 占用 的 空间 

b. 移动 记录 7 到 记录 5 所 占用 的 空间 。 

c. 标记 记录 5 被 删除 ， 不 移动 任何 记录 。 

给 出 经 过 下 面 每 一 步 后 图 10-7 中 文件 的 结构 : 

a. 4A (24556, Turnamian, Finance, 9800) 。 

b. 删除 记录 2。 

c. 插入 (34556，Thompson Music, 67000) 。 

考虑 关系 section 和 takes。 给 出 这 两 个 关系 的 一 个 实例 ， 包 括 3 次 开课 ， 每 次 开课 有 5 个 学 生 选 课 。 给 
出 一 个 使 用 多 表 聚 簇 的 这 些 关系 的 文件 结构 。 

考虑 下 面 在 文件 中 跟踪 空闲 空间 的 位 图 技术 ， 对 文件 中 的 每 个 块 ， 在 位 图 中 维护 两 位 。 如 果 块 的 0% ~ 
30% 是 满 的 ， 这 两 位 用 00 表示 ，30% ~ 60% FA 01 表示，60% ~90% 用 10 表示 ， 高 于 90% 用 11 表 
示 。 这 样 的 位 图 即使 对 很 大 的 文件 也 可 以 保存 在 内 存 中 。 

a. 描述 在 记录 插 人 和 删除 时 如 何 保持 位 图 的 更 新 。 

b 概括 位 图 技术 与 空闲 列表 相 比 在 搜索 空闲 空间 和 更 新 空闲 空间 信息 方面 的 好 处 。 

快速 找 出 一 个 块 是 否 存 在 于 缓冲 区 中 ， 假 如 存在 ， 它 存 于 缓冲 区 的 何 处 ， 这 很 重要 。 假设 数 据 库 缓冲 
区 非常 庞大 ， 针 对 上 述 任务 ， 你 该 使 用 什么 (内 存 ) 数据 结构 ? 

对 于 下 面 的 每 种 情况 ， 给 出 一 个 关系 代数 表达 式 和 一 个 查询 处 理 策 略 的 例子 : 

a. MRU {È F LRU, 

b. LRU {È F MRU, 


列 出 你 日 常 使 用 的 计算 机 上 用 到 的 物理 存储 介质 。 给 出 每 种 介质 上 数据 存 取 的 速度 。 

磁盘 控制 器 对 坏 扇 区 的 重 映射 是 如 何 影 响 数据 检索 率 的 ? 

RAID 系统 通常 允许 你 更 换 发 生 故障 的 磁盘 而 不 需要 停止 对 系统 的 访问 。 因 此 ， 发 生 故 障 的 磁盘 上 

的 数据 必须 在 系统 运行 的 同时 重建 ， 并 写 到 新 更 换 的 磁盘 上 。 哪 一 级 RAID 在 重建 和 持续 磁盘 访问 

之 间 的 冲突 最 小 ? 解释 你 的 答案 。 

RAID 系统 中 的 擦洗 是 什么 ， 为 什么 擦洗 很 重要 ? 

在 变 长 记录 表示 中 ， 用 一 个 空位 图 来 表示 一 个 属性 是 否 为 空 值 。 

a 对 于 变 长 字段 ， 如 果 值 为 空 ， 那 么 偏 移 量 字段 和 长 度 字段 中 存储 什么 ? 

b. 在 一 些 应 用 中 ， 元 组 拥有 大 量 的 属性 ， 其 中 大 多 数 属性 为 空 。 你 能 否 更 改 这 样 的 记录 的 表示 ， 使 
得 一 个 空 值 属性 的 开销 仅 为 在 空位 图 中 的 一 个 位 。 

解释 为 什么 在 磁盘 块 上 分 配 记录 的 策略 会 显著 影响 数据 库 系统 的 性 能 。 

如 果 可 能 ， 查 出 在 你 的 本 地 计算 机 系统 上 运行 的 操作 系统 所 使 用 的 缓冲 区 管理 策略 和 它 提供 的 控制 

页 面 替换 的 机 制 。 讨 论 它 提供 的 控制 蔡 换 策略 如 何 能 够 对 数据 库 系 统 的 实现 有 用 。 

列 出 下 列 存储 关系 数据 库 的 每 个 策略 的 两 个 优点 和 两 个 缺点 : 

a 在 一 个 文件 中 存储 一 个 关系 。 

b. 在 一 个 文件 中 存储 多 个 关系 (甚至 是 整个 数据 库 ) 。 

在 顺序 文件 组 织 中 ， 为 什么 即使 当前 只 有 一 条 溢出 记录 ， 也 要 使 用 一 个 溢出 块 ? 

给 出 关系 Index_metadata 的 规范 化 形式 ， 并 解释 为 什么 使 用 规范 化 的 形式 会 导致 更 差 的 性 能 ? 

如 果 你 的 一 些 数据 不 应 该 在 磁盘 崩溃 时 丢失 ， 且 这 些 数据 是 写 密集 的 ， 你 如 何 存储 这 些 数据 ? 

在 早期 的 磁盘 中 ， 每 条 磁道 中 扇 区 的 数量 对 所 有 磁道 都 是 一 样 的。 现代 的 磁盘 在 外 侧 磁 道上 有 较 多 

的 扇 区 ， 在 内 侧 磁道 上 有 较 少 的 扇 区 ( 由 于 它们 的 长 度 更 短 ) 。 这 样 的 改变 对 磁盘 速度 的 三 个 主要 指 

标 各 有 什么 影响 。 

标准 的 缓冲 区 管理 器 假定 每 个 页 的 大 小 和 读 取代 价 都 是 相同 的 。 设 想 一 个 缓冲 区 管理 器 使 用 对 对 象 
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引用 的 比率 ， 即 一 个 对 象 在 此 前 的 n 秒 被 访问 的 频率 ， 而 不 是 LRU。 假 设 我 们 要 在 缓冲 区 中 存储 变 
长 和 变 读 取代 价 (例如 网 页 ， 它 的 读 取 代价 取决 于 它 所 在 的 站 点 ) 的 对 象 。 缓 冲 器 管理 器 可 以 怎样 选 
择 要 删除 缓冲 区 中 的 哪个 页 ? 


文献 注解 


Hennessy 等 [2006 ] 是 一 本 广泛 使 用 的 计算 机 体系 结构 方面 的 教科 书 ， 它 的 内 容 涵 盖 了 转换 旁 视 缓 冲 区 
(translation look-aside buffer) 、 高 速 缓冲 存储 器 和 存储 器 管理 单元 的 硬件 特性 。Rosch[ 2003 ] 给 出 了 对 计算 机 
硬件 的 一 个 优秀 的 概括 性 介绍 ， 其 内 容 涵盖 了 各 种 类 型 的 存储 技术 ， 例 如 磁盘 、 光 盘 、 磁 带 和 存储 接口 ， 
Patterson[ 2004 ] 很 好 地 讨论 了 延 时 的 改进 如 何 落后 于 带宽 ( 传输 率 ) 的 改进 。 

随 着 CPU 速度 的 迅速 增长 ，CPU 上 的 高 速 缓冲 存储 器 比 主 存 要 更 快 。 尽 管 数 据 库 系统 不 控制 数据 如 何 
存储 在 高 速 缓冲 存储 器 中 ,但 是 ， 对 在 主 存 中 组 织 数 据 ， 并 以 能 够 尽 可 能 地 利用 高 速 缓冲 存储 器 的 方式 编 
写 程 序 的 需求 在 不 断 上 升 。 在 这 个 领域 的 成 果 包括 Rao 和 Ross[ 2000 ] Ailamaki 等 [2001 | 和 Zhou 和 Ross 
[2004], Garcia 和 Korth [ 2005 ] 、Cieslewicz 等 [2009 | 。 

当代 磁盘 驱动 器 的 详细 规范 可 以 从 它们 的 制造 商 的 Web 站 点 上 得 到 ， 例 如 : Hitachi, LaCie, Iomega, 
Seagate, Maxtor 和 Western Digital, 

Patterson 等 [1988 ] 以 及 Chen 和 Patterson[ 1990 ] 给 出 了 关于 廉价 磁盘 元 余 阵 列 (RAID ) 的 讨论 。Chen 等 
[1994 ] 给 出 了 对 RAID 原理 和 实现 的 一 个 极 好 的 综述 。Pless [ 1998 ] 描 述 了 Reed-Solomon 码 。 

针对 移动 系统 中 的 缓存 数据 讨论 参见 Imielinski 和 Badrinath [ 1994 ] 、Imielinski 和 Korth [ 1996 ] 、 
Chandrasekaran 等 [2003 ] 。 

特定 数据 库 系 统 ( 如 IBM DB2 Oracle, Microsoft SQL Server 和 PostgreSQL) 的 存储 结构 都 分 别 记 录 在 它们 
的 系统 说 明 手 册 中 。 

大 部 分 操作 系统 教材 (包括 Silberschatz 等 [2008 ] ) 都 讨论 了 缓冲 区 管理 。Chou 和 Dewitt[ 1985 ] 给 出 了 数 
据 库 系 统 中 缓冲 区 管理 的 算法 ， 并 介绍 了 一 种 性 能 评估 方法 。 
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索引 与 散 列 


许多 查询 只 涉及 文件 中 的 少量 记录 。 例 如 ， 类 似 “ 找 出 物理 系 所 有 教师 ”或 者 “ 找 出 D 是 22201 的 
学 生 的 总 学 分 ”的 查询 ， 就 只 涉及 学 生 记 录 中 的 一 小 部 分 。 如 果 系 统 读 取 instructor 关系 中 每 一 个 元 组 并 
检查 dept_name 值 是 否 为 “物理 ”， 这 样 的 操作 方式 是 低 效 的 。 同 样 ， 只 是 为 了 查找 一 个 D 是 “32556” 
的 元 组 而 读 取 整 个 student 关系 也 是 低 效 的 。 理 想 情况 下 ， 系 统 应 能 够 直接 定位 这 些 记录 。 为 了 人 允许 这 
种 访问 方式 ， 我 们 设计 了 与 文件 相关 联 的 附加 的 结构 。 


11.1 基本 概念 


数据 库 系 统 中 文件 索引 的 工作 方式 非常 类 似 于 本 书 的 索引 。 如 果 我 们 硕 望 了 解 本 书 中 某 个 特定 主 
题 ( 用 一 个 词 或 者 词组 指定 ) 的 内 容 ， 可 以 在 书后 的 索引 中 查找 主题 ， 找 到 它 出 现 的 页 ， 然 后 读 这 些 
页 ， 寻 找 我 们 需要 的 信息 。 索 引 中 的 词 是 按 顺 序 排列 的 ， 因 此 ， 要 找到 我 们 所 需要 的 词 就 容易 了 。 而 
且 ， 索 引 比 书 小 得 多 ， 从 而 能 进一步 减少 所 需 精 力 。 

数据 库 系 统 中 的 索引 与 图 书馆 中 书 的 索引 所 起 的 作用 一 样 。 例 如 ， 为 了 根据 给 定 ID 检索 一 条 
student 记录 ， 数 据 库 系 统 首 先 会 查找 索引 ， 找 到 相应 记录 所 在 的 磁盘 块 ， 然 后 取出 该 磁盘 块 ， 得 到 所 
需 的 student 记录 。 

在 存储 了 数 千 条 学 生 记 录 的 大 型 数据 库 中 ， 维 护 一 个 排序 的 学 生 ID 列表 的 效果 并 不 好 ， 因 为 索引 
本 身 将 非常 大 ; 而 且 ， 即 使 通过 排序 的 索引 减少 了 搜索 时 间 ， 查 找 一 个 学 生 也 仍然 是 非常 费时 的 工作 。 
我 们 可 以 使 用 更 复杂 的 索引 技术 来 作为 蔡 代 。 我 们 将 在 本 章 讨论 几 种 这 样 的 技术 。 

有 两 种 基本 的 索引 类 型 ; 

475 。 顺序 索引 。 基于 值 的 顺序 排序 。 
。 散 列 索引 。 基 于 将 值 平均 分 布 到 若干 散 列 桶 中 。 一 个 值 所 属 的 散 列 桶 是 由 一 个 函数 决定 的 ， 该 
PRR AHF!) BH HK (hash function) 。 

我 们 将 考虑 用 于 顺序 索引 和 散 列 的 几 种 技术 。 没 有 哪 一 种 技术 是 最 好 的 ， 只 能 说 某 种 技术 对 特定 
的 数据 库 应 用 是 最 适合 的 。 对 每 种 技术 的 评价 必须 基于 下 面 这 些 因 素 。 

© 访问 类 型 (access type): 能 有 效 支 持 的 访问 类 型 。 访 问 类 型 可 以 包括 找到 具有 特定 属性 值 的 记 

录 ， 以 及 找到 属性 值 落 在 某 个 特定 范围 内 的 记录 。 

© 访问 时 间 (access time): 在 查询 中 使 用 该 技术 找到 一 个 特定 数据 项 或 数据 项 集 所 需 的 时 间 

© 插入 时 间 (insertion time) : 插入 一 个 新 数据 项 所 需 的 时 间 。 该 值 包括 找到 插入 这 个 新 数据 项 的 

正确 位 置 所 需 的 时 间 ， 以 及 更 新 索引 结构 所 需 的 时 间 。 

© 删除 时 间 ( deletion time): 删除 一 个 数据 项 所 需 的 时 间 。 该 值 包括 找到 待 删除 项 所 需 的 时 间 ， 以 

及 更 新 索引 结构 所 需 的 时 间 。 
© 空间 开销 (space overhead); 索引 结构 所 占用 的 额外 存储 空间 。 倘 若 存储 索引 结构 的 额外 空间 大 
小 适度 ， 通 常 由 牲 一 定 的 空间 代价 来 换取 性 能 的 提高 是 值得 的 。 

通常 需要 在 一 个 文件 上 建立 多 个 索引 。 例 如 ， 可 能 按 作者 、 主 题 或 者 书 名 来 查找 一 本 书 。 

用 于 在 文件 中 查找 记录 的 属性 或 属性 集 称 为 搜索 码 ( search key) 。 注 意 这 里 的 码 的 定义 与 主 码 、 候 
选 码 以 及 超 码 中 的 定义 不 同 。( 遗憾 的 是 ) 码 在 现实 中 具有 多 种 广 为 接 受 的 含义 。 使 用 本 文中 搜索 码 的 
概念 ， 我 们 认为 ， 如 果 一 个 文件 上 有 多 个 索引 ， 那么 它 就 有 多 个 搜索 码 。 
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11.2 顺序 索引 


为 了 快速 随机 访问 文件 中 的 记录 ， 可 以 使 用 索引 结构 。 每 个 索引 结构 与 一 个 特定 的 搜索 码 相 关联 。 
正如 书 中 的 索引 或 者 图 书馆 目录 一 样 ， 顺 序 索引 按 顺 序 存储 搜索 码 的 值 ， 并 将 每 个 搜索 码 与 包含 该 搜 
索 码 的 记录 关联 起 来 。 

被 索引 文件 中 的 记录 自身 也 可 以 按照 某 种 排序 顺序 存储 ， 正 如 图 书馆 中 的 书 按 某 些 属性 (如 杜威 
十 进 制 数 ) 顺 序 存放 一 样 。 一 个 文件 可 以 有 多 个 索引 ， 分 别 基 于 不 同 的 搜索 码 。 如 果 包 含 记录 的 文件 按 
照 某 个 搜索 码 指定 的 顺序 排序 ， 那 么 该 搜索 码 对 应 的 索引 称 为 聚集 索引 ( clustering index), RERI [476 
称 为 主 索引 ( primary index); 主 索引 这 个 术语 看 起 来 是 表示 建立 在 主 码 上 的 索引 ， 但 实际 上 它 可 以 建立 
在 任何 搜索 码 上 。 聚 集 索 引 的 搜索 码 常常 是 主 码 ， 尽 管 并 非 必 须 如 此 。 搜 索 码 指定 的 顺序 与 文件 中 记 
录 的 物理 顺序 不 同 的 索引 称 为 非 聚集 索引 ( nonclustering index) 或 辅助 索引 (secondary index) 。 常 用 术语 
“REH” (clustered) 和 “ 非 聚 集 的 ”( nonclustered ) KARE“ RÆ” (clustering) 和 “ 非 聚 集 ”( nonclustering ) 。 

在 11.2.1~11.2.3 节 中 ,我 们 假定 所 有 文件 都 按照 某 些 搜 索 码 顺序 排列 。 这 种 在 搜索 码 上 有 聚集 
索引 的 文件 称 作 索 引 顺 序 文件 (index-sequential file) 。 它 们 是 数据 库 系统 中 最 早 采 用 的 索引 模式 之 一 ， 
是 针对 既 需 顺序 处 理 整个 文件 又 需 随机 访问 单独 记录 的 应 用 而 设计 的 。11. 2. 4 节 将 讨论 辅助 索引 。 

图 11-1 是 取 自 大 学 例子 中 instructor 记录 的 一 个 顺序 文件 。 在 图 11-1 所 示 的 例子 中 ,教师 ID 用 作 
搜索 码 ， 记 录 按 照 该 搜索 码 顺序 存放 。 
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图 11-1 instructor 记录 的 顺序 文件 


11.2.1 稠密 索引 和 稀疏 索引 
索引 项 (index entry ) 或 索引 记录 (index record) 由 一 个 搜索 码 值 和 指向 具有 该 搜索 码 值 的 一 条 或 者 多 
条 记录 的 指针 构成 。 指 向 记录 的 指针 包括 磁盘 块 的 标识 和 标识 磁盘 块 内 记录 的 块 内 偏 移 量 
我 们 可 以 使 用 的 顺序 索引 有 两 类 。 [477 | 
© 稠密 索引 (dense index): 在 稠密 索引 中 ， 文 件 中 的 每 个 搜索 码 值 都 有 一 个 索引 项 。 在 稠密 聚集 
索引 中 ， 索 引 项 包括 搜索 码 值 以 及 指向 具有 该 搜索 码 值 的 第 一 条 数据 记录 的 指针 。 具 有 相同 搜 
索 码 值 的 其 余 记录 顺序 地 存储 在 第 一 条 数据 记录 之 后 ， 由 于 该 索引 是 聚集 索引 ， 因 此 记录 根据 
相同 的 搜索 码 值 排序 。 
在 稠密 非 聚 集 索 引 中 ， 索 引 必 须 存 储 指向 所 有 具有 相同 搜索 码 值 的 记录 的 指针 列表 。 
© RRS] (sparse index): 在 稀 疏 索引 中 ， 只 为 搜索 码 的 某 些 值 建立 索引 项 。 只 有 当 关 系 按 搜索 
码 排列 顺序 存储 时 才能 使 用 稀 朴 索引 ， 换 名 话说， 只 有 索引 是 聚集 索引 时 才能 使 用 稀 朴 索引 。 
和 稠密 索引 一 样 ， 每 个 索引 项 也 包括 一 个 搜索 码 值 和 指向 具有 该 搜索 码 值 的 第 一 条 数据 记录 的 
指针 。 为 了 定位 一 条 记录 ， 我 们 找到 其 最 大 搜索 码 值 小 于 或 等 于 所 查找 记录 的 搜索 码 值 的 索引 
项 。 然 后 从 该 索引 项 指向 的 记录 开始 ， 沿 着 文件 中 的 指针 查找 ， 直 到 找到 所 需 记录 为 止 。 
图 11-2 和 图 11-3 分 别 是 为 instructor 文件 建立 的 稠密 索引 和 稀 玖 索引 。 假 如 我 们 现在 要 查找 ID 是 
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“22222” 的 教师 记录 。 利 用 图 11-2 的 稠密 索引 ， 我 们 可 以 顺 着 指针 直接 找到 第 一 条 所 需 记录 。 因 为 ID 
是 主 码 ， 所 以 数据 库 中 只 存在 一 条 这 样 的 记录 。 于 是 搜索 完成 。 如 果 使 用 称 朴 索引 (图 11-3) ， 就 找 不 
到 一 个 ID 为 “22222" 的 索引 项 。 因 为 “22222" 之 前 的 最 后 一 项 是 "10101” (数字 排序 )， 于 是 我 们 循 着 
该 指针 查找 ， 然 后 按 顺 序 读 取 instructor 文件 ， 直 到 查找 到 所 需 的 记录 

考虑 一 本 (印刷 好 的 ) 字 典 。 每 页 页 眉 都 顺序 地 列 出 了 该 页 中 按 字母 序 出 现 的 第 一 个 单词 。 字 典 中 
每 页 顶部 的 单词 共同 构成 了 字典 页 内 容 的 稀疏 索引 。 

再 举 一 个 例子 ， 假 设 搜索 码 值 并 不 是 一 个 主 码 。 图 11-4 表示 为 以 dept_name 为 搜索 码 的 instructor 
文件 的 稠密 聚集 索引 。 在 这 种 情况 下 ，instruclor 文件 按照 搜索 码 dept_name 排序 ， 而 不 是 JD， 否 则 建立 
在 dept_name 上 的 索引 将 变 成 非 聚 集 索 引 。 假 设 我 们 正在 查找 历史 系 的 记录 。 利 用 图 11-4 的 稠密 索引 ， 
我 们 按照 指针 直接 找到 历史 系 的 第 一 条 记录 。 处 理 此 记录 ， 按 照 该 记录 中 的 指针 找到 按 搜 索 码 dept 
name 排序 的 下 一 条 记录 。 继 续 处 理 记录 ， 直 到 我 们 遇 到 一 条 不 是 历史 系 的 记录 。 

正如 我 们 所 看 到 的 那样 ， 利 用 稠密 索引 通常 可 以 比 稀 朴 索引 更 快 地 定位 一 条 记录 。 但 是 ， 稀 朴 索 
引 也 有 比 稠密 索引 优越 的 地 方 : 它 所 占 空间 较 小 ， 并 且 插入 和 删除 时 所 需 的 维护 开销 也 较 小 。 

系统 设计 者 必须 在 存 取 时 间 和 空间 开销 之 间 进 行 权衡 。 尽 管 有 关 这 一 权衡 的 决定 依赖 于 具体 的 应 
用 ， 但 是 为 每 个 块 建 一 个 索引 项 的 稀 玖 索引 是 一 个 较 好 的 折 中 。 原 因 在 于 ， 处 理 数据 库 查询 的 开销 主 
要 由 把 块 从 磁盘 读 到 主 存 中 的 时 间 决定 。 一 旦 将 块 放 和 人 主 存 ， 扫 描 整 个 块 的 时 间 就 是 可 以 忽略 的 。 使 
用 这 样 的 稀 朴 索引 ， 可 以 定位 包含 所 要 查找 记录 的 块 。 这样， 只 要 记录 不 在 溢出 块 ( 见 10.6.1 节 ) 中 ， 
就 能 使 块 访问 次 数 最 小 ， 同 时 能 保持 索引 尽 可 能 小 ( 因而 也 就 减少 了 空间 开销 ) 。 
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图 11-3 MARII 

要 使 上 述 技术 完全 通用 ， 必 须 考 虑 具有 相同 搜索 码 值 的 记录 跨 多 个 块 的 情况 。 可 以 很 容易 地 修改 
我 们 的 方法 使 其 能 处 理 这 样 的 情况 。 
11.2.2 多 级 索引 

假设 我 们 在 具有 1 000 000 个 元 组 的 关系 上 建立 了 稠密 索引 。 索 引 项 比 数据 记录 要 小 ， 因 此 我 们 假 
设 一 个 4KB 的 块 中 可 以 容纳 100 条 索引 项 。 这 样 ， 我 们 的 索引 需要 占用 10 000 个 块 。 假 如 该 关系 具有 
100 000 000 个 元 组 ， 那 么 索引 就 需要 占用 1 000 000 个 块 ， 即 4GB 的 空间 。 这 样 大 的 索引 以 顺序 文件 
的 方式 存储 在 磁盘 上 。 
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如 果 索 引 小 到 可 以 放 在 主 存 中 ， 搜 索 一 个 索引 项 的 时 间 就 会 很 得。 但 是 ， 如 果 索 引 过 大 而 不 能 放 在 
主 丰 中， 那么 当 需 要 时 ， 就 必须 从 磁盘 中 取 索 引 块 。( 即使 索引 比 计算 机 的 主 存 小 ， 但 内 存 还 需要 处 理 
其 他 一 些 任 务 ， 因 此 也 可 能 不 能 将 整个 索引 放置 在 内 存 中 。) 于 是 搜索 一 个 索引 项 需要 多 次 读 取 磁 盘 块 。 
可 以 在 索引 文件 上 使 用 二 分 法 搜索 来 定位 索引 项 ， 但 是 搜索 的 开销 依然 很 大 。 如 果 索 引 占据 2 个 
磁盘 块 ， 二 分 法 搜索 需要 读 取 [log (b) | 个 磁盘 块 。( [x] 表示 大 于 或 等 于 x 的 最 小 整数 ， 即 向 上 取 
整 。) 对 于 占用 10 000 个 块 的 索引 ， 二 分 法 搜索 需要 14 次 读 块 操作 。 在 读 一 个 块 平均 需要 10 毫秒 的 磁 
盘 系 统 中 ， 该 搜索 将 耗 时 140 毫秒 。 这 也 许 看 上 去 不 是 很 长 ， 但 是 一 秒 钟 内 我 们 只 能 进行 7 次 索引 搜 
索 ， 而 一 会 儿 我 们 将 会 看 到 ， 一 个 更 有 效 的 搜索 机 制 可 以 让 我 们 一 秒 钟 内 执行 更 多 次 搜索 。 请 注意 ， 
如 果 使 用 了 溢出 块 ， 那么 就 不 能 使 用 二 分 法 搜索 。 这 种 情况 下 通常 采用 顺序 搜索 ， 需 要 读 块 5 次， 这 [478 




















将 耗费 更 长 的 时 间 。 因 此 ， 搜 索 一 个 大 的 索引 可 能 是 一 个 相当 耗 时 的 过 程 。 aa 
为 了 处 理 这 个 问题 ， 我 们 像 对 待 其 他 任何 顺序 文 FT 。 = 

件 那样 对 待 索引 文件 ， 并 且 在 原始 的 内 层 索 引 上 构造 RIRO 

一 个 稀疏 的 外 层 索 引 ， 如 图 11-5 所 示 。 注 意 到 索引 项 

总 是 有 序 的 ， 这 使 得 外 层 索 引 可 以 是 稀 玻 的 。 为 了 定 | % 

位 一 条 记录 ,我 们 首先 在 外 层 索引 上 使 用 二 分 法 搜索 |: 

找到 其 最 大 搜索 码 值 小 于 或 等 于 所 需 搜索 码 值 的 记录 。 RI 














指针 指向 一 个 内 层 索 引 块 。 我 们 扫描 这 一 块 ， 直 到 找 EREI 
到 其 最 大 搜索 码 值 小 于 或 等 于 所 需 搜 索 码 值 的 记录 。 
这 条 记录 的 指针 指向 包含 所 查找 记录 的 文件 块 。 
在 该 例子 中 ， 占 用 10 000 个 块 的 内 层 索 引 需 要 外 
层 索 引 中 有 10 000 个 索引 项 ， 这 些 索引 项 仅 占 用 100 
个 块 。 如 果 我 们 假设 外 层 索 引 已 经 在 主 存 中 ,那么 当 
使 用 多 级 索引 时 ， 一 次 查询 只 需要 读 取 一 个 索引 块 ， 
而 不 像 我 们 使 用 二 分 法 搜索 时 读 取 14 个 块 。 因 此 ， 我 
们 每 秒 可 以 执行 14 次 索引 查找 。 
如 果 文 件 极 其 庞大 ， 甚 至 外 层 索引 也 可 能 大 到 不 
能 装 人 主 存 。 对 于 具有 100 000 000 个 元 组 的 关系 ， 内 
层 索 引 将 占用 1 000 000 个 块 ， 外 层 索 引 占 用 10 000 个 图 11-5 RARAS 
H, 或 者 40MB。 因 为 在 主 存 中 有 很 多 需求 ， 所 以 有 可 
能 不 能 为 这 个 特定 的 外 层 索引 而 预 留 出 如 此 多 的 主 存 。 在 这 种 情况 下 ， 可 以 创建 另 一 级 索引 。 事 实 上 ， 
可 以 根据 需要 多 次 重复 此 过 程 。 具 有 两 级 或 两 级 以 上 的 索引 称 为 多 级 (multilevel) 索 引 。 利 用 多 级 索引 
搜索 记录 与 用 二 分 法 搜索 记录 相 比 需要 的 VO 操作 要 少 得 多 °。 
































O 在 早期 的 基于 磁盘 的 索引 中 ， 每 级 索引 有 一 个 相应 的 物理 存储 单位 。 因 此 ， 我 们 可 以 在 磁道 、 柱 面 和 磁盘 级 别 
上 创建 索引 。 今 天 看 来 ， 这 样 一 个 层次 是 不 合理 的 ， 因 为 磁盘 子 系统 隐藏 了 磁盘 存储 的 物理 细节 ， 并 且 磁 盘 数 
和 每 张 磁盘 的 盘 片 数 与 柱 面 数 或 每 条 磁道 的 字 节 数 相 比 是 非常 小 的 。 
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多 级 索引 和 树 结构 紧密 相关 ， 正 如 用 于 内 存 索引 的 二 又 树 。 稍 后 将 在 11. 3 节 讨 论 这 种 关系 。 
11.2.3 索引 的 更 新 
无 论 采 用 何 种 形式 的 索引 ， 每 当 文 件 中 有 记录 插 和 人 或 删除 时 ， 索 引 都 需要 更 新 。 此 外 ， 如 果 文 件 
中 的 记录 更 新 ， 任 何 搜 索 码 属性 受 影响 的 索引 也 必须 更 新 。 例 如 ， 如 果 一 个 教师 的 系 发 生 了 变化 ， 那 
么 在 instructor 的 dept_name 属性 上 的 索引 也 必须 相应 地 更 新 。 这 样 的 记录 更 新 可 以 设计 为 对 旧 记 录 的 删 
除 ， 以 及 随后 对 新 记录 的 插入 。 因 此 ， 我 们 只 需要 考虑 索引 的 插 和 人 和 删除 ， 并 不 需要 明确 地 考虑 更 新 。 
我 们 首先 描述 单 级 索引 的 更 新 算法 。 
。 插入。 系统 首先 用 出 现在 待 插入 记录 中 的 搜索 码 值 进行 查找 ， 并 根据 索引 是 稠密 索引 还 是 稀 朴 
索引 而 进行 下 一 个 操作 。 
口 稠密 索引 : 
1. 如 果 该 搜索 码 值 不 在 索引 中 ， 系 统 就 在 索引 中 合适 的 位 置 插 入 具有 该 搜索 码 值 的 索引 项 。 
2. 否则 进行 如 下 操作 : 
a. 如 果 索 引 项 存储 的 是 指向 具有 相同 搜索 码 值 的 所 有 记录 的 指针 ， 系 统 就 在 索引 项 中 增 
加 一 个 指向 新 记录 的 指针 。 
b. 和 否则， 索引 项 存储 一 个 仅 指 向 具有 相同 搜索 码 值 的 第 一 条 记录 的 指针 ， 系 统 把 待 插入 
的 记录 放 到 具有 相同 搜索 码 值 的 其 他 记录 之 后 。 


481 O RRS: 我 们 假设 索引 为 每 个 块 保存 一 个 索引 项 。 如 果 系 统 创 建 一 个 新 的 块 ， 它 会 将 新 块 
和 5 中 出 现 的 第 一 个 搜索 码 值 (按照 搜索 码 的 顺序 ) 插入 到 索引 中 。 另 一 方面 ， 如 果 这 条 新 插入 的 
记录 含有 块 中 的 最 小 搜索 码 值 ， 那 么 系统 就 更 新 指向 该 块 的 索引 项 ; 和 否则， 系统 对 索引 不 做 
任何 改动 。 
。 删除 。 为 删除 一 条 记录 ， 系 统 首 先 查找 要 删除 的 记录 ， 然 后 下 一 步 的 操作 取决 于 索引 是 稠密 索 
SRE S|. 
O 稠密 索引 : 
1. 如 果 被 删除 的 记录 是 具有 这 个 特定 搜索 码 值 的 唯一 的 一 条 记录 ， 系 统 就 从 索引 中 删除 相 
应 的 索引 项 。 


2. 否则 采取 如 下 操作 : 

a. 如 果 索 引 项 存储 的 是 指向 所 有 具有 相同 搜索 码 值 的 记录 的 指针 ， 系 统 就 从 索引 项 中 删除 
指向 被 删除 记录 的 指针 。 

b. 否则， 索引 项 存储 的 是 指向 具有 该 搜索 码 值 的 第 一 条 记录 的 指针 。 在 这 种 情况 下 ， 如 果 
被 删除 的 记录 是 具有 该 搜索 码 值 的 第 一 条 记录 ， 系 统 就 更 新 索引 项 ， 使 其 指向 下 一 条 
记录 。 

口 RARI: 

1. 如 果 索 引 不 包含 具有 被 删除 记录 搜索 码 值 的 索引 项 ， 则 索引 不 必 做 任何 修改 。 

2. 否则 系统 采取 如 下 操作 : 

a. 如 果 被 删除 的 记录 是 具有 该 搜索 码 值 的 唯一 记录 ， 系 统 用 下 一 个 搜索 码 值 ( 按 搜索 码 顺 
序 ) 的 索引 记录 替换 相应 的 索引 记录 。 如 果 下 一 个 搜索 码 值 已 经 有 一 个 索引 项 ， 则 删除 
而 不 是 替换 该 索引 项 。 

b. 否则， 如 果 该 搜索 码 值 的 索引 记录 指向 被 删除 的 记录 ， 系 统 就 更 新 索引 项 ， 使 其 指向 
具有 相同 搜索 码 值 的 下 一 条 记录 。 

多 级 索引 的 插入 和 删除 算法 是 对 上 述 算法 的 一 个 简单 扩充 。 在 插入 和 删除 时 ， 系 统 对 底层 索引 的 
更 新 如 上 所 述 。 而 对 于 第 二 层 而 言 ， 底 层 索引 不 过 是 一 个 包含 记录 的 文件 。 因 此 ， 如 果 底 层 索 引发 生 
了 改变 ， 第 二 层 索 引 就 可 以 像 上 面 描述 的 那样 进行 更 新 。 如 果 还 有 更 高 层 的 索引 ， 可 以 采用 同样 的 技 
术 更 新 更 高 层 的 索引 。 


11. 2.4 辅助 索引 
辅助 索引 必须 是 稠密 索引 ， 对 每 个 搜索 码 值 都 有 一 个 索引 项 ， 而 且 对 文件 中 的 每 条 记录 都 有 一 个 
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指针 。 而 聚集 索引 可 以 是 稀 琉 索引 ， 可 以 只 存储 部 分 搜索 码 值 ， 因 为 正如 前 面 所 描述 的 那样 ， 通 过 顺 [483] 
序 扫描 文件 的 一 部 分 ， 我 们 总 可 以 找到 两 个 有 索引 项 的 搜索 码 值 之 间 的 搜索 码 值 所 对 应 的 记录 。 如 果 
辅助 索引 只 存储 部 分 搜索 码 值 ， 两 个 有 索引 项 的 搜索 码 值 之 间 的 搜索 码 值 所 对 应 的 记录 可 能 存在 于 文 
件 中 的 任何 地 方 ， 并 且 我 们 通常 只 能 通过 扫描 整个 文件 才能 找到 它们 。 

候选 码 上 的 辅助 索引 看 起 来 和 稠密 聚集 索引 没有 太 大 的 区 别 ， 只 不 过 索引 中 一 系列 的 连续 值 指向 
的 记录 不 是 连续 存放 的 。 然 而 ,一 般 来 说 ， 辅 助 索 引 的 结构 可 能 和 聚集 索引 不 同 。 如 果 聚 集 索 引 的 搜 
索 码 不 是 候选 码 ， 索 引 只 要 指向 具有 该 特定 搜索 码 值 的 第 一 条 记录 就 足够 了 ， 因 为 其 他 的 记录 可 以 通 
过 对 文件 进行 顺序 扫描 得 到 。 

反之 ， 如 果 辅 助 索引 的 搜索 码 不 是 一 个 候选 码 ， 仅 仅 具 有 指向 每 个 搜索 码 值 的 第 一 条 记录 的 指针 
是 不 够 的 。 具 有 同一 个 搜索 码 值 的 其 他 记录 可 能 分 布 在 文件 的 任何 地 方 ， 因 为 记录 按 上 聚集 索引 而 不 是 
辅助 索引 的 搜索 码 顺序 存放 。 因 此 ， 辅 助 索 引 必 须 包 含 指向 每 一 条 记录 的 指针 。 

我 们 可 以 用 一 个 附加 的 间接 指针 层 来 实现 非 候选 码 的 搜索 码 上 的 辅助 索引 。 在 这 样 的 辅助 索引 中 ， 
指针 并 不 直接 指向 文件 ， 而 是 指向 一 个 包含 文件 指针 的 桶 。 图 11-6 给 出 了 这 样 的 一 个 辅助 索引 结构 ， 
它 在 instructor 文件 的 搜索 码 salary 上 使 用 了 一 个 附加 的 间接 指针 层 。 
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图 11-6 instructor 文件 的 辅助 索引 ， 基 于 非 候选 码 salary 


按 聚 集 索引 顺序 对 文件 进行 顺序 扫描 是 非常 有 效 的 ， 因 为 文件 中 记录 的 物理 存储 顺序 和 索引 顺序 
一 致 。 但 是 ,我 们 不 能 (除了 极 少 数 特殊 情况 外 ) 使 存储 文件 的 物理 顺序 既 和 聚集 索引 的 搜索 码 顺序 相 
同 ， 又 和 辅助 索引 的 搜索 码 顺序 相同 。 由 于 辅助 码 的 顺序 和 物理 码 的 顺序 不 同 ， 因 此 如 果 我 们 想 要 按 辅 





助 码 的 顺序 对 文件 进行 顺序 扫描 ， 那 么 每 读 一 条 记录 都 很 可 能 需要 从 磁盘 读 人 一 个 新 的 块 ， 这 是 很 慢 的 。[484 











索引 的 自动 生成 
如 果 一 个 关系 声明 为 有 一 个 主 码 ， 大 多 数 数据 库 实 现 会 在 主 码 上 自动 创建 一 个 索引 。 只 要 一 个 
元 组 插入 到 关系 中 ， 该 索引 就 可 以 用 来 检查 没有 违反 主 码 约束 ( 即 没 有 重复 的 主 码 值 ) 。 假 如 主 码 上 
没有 索引 ， 只 要 插入 一 个 元 组 ， 整 个 关系 就 必须 被 读 取 ， 以 确保 满足 主 码 约束 。 


前 面 所 描述 的 关于 删除 和 插入 的 过 程 也 适用 于 辅助 索引 ， 所 采用 的 操作 和 为 文件 中 的 每 条 记录 存 
储 一 个 指针 的 稠密 索引 需要 的 操作 一 样 。 如 果 文 件 具 有 多 个 索引 ， 无 论 何 时 修改 文件 ， 它 的 每 个 索引 
都 必须 更 新 。 

辅助 索引 能 够 提高 使 用 聚集 索引 搜索 码 以 外 的 码 的 查询 性 能 。 但 是 ， 辅 助 索 引 显 著 增 加 了 数据 库 
更 新 的 开销 。 数 据 库 设计 者 根据 对 查询 和 更 新 相对 频率 的 估计 来 决定 哪些 辅助 索引 是 需要 的 。 
11.2.5 多 码 上 的 索引 

虽然 我 们 迄今 所 看 到 的 例子 在 搜索 码 中 只 含有 单个 属性 ， 但 一 般 来 说 一 个 搜索 码 可 以 有 多 个 属性 。 
一 个 包含 多 个 属性 的 搜索 码 称 为 复合 搜索 码 ( composite search key) 。 这 个 索引 的 结构 和 任何 其 他 索引 
一 样 ， 唯 一 不 同 的 地 方 是 搜索 码 不 是 单个 属性 ， 而 是 一 个 属性 列表 。 这 个 搜索 码 可 以 表示 为 形式 如 
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(a1，…，a,) 的 一 组 值 ， 其 中 4, ，…，4, 是 索引 属性 。 搜 索 码 值 按 字 典 序 (lexicographic ordering) 排序 。 
例如 ， 考 虑 有 两 个 属性 的 搜索 码 ， 如 果 a <b, Ka, =b, Ha <b, MCa, a) <(b,，b,)。 字 典 序 和 
单词 按 字 母 排序 基本 相同 。 

举例 来 说 ， 考 虑 takes 关系 上 的 一 个 复合 搜索 码 (course_id，semester，year)。 这 样 一 个 索引 在 查找 
所 有 特定 学 期 /年 注册 了 特定 课程 的 学 生 时 是 很 有 用 的 。 一 个 在 复合 码 上 的 有 序 索引 可 以 用 来 有 效 地 查 
找 某 些 其 他 类 型 的 查询 ， 就 像 我 们 将 在 11.5.2 节 中 见 到 的 一 样 。 


11.3 B- 树 索引 文件 


索引 顺序 文件 组 织 最 大 的 缺点 在 于 ， 随 着 文件 的 增 大 ， 索 引 查找 性 能 和 数据 顺序 扫描 性 能 都 会 下 
降 。 虽 然 这 种 性 能 下 降 可 以 通过 对 文件 进行 重新 组 织 来 弥补 ， 但 是 我 们 不 希望 频繁 地 进行 重组 。 

B 树 (B -tree) 索 引 结构 是 在 数据 插入 和 删除 的 情况 下 仍 能 保持 其 执行 效率 的 几 种 使 用 最 广泛 的 
索引 结构 之 一 。B ` 树 索引 采用 平衡 树 ( balanced tree) 结构， 其 中 树 根 到 树叶 的 每 条 路 径 的 长 度 相 同 。 
树 中 每 个 非 叶 结 点 有 [n2] ~ n 个 子女 ， 其 中 对 特定 的 树 是 固定 的 。 

我 们 将 看 到 BY 树 结构 会 增加 文件 插入 和 删除 处 理 的 性 能 开销 ， 同 时 会 增加 空间 开销 。 但 是 即使 对 
更 新 频率 较 高 的 文件 来 说 ， 这 种 开销 也 是 可 接受 的 ， 因 为 这 样 能 够 减 小 文件 重组 的 代价 。 此 外 ， 由 于 
结 点 有 可 能 是 半空 的 (如 果 它 们 具有 最 少子 结 点 数 的 话 ) ， 这 将 造成 空间 的 浪费 。 但 是 ， 考 虑 到 B 树 
所 带 来 的 性 能 提高 ， 这 种 空间 开销 也 是 可 以 接受 的 。 

11.3.1 B- 树 的 结构 

B 树 索引 是 一 种 多 级 索引 ， 但 是 其 结构 不 同 于 多 级 索引 顺序 文件 。 典 型 的 BO 树 结 点 结构 如 图 11-7 
所 示 。 它 最 多 包含 n -1 个 搜索 码 值 K，K,，…，K,_,， 以 及 nn 个 指针 Pl ，P,，…，P,。 每 个 结 点 中 的 
搜索 码 值 排序 存放 ， 因 此 ， 如 果 i <j, 那么 到 < K( 假 设 目 前 没有 重复 的 码 值 ) 。 





图 11-7 典型 的 B* 树 结 点 


我 们 首先 考察 叶 结 点 (leaf node) 的 结构 。 对 i=1，2,，…，,n 一 1， 指 针 P, 指向 具有 搜索 码 值 K, 的 
一 条 文件 记录 。 指 针 已 有 特殊 的 作用 ， 我 们 将 稍 后 讨论 。 

图 11-8 是 instructor 文件 的 B* 树 的 一 个 叶 结 点 ， 其 中 我 们 设 n 等 于 4， 搜 索 码 是 name, 

知道 了 叶 结 点 的 结构 之 后 ， 我 们 来 看 一 看 搜索 码 值 是 如 何 赋 给 特定 结 点 的 。 每 个 叶 结 点 最 多 可 有 
n 一 1 个 值 。 我 们 允许 叶 结 点 包含 的 值 的 个 数 最 少 为 [(n -1)/21。 在 B' 树 例子 中 n=4， 每 个 叶子 必须 
包含 最 少 两 个 并 且 最 多 3 个 值 。 

各 叶 结 点 中 值 的 范围 互 不 重合 ， 除 非 有 重复 的 搜索 码 值 ， 在 这 种 情况 下 ， 一 个 值 可 能 出 现在 多 个 叶 
结 点 中 。 说 明确 些 ， 如 果 L AL, 是 两 个 叶 结 点 且 i < j， 那么 L 中 的 所 有 搜索 码 值 都 小 于 或 等 于 万 中 的 
所 有 搜索 码 值 。 要 使 B ` 树 索引 成 为 稠密 索引 (通常 情况 ) ， 各 搜索 码 值 都 必须 出 现在 某 个 叶 结 点 中 。 

现在 我 们 可 以 来 解释 指针 P, 的 作用 了 。 因 为 各 叶 结 点 之 间 按 照 所 含 的 搜索 码 值 大 小 有 一 个 线性 的 顺 
序 ， 所 以 我 们 可 以 用 P, 将 叶 结 点 按 搜索 码 顺序 串 在 一 起 。 这 种 排序 可 以 对 文件 进行 高 效 的 顺序 处 理 . 

B * 树 的 非 叶 结 点 (nonleaf node) 形 成 叶 结 点 上 的 一 个 多 级 ( 稀 朴 ) 索 引 。 非 叶 结 点 的 结构 和 叶 结 点 
的 相同 ， 只 不 过 非 叶 结 点 中 所 有 的 指针 都 是 指向 树 中 结 点 的 指针 。 一 个 非 叶 结 点 可 以 容纳 最 多 个 指 
针 ， 同 时 必须 至 少 容纳 「 2 1 个 指针 。 结 点 的 指针 数 称 为 该 结 点 的 扇 出 。 非 叶 结 点 也 称 为 内 部 结 点 
(internal node) 。 

让 我 们 考虑 一 个 包含 m MEET HZ (msn). Mi=2, 3, =, m-1, 指针 忆 指向 一 棵 子 树 ， 该 
子 树 包 含 的 搜索 码 值 小 于 天 且 大 于 等 于 K,_,。 指 针 P, 指向 子 树 中 所 含 搜索 码 值 大 于 等 于 K; ,的 那 一 
部 分 ， 而 指针 P, 指向 子 树 中 所 含 搜索 码 值 小 于 K, 的 那 一 部 分 。 

根 结 点 与 其 他 非 叶 结 点 不 同 ， 它 包含 的 指针 数 可 以 小 于 「 2 1] ; 但 是 ， 除 非 整 棵 树 只 有 一 个 结 点 ， 
和 否则 根 结 点 必须 至 少 包含 两 个 指针 。 对 任意 上 ， 我 们 总 可 以 构造 满足 上 述 要 求 的 B 树 。 
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图 11-9 给 出 了 instructor 文件 (n=4) 的 一 棵 完整 的 B' 树 。 为 了 简化 起 见 ， 我 们 也 忽略 了 空 指针 。 


图 11-8 中 不 包含 箭头 的 指针 区 域 可 以 理解 为 包含 空 值 。 








图 11-10 给 出 了 instructor 文件 (n=6) 的 另 一 棵 完整 的 B 树 。 可 以 观察 到 这 棵 树 的 高 度 小 于 前 面 [487 


n =4 的 树 。 








这 些 B 树 的 例子 都 是 平衡 的 ， 即 从 根 到 叶 结 点 的 每 条 路 径 长 度 都 相同 。 对 于 B 树 来 说 这 是 一 个 
必需 的 性 质 。 实 际 上 B' 树 的 “B” 就 表示 “平衡 "(balanced ) 的 意思 。 正 是 B 树 的 这 一 平衡 属性 保证 了 


B 树 索 引 有 良好 的 查找 、 插 人 和 修改 性 能 。 
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图 11-10 instructor 文件 的 B* 树 (mm =6) 


11.3.2 B- 树 的 查询 


让 我 们 考虑 一 下 如 何 处 理 B 树 上 的 查询 。 假 设 我 们 要 找 出 搜索 码 值 为 了 的 所 有 记录 。 图 11-11 表 
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示 执 行 这 个 任务 的 函数 find( ) 的 伪 代 码 。 

直观 地 看 ， 如 果树 中 存在 指定 的 值 ， 那 么 该 函数 就 从 树 的 根 结 点 开始 ， 向 下 周游 树 直到 它 到 达 包 
含 指定 值 的 叶 结 点 。 具 体 地 说 ， 从 根 结 点 作为 当前 结 点 出 发 ， 函 数 会 重复 如 下 步骤 直到 到 达 一 个 叶 结 
点 : 首先 ， 检查 当前 结 点 ， 查 找 最 小 的 i 使 得 搜索 码 值 K, 大 于 等 于 V。 假设 找到 了 这 样 的 值 ， 如 果 K, 
等 于 V， 那 么 将 当前 结 点 置 为 由 P;,, 指 向 的 结 点 ; 而 如 果 K, 大 于 VY， 那 么 将 当前 结 点 置 为 由 忆 指向 的 
结 点 。 如 果 没 有 找到 这 样 的 K 值 ， 那 么 显然 V S Koi EP P, 是 结 点 中 的 最 后 一 个 非 空 指针 。 在 这 
个 情况 下 ， 将 当前 结 点 置 为 由 P, 指向 的 结 点 。 重 复 上 述 过 程 ， 周 游 整 棵 树 直 到 访问 叶 结 点 

在 叶 结 点 中 ， 如 果 包 含 等 于 了 的 搜索 码 值 ， 令 天 为 第 一 个 这 样 的 值 ， 则 指针 P; 指向 具有 搜索 码 
(AK, 的 记录 。 该 函数 返回 叶 结 点 二 和 索引 i. 如 果 在 叶 结 点 中 没有 找到 等 于 VY 的 搜索 码 值 ， 即 在 关系 
中 不 存在 具有 码 值 为 V 的 记录 ， 函 数 find( ) 则 返回 空 值 ， 显 示 失 败 。 

要 处 理 重复 的 搜索 码 ， 需 要 对 图 11-11 中 的 find( ) 函数 进行 修改 。 对 于 叶 结 点 和 内 部 结 点 中 重复 
的 搜索 码 ， 如 果 i<j， 则 K, <K 不 一 定 成 立 ,但 是 肯定 地 KK R mE, P, 所 指向 的 子 树 中 的 记 
录 可 能 包含 小 于 或 等 于 K; 的 值 (要 理解 为 什么 是 这 样 的 ， 请 考虑 已 和 已, 所 指向 的 ， 都 包含 一 个 重复 
的 搜索 码 值 v 的 两 个 相 邻 的 叶 结 点 ， 这 里 天 =>) 。 要 解决 这 个 问题 ， 我 们 必须 修改 find( ) 函数 中 的 循 
环 , 置 C=C.P,， 即 使 V=C. K;。 而 且 ， 由 此 达到 的 叶 结 点 C 可 能 仅 包含 小 于 V 的 搜索 码 (即使 了 在 树 
中 并 不 存在 ) ; 在 这 种 情况 下 ，find 过 程 必 须 置 C = C 的 右 兄弟 ， 并 且 再 次 检查 C 是 否 包 含 V。 我 们 把 
这 个 修改 过 的 find 过 程 称 作 findFirst， 它 返回 值 了 在 树 中 的 第 一 次 出 现 。 

如 图 11-11 所 示 的 程序 printAll 描述 如 何 检索 所 有 搜索 码 值 等 于 T 的 记录 。PprintALL 过 程 调用 
findFirst ， 去 找 出 具有 了 的 第 一 次 出 现 的 结 点 二 ， 然 后 在 结 点 也 中 遍历 其 余 的 码 ， 以 找 出 具有 搜索 码 值 了 
的 其 他 记录 。 如 果 结 点 L 至 少 包含 一 个 大 于 V 的 搜索 码 值 ， 那 么 不 存在 更 多 的 值 为 V 的 记录 。 否 则 ， 由 
指针 已, 指向 的 下 一 个 叶 结 点 有 可 能 包含 值 为 V 的 搜索 码 。 然 后 必须 搜索 由 指针 已 , 指向 的 结 点 来 进一步 
查找 具有 搜索 码 值 为 V 的 记录 。 如 果 由 P, 指向 的 结 点 的 最 大 搜索 码 也 是 了， 那么 可 能 需要 周游 更 多 叶 结 
点 ， 从 而 找到 所 有 匹配 记录 。 在 printAll( ) 中 的 repeat 循环 执行 叶 结 点 的 周游 ， 直 到 找到 所 有 匹配 记录 

一 个 实际 的 实现 可 能 提供 find( ) 的 一 个 版 本 ， 它 支持 与 JDBC ResultSet 所 提供 的 类 似 的 迭代 接口 ， 
正如 我 们 在 5. 1. 1 节 中 所 看 到 的 一 样 。 这 种 迭代 接口 可 以 提供 一 个 next( ) 方 法 ,该 方法 可 以 反复 调用 ， 
来 查找 具有 特定 搜索 码 值 的 连续 记录 。 和 printAll( ) 相 似 ，next( ) 方 法 在 叶 结 点 进行 遍历 ,但 是 每 次 调 
用 只 执行 一 步 ， 返 回 离开 前 遍历 到 的 记录 ， 这 样 连续 的 next( ) 调用 遍历 相继 的 记录 。 为 了 简单 起 见 ， 
我 们 省 略 了 细节 ， 将 迭代 接口 伪 码 作为 练习 留 给 感 兴趣 的 读者 。 

Bo 树 也 可 以 查找 所 有 搜索 码 值 在 特定 区 间 ( 工 ，D) 的 记录 。 例 如 ， 在 关系 intructor 的 属性 salary 上 
的 B' 树 中 ,我 们 查找 所 有 工资 在 特定 区 间 例 如 (50 000，100 000) ( 换 句 话说 ， 即 介 于 50 000 和 100 000 
之 间 的 所 有 工资 ) 的 所 有 instructor 记录 。 这 样 的 查找 称 作 范 围 查询 (range query ) 。 我 们 可 以 创建 一 个 
printRange(L, U) 函数 来 执行 这 样 的 查找 ， 该 函数 的 主体 和 printAll( ) 一 样 ， 除 了 以 下 不 同 : printRange 
( ) 调 用 find( L) 而 不 是 调用 find(V) ， 然 后 和 函数 printAll( ) 一 样 周游 记录 。 不 同 的 是 printRange( ) 在 满 
E L. K, > U DÆ L. K; > 了 时 停止 。 

在 处 理 一 个 查询 的 过 程 中 ,我 们 需要 遍历 树 中 从 根 到 某 个 叶 结 点 的 一 条 路 径 。 如 果 文 件 中 有 NN 个 
搜索 码 值 ， 那 么 这 条 路 径 的 长 度 不 超过 [logi,,i(N)|。 

实际 上 只 需 访 问 几 个 结 点 。 结 点 的 大 小 一 般 等 于 磁盘 块 大 小 ， 通 常 为 4KB。 如 果 搜 索 码 的 大 小 为 
12 字 节 ， 磁盘 指 针 的 大 小 为 8 FH, RA n 大 约 为 200。 即 使 采用 更 保守 的 估计 ， 假设 搜索 码 大 小 达 
到 32 字 节 , nm 也 大 约 为 100。 在 n=100 的 情况 下 ， 如 果 文 件 中 搜索 码 值 共有 1 百 万 个 ， 一 次 查找 也 只 
需要 访问 logso(1 000 000) | =4 个 结 点 。 因 此 ， 查 找 时 最 多 只 需要 从 磁盘 读 4 个 块 。 通 常 根 结 点 访问 
频繁 ， 很 可 能 在 缓冲 区 中 ， 因 此 一 般 只 要 从 磁盘 读 取 三 个 或 更 少 的 磁盘 块 。 

B * 树 结构 与 内 存 中 树 结构 ( 如 二 叉 树 ) 的 一 个 重要 的 区 别 在 于 结 点 的 大 小 及 其 造成 的 树 的 高 度 的 不 
同 。 二 叉 树 的 结 点 很 小 ， 每 个 结 点 最 多 有 两 个 指针 。 而 B* 树 的 结 点 非常 大 (一 般 是 一 个 磁盘 块 的 大 
小 ) ， 每 个 结 点 可 以 有 大 量 指针 。 因 此 ，B’ 树 一 般 胖 而 矮 ， 不 像 二 又 树 那 样 瘦 而 高 。 在 平衡 二 又 树 中 ， 
查找 路 径 的 长 度 可 达 [1log,(N) |], SPN 为 搜索 码 值 的 个 数 。 当 如 上 例 中 那样 为 1 000 000 时 ,平衡 


二 又 树 大 约 需 要 访问 20 个 结 点 。 如 果 每 个 结 点 在 不 同 的 磁盘 块 中 ， 处 理 一 次 查找 需要 读 20 个 块 ， 而 
B 树 只 须 读 4 个 块 。 区 别 是 显著 的 ， 因 为 一 次 块 读 取 可 能 要 求 一 次 磁盘 臂 寻 道 ， 而 且 一 张 典 型 的 磁盘 


上 一 次 磁盘 寻 道 的 块 读 取 需要 10 毫秒 。 
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function find( value V ) 


置 C = 根 结 点 

while C 不 是 叶 结 点 begin 
4 i= WR V<C. K, 的 最 小 值 
if 没有 这 样 的 i then begin 


#C=¢.P., 
end 

else if (V=C. K,) 

then & C=C. P,,, 

else C=C.P./* V<C.K, */ 
end 
A/*C 是 叶 结 点 */ 
设 i 是 满足 K, = V 的 最 小 值 
if 有 这 样 的 i 存在 

then 返回 (C, i) 


procedure printAll( value V) 
/* 打印 所 有 搜索 码 值 等 于 V 的 记录 */ 
置 done = false 
@(L, i) =findFirst( V) 
if( (L, i) 为 空 ) return 
repeat 


repeat 
打印 指针 L P, 指向 的 记录 
A i=itl 
until(i > L 中 码 的 数目 或 LK, >V) 
if(i > 中 码 的 数目 ) 
then L= L. P, 
else 置 done = true; 
until ( done or L 为 空 ) 





/* 假 设 没 有 重复 码 返 回 叶 结 点 CARI iE C. P, 指向 第 一 条 搜索 码 值 等 于 V 的 记录 * / 


S P, = 结 点 中 最 后 一 个 非 空 指针 


else 返回 空 /* 没有 码 值 等 于 了 的 记录 存在 */ 








图 11-11 B’* 树 上 的 查询 
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当 一 条 记录 从 关系 中 插入 或 者 删除 ， 建 立 在 该 关系 上 的 索引 必须 相应 地 更 新 。 回 想 前 面 ， 记 录 的 
更 新 操作 可 以 设计 为 对 旧 记 录 的 删除 ， 以 及 随即 对 更 新 后 记录 的 插入 。 因 此 我 们 仅 考 虑 插入 和 删除 的 


情况 即 可 。 


插入 和 删除 要 比 查 找 更 加 复杂 ， 因 为 结 点 可 能 因为 插入 而 变 得 过 大 而 需要 分 裂 ( split) 或 因为 删除 
而 变 得 过 小 (指针 数 少 于 『n/21 ) 而 需要 合并 ( coalesce)( 即 合并 结 点 )。 此 外 ， 当 一 个 结 点 分 裂 或 一 对 
结 点 合并 时 ， 我 们 必须 保证 B ` 树 能 保持 平衡 。 为 了 引入 B 树 中 人 处理 插入 和 删除 的 思想 ， 我 们 下 面 暂 
时 假设 结 点 从 来 不 会 变 得 过 大 或 过 小 。 在 这 个 假设 下 ， 插 入 和 删除 将 按 如 下 方式 进行 。 
© 插入 。 在 函数 find( )( 见 图 11-11) 中 使 用 和 查找 一 样 的 技术 ,我 们 首先 找到 搜索 码 值 将 出 现 的 叶 结 


点 。 然 后 在 叶 节 点 中 插入 一 条 新 记录 ( 即 一 对 搜索 码 值 和 记录 指针 ) ， 使 得 插入 后 搜索 码 仍然 有 序 。 


。 删除 。 使 用 和 查找 一 样 的 技术 ， 我 们 通过 查找 已 删除 记录 的 搜索 码 值 ， 找 到 包含 待 删除 项 的 叶 
结 点 ; 如 果 多 项 含有 相同 的 搜索 码 值 ， 我 们 遍历 所 有 这 些 相 同 搜索 码 值 的 项 ， 直 到 找到 指向 被 
删除 记录 的 项 。 然 后 我 们 从 叶 结 点 中 移 除 该 项 。 该 叶 结 点 中 已 删除 项 右边 的 所 有 项 左 移 一 个 位 


置 ， 以 便 在 删除 该 项 后 不 会 有 空隙 。 


现在 我 们 通过 处 理 结 点 分 裂 和 结 点 合并 ,来 考虑 插入 和 删除 的 一 般 情 况 。 


13 
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现在 我 们 考虑 结 点 必须 分 裂 的 一 个 插入 的 例子 。 假 设 我 们 需要 往 instructor 关系 中 插入 一 条 name 值 
J“ Adams” 的 记录 。 然 后 我 们 需要 往 图 11-9 所 示 的 B' 树 中 插入 一 条 值 为 *Adams” 的 项 。 按 照 查 找 算 
法 ， 我 们 发 现 “Adams”" 应 出 现在 包含 Brandt”、“ Califieri” A“ Crick” 的 页 结 点 中 。 该 页 结 点 中 已 没有 插 
ARRIE“ Adams” 所 需 的 空间 。 因 此 该 结 点 分 裂 为 两 个 结 点 。 图 11- 12 表示 在 在 插入 “ Adams” nt 
结 点 分 裂 成 两 个 叶 结 点 。 其 中 一 个 叶 结 点 的 搜索 码 值 为 “Adams" 和 “Brandt" ， 另 一 个 为 “Califieri" 和 
“Crick”。 一 般 来 说 ,我 们 将 这 n 个 搜索 码 值 ( 叶 结 点 中 原 有 的 n -1 个 值 再 加 上 新 插入 的 值 ) 分 为 两 组 ， 
AU [n/2) 个 放 在 原来 的 结 点 中 ， 剩 下 的 放 在 一 个 新 结 点 中 。 

i oe H 


? 














图 11-12 插入 “Adams” 时 叶 结 点 的 分 裂 


在 分 裂 一 个 结 点 后 ， 我 们 必须 将 新 的 叶 结 点 插入 到 B’ 树 结构 中 。 在 这 个 例子 中 ， 新 结 点 以 
“Califieri "作为 其 最 小 搜索 码 值 。 我 们 需要 将 该 搜索 码 值 插入 已 分 裂 结 点 的 父 结 点 中 - 图 11-13 中 的 B 
树 给 出 了 插入 后 的 结果 。 因 为 父 结 点 中 有 空间 容纳 插入 的 搜索 码 值 ， 所 以 可 以 直接 插入 而 无 须 分 裂 结 
点 。 若 没有 空间 ， 则 父 结 点 必须 分 裂 ， 并 需要 在 它 的 父 结 点 中 插入 一 个 项 。 在 最 坏 的 情况 下 ， 从 叶 结 
点 到 根 结 点 的 路 径 上 的 所 有 结 点 必须 分 裂 。 如 果 根 本 身 也 分 裂 了 ， 那 么 整 棵 树 的 深度 就 加 大 了 

一 个 非 叶 结 点 的 分 裂 与 叶 结 点 的 分 裂 略 有 不 同 。 图 11- 14 表示 在 图 11-13 所 示 的 树 中 插入 搜索 码 
“Lamport” 的 结果 。“ Lamport" 将 要 插入 的 叶 结 点 已 经 含有 “Gold”、“ Katz” 和 “Kim”， 因 此 叶 结 点 需要 分 
裂 。 新 的 右手 侧 结 点 从 分 裂 中 产生 ， 并 含有 搜索 码 值 “Kim” 和 “Lamport”。 一 个 (Kim，nl ) 项 必须 添加 
到 父 结 点 中 ， 其 中 nl 指向 新 的 结 点 。 然 而 ， 父 结 点 上 已 经 没有 空间 来 增加 新 的 项 ， 因 此 父 结 点 必须 要 
分 裂 。 为 此 ， 从 概念 上 父 结 点 临时 扩张 ， 新 的 项 被 添加 ， 然 后 过 满 结 点 立刻 分 裂 。 


e e 


K 11-13 4E“ Adams” ff AKI 11-9 的 B’ 树 中 


当 一 个 过 满 的 非 叶 结 点 分 裂 时 ， 和 孩子 指针 的 分 裂 介 于 原始 的 和 新 创建 的 结 点 之 间 。 在 该 例子 中 ， 
原始 结 点 保留 了 前 三 个 指针 ， 右 边 新 创建 的 结 点 包含 剩 下 的 两 个 指针 。 但 是 ， 搜 索 码 值 的 处 理 略 有 不 
同 。 位 于 移动 到 右边 结 点 的 指针 之 间 的 搜索 码 值 ( 在 该 例子 中 ， 该 值 为 "Kim”) 和 指针 一 起 移动 ， 而 位 
于 留 在 左边 的 指针 之 间 的 搜索 码 值 (在 该 例子 中 是 “Califieri” 和“ Einstein”) 依 旧 不 变 。 

但 是 ,位 于 留 在 左边 的 指针 和 移动 到 右边 结 点 的 指针 之 间 的 搜索 码 值 要 特殊 对 待 。 在 该 例子 中 ， 
搜索 码 值 “Gold” 位 于 三 个 移动 到 左边 结 点 的 指针 以 及 两 个 移动 到 右边 结 点 的 指针 之 间 。 因 此 “Gold" 值 
不 会 添加 到 任意 一 个 分 裂 结 点 中 。 相 反 ，(Gold，z2 ) 项 添加 到 父 结 点 中 ，z2 指针 指向 分 裂 产生 的 新 结 
点 。 在 本 例 中 ， 父 结 点 就 是 根 结 点 ， 并 且 有 足够 的 空间 来 插入 新 的 项 。 

往 BY 树 中 进行 插 和 人 的 一 般 技 术 是 确定 插入 发 生 的 叶 结 点 !。 如 果 产 生 分 裂 ， 则 将 新 结 点 插入 结 点 ! 的 父 
结 点 中 。 如 果 这 一 插入 导致 分 裂 ， 就 沿 着 树 向 上 递归 处 理 ， 直 到 不 再 产生 分 裂 或 创建 一 个 新 的 根 结 点 为 止 。 

11-15 列 出 了 插入 算法 的 伪 码 。insert 过 程 用 两 个 辅助 过 程 insert_in_leaf 和 insert_in_parent 将 一 
个 搜索 码 - 值 指针 对 插入 到 索引 中 。 在 伪 码 中 ,，L、N、P、7T 表示 指向 结 点 的 指针 ， 其 中 工 代表 叶 结 
Rio L K, AL. P, 分 别 表示 结 点 工 中 第 i 个 值 和 第 i 个 指针 ; T. K, A T. P, 也 可 同 理 使 用 。 伪 码 还 利用 陶 
数 parent( 入 ) 来 找 出 结 点 NN 的 父 结 点 。 在 一 开始 寻找 叶 结 点 时 ,我 们 可 以 计算 从 根 到 叶 的 路 径 上 的 结 点 
列表 ， 以 后 就 可 以 利用 它 来 高 效 地 寻找 这 条 路 径 中 任何 一 个 结 点 的 父 结 点 。 
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11-14 在 图 11-9 的 B* 树 中 插入 “Lamport” 
insert_in_parent 过 程 接收 的 参数 为 WN、K'、N', 其 中 结 点 和 已 分 裂 为 NV 和 N', K' 是 和 N' 中 最 小 的 值 。 
该 过 程 将 修改 NN 的 父 结 点 以 记录 可 能 进行 的 分 裂 。insert_into_index 和 insert_in_parent 过 程 都 用 一 块 临 
时 内 存 区 7 来 存储 即将 分 裂 的 结 点 的 内 容 。 这 些 过 程 可 以 修改 为 直接 把 被 分 裂 结 点 的 内 容 复 制 到 新 建 
结 点 中 ， 以 减少 数据 复制 的 时 间 。 然 而 ， 用 临时 内 存 区 了 可 以 简化 这 些 过 程 。 





procedure insert( value K, pointer P) 
if (WAS) 创建 一 个 空 叶 结 点 KL， 同时 它 也 是 根 结 点 
else 找到 应 该 包含 值 K 的 时 结 点 志 
if (了 所 含 搜索 码 少 于 -1 个 ) 
then insert_in_leaf (L, K, P) 
else begin /* LO AGA n-1 个 搜索 码 了 ， 分裂 L*/ 
创建 结 点 
把 LP,，…, L K, ,复制 到 可 以 存储 nn 个 (指针 ， 搜索 码 值 ) 对 的 内 存 块 7 中 
insert_in_leaf (T, K, P) 
AEP = LP e SEP, HL 


JA LPB L Pi, 0, L Ppa LK, ,, LP, 
FET. Pi, +, T. Kum 从 了 复制 到 工 中 , LAL P, 作为 开始 
FET. Kumo vt, T.K, ATEH L'H, L'I L. P, 作为 开始 


S KRI L' PR MERE 
insert_in_parent (L, K’, L’) 
end 


procedure insert_in_leaf (node L, value K, pointer P) 
if (K HE L. K, 小) 
then 把 P, KIRA LH, ZIRE L. P, 前 面 
else begin 
& K, 表示 工 中 小 于 等 于 天 的 最 大 搜索 码 值 
IEP, KALT, KIRE L K, Mi 
end 
procedure insert_in_parent (node N, value K', pointer N') 
if (N 是 树 的 根 结 点 ) 
then 在 工 中 插入 (VY, P) 
else begin 
创建 结 点 怀 包含 N、K'、N” /xN 和 N' 都 是 指针 */ 
令 R 成 为 树 的 根 结 点 
return 
end 
SP=N 的 父 结 点 
证 (P 包 含 的 指针 少 于 m 个) 
then 将 (K', N') 插 到 入 后 面 
else begin / * 分 裂 */ 
将 了 复制 到 可 以 存放 PP 以 及 (K', N') 的 内 存 块 7 中 
创建 结 点 (K', N') 插 入 7 中 ， 紧 跟 在 入 后 面 
删除 所 有 P 中 所 有 项 ; 创建 结 点 P 
FET. P, +, T. Ki 复制 到 PP 中 








Æ RK" = T. Krma 
{E T. Piima s Hy, i P, ,复制 到 P' 中 
insert_in_parent (P, K", P') 

end 





K 11-15 往 B’' 树 中 插入 索引 项 
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11.3.3.2 删除 

现在 我 们 来 考虑 使 树 结 点 中 指针 变 得 过 少 的 删除 操作 。 首 先 我 们 从 图 11-13 的 Be 树 中 删除 
“Srinivasan”。 产 生 的 B 树 见 图 11-16。 接 下 来 我 们 考虑 删除 操作 是 怎样 执行 的 。 我 们 首先 用 查找 算法 
定位 ”Srinivasan ”的 索引 项 。 当 我 们 从 叶 结 点 中 把 "Srinivasan "的 索引 项 删除 后 ， 叶 结 点 就 只 剩 下 一 个 
“Wu” 项 了 。 因 此 ， 在 该 例子 中 ， 由 于 n =4 且 1 < | -1)X2]， 因 此 要 么 将 该 结 点 同一 个 兄弟 结 点 
合并 ， 要 么 在 结 点 间 重 新 分 配 项 ， 以 此 来 保证 每 个 结 点 至 少 半 满 。 在 该 例子 中 ， 具 有 项 “Wu ”的 太空 的 
结 点 可 以 同 它 的 左边 兄弟 结 点 合并 。 我 们 可 通过 把 两 个 结 点 中 的 项 移动 到 左边 的 兄弟 结 点 中 ， 并 且 删 
除 现 有 的 空 右 兄弟 ， 从 而 合并 结 点 。 结 点 一 旦 删除 ， 就 同时 也 要 删除 父 结 点 中 指向 刚刚 删除 结 点 的 项 。 

在 该 例子 中 ，(Srinivasan，n3) 是 要 删除 的 项 ， 其 中 n3 是 指向 含有 “Srinivasan” 值 的 叶 结 点 的 指针 。 
(在 这 种 情况 下 ， 在 非 叶 结 点 中 将 要 删除 的 项 和 已 经 从 叶 结 点 中 删除 的 值 一 样 ， 当 然 ， 大 部 分 删除 情况 
不 是 这 样 的 ) 。 在 删除 上 述 项 以 后 ,含有 搜索 码 值 “ Srinivasan” 和 两 个 指针 的 父 结 点 现在 变 成 含有 一 个 
指针 ( 结 点 中 最 左边 的 指针 ) 和 没有 搜索 码 值 。 因 为 对 于 =4, 1 < 『n/21 ， 所 以 父亲 结 点 太空 。( 当 n 
较 大 时 ， 太 空 的 结 点 将 仍然 含有 一 些 值 以 及 指针 。) 

在 这 种 情况 下 ,我 们 考虑 兄弟 结 点 ， 在 该 例子 中 ,唯一 的 兄弟 结 点 就 是 包含 搜索 码 “ Califieri”、 
“Finstein” 和 “Gold” 的 非 叶 结 点 。 如 果 可 以 ,我 们 会 尝试 着 同 兄弟 结 点 合并 。 但 是 在 这 种 情况 下 ， 合 并 是 
不 可 能 的 ， 因 为 结 点 和 它 的 兄弟 结 点 一 共 拥 有 5 个 指针 ， 超 过 了 最 大 数量 4。 解 决 这 种 情况 的 方法 是 在 
该 结 点 和 兄弟 结 点 间 重 新 分 配 (redistribute ) 指 针 ， 以 便 每 个 结 点 含有 至 少 Tn/21 =2 的 孩子 指针 。 为 此 ， 
我 们 将 来 自 左 边 兄弟 结 点 (该 指针 指向 含有 “Mozart" 的 叶 结 点 ) 的 最 右边 的 指针 移动 到 太空 的 右边 兄弟 中 。 
但 是 ， 太 空 的 右边 兄弟 现在 拥有 两 个 指针 ， 即 最 左边 的 指针 和 新 移 进 来 的 指针 ， 而 且 没 有 值 将 它们 分 开 。 
事实 上 ,将 它们 分 开 的 值 不 会 在 任意 一 个 结 点 中 ， 而 是 在 父 结 点 中 ,位 于 从 父 结 点 指向 该 结 点 以 及 从 父 
结 点 指向 其 兄弟 结 点 的 指针 之 间 。 在 该 例子 中 ,“Mozart” 值 分 开 这 两 个 指针 ， 并 且 在 重新 分 配 后 位 于 右 
边 兄 弟 结 点 中 。 指 针 的 重新 分 配 也 意味 着 父 结 点 中 “Mozart” 值 不 再 正确 地 分 开 两 个 兄弟 结 点 中 的 搜索 码 
值 。 事实 上 ,现在 正确 分 开 两 个 兄弟 结 点 中 搜索 码 的 值 是 ”Gold”， 它 在 重新 分 配 之 前 在 左边 兄弟 结 点 中 。 

如 图 11-16 中 的 B 树 所 示 ， 在 重新 分 配 兄弟 结 点 的 指针 后 ,“Gold” 值 移动 到 父 结 点 中 ， 而 原先 父 
结 点 中 的 “Mozart" 值 下 移 到 右边 的 兄弟 结 点 中 。 









Nr Nr ED 








f H H E H foal feel feih 
K 11-16 从 图 11-13 所 示 B* Pi ABE“ Srinivasan” 


接 下 来 我 们 从 图 11-16 的 B'A PRR RIIE Singh” 和 “Wu”。 结 果 在 图 11-17 中 显示 。 其 中 第 
一 个 值 的 删除 不 会 使 叶 结 点 太空 ， 但 是 第 二 个 值 的 删除 会 使 叶子 结 点 太空 。 太 空 的 结 点 同 它 的 兄弟 结 
点 不 可 能 合并 ， 因 此 需要 执行 值 的 重新 分 配 ， 该 分 配 将 搜索 码 值 "Kim ”移动 到 包含 " Mozar "的 结 点 中 ， 
形成 的 树 如 图 11-17 所 示 。 在 父 结 点 中 分 开 两 个 兄弟 结 点 的 值 改 变 了 ， 从 ”Mozart" 变 成 Kim” 。 

现在 我 们 考虑 在 上 述 树 中 删除 cold”， 该 结果 在 图 11-18 中 表示 。 该 次 删除 导致 了 一 个 太空 的 叶 
结 点 ， 它 可 以 同 它 的 兄弟 结 点 合并 。 父 结 点 (包含 "Kim” 的 非 叶 结 点 ) 项 的 删除 致使 父 结 点 太空 ( 该 结 
点 仅 剩 下 一 个 指针 ) 。 这 次 父 结 点 可 以 同 它 的 兄弟 结 点 合并 。 这 次 合并 使 得 搜索 码 值 “Gold "从 父 结 点 
下 移 到 合并 结 点 中 。 作 为 合并 的 结果 ， 从 父 结 点 中 删除 一 项 ， 而 该 父 结 点 正好 是 树 的 根 结 点 。 该 次 删 
除 使 得 根 结 点 仅 剩 下 一 个 孩子 指针 ， 没 有 搜索 码 值 ， 违 反 了 根 结 点 至 少 有 两 个 孩子 的 条 件 。 因 此 ， 根 
结 点 被 删除 ， 其 唯一 的 孩子 结 点 成 为 根 结 点 ， 并 且 B’ 树 的 深度 减 1。 

值得 一 提 的 是 ， 进 行 删除 操作 后 , 在 B 树 的 非 叶 结 点 中 的 关键 码 值 可 能 在 树 的 叶 结 点 中 并 不 存 
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图 11-17 从 图 11-16 所 示 B*e PIBE" Srinivasan” #1" Wu” 


[ater [neti] Goa] 
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11-18 ”从 图 11-17 所 示 B’' 树 中 删除 “Gold” 


在 。 例 如 ， 在 图 11-18 中 ,“Gold" 值 从 叶 结 点 中 删除 ,但 是 它 仍 存在 于 非 叶 结 点 中 。 

一 般 地 ,为 了 在 B 树 中 删除 一 个 值 ， 我 们 要 查找 并 删除 该 值 。 如 果 结 点 太 小 的 话 ， 我 们 从 它 的 父 
结 点 中 把 它 删 除 。 这 个 删除 导致 删除 算法 的 递归 应 用 ， 直 到 到 达 树 的 根 结 点 。 删 除 后 父 结 点 要 保持 足 
够 满 ， 否 则 要 进行 重新 分 布 。 

图 11-19 给 出 了 对 B* 树 进行 删除 的 伪 码 。 过 程 swap_variables( N, N') 仅仅 交换 两 个 ( 指针) 变量 N 
和 NN’ 的 值 ， 交 换 对 树 本 身 毫 无 影响 。 伪 码 使 用 条 件 “ 指针/ 值 太 少 ”。 对 非 叶 结 点 ， 这 个 条 件 意 味 着 少 
于 「 "21 个 指针 ; 对 叶 结 点 ， 这 个 条 件 意味 着 少 于 | (n - 1)/2| 个 值 。 伪 码 通 过 向 相 邻 的 结 点 借 一 个 
索引 项 来 实现 重新 分 布 。 我 们 也 可 以 通过 在 两 个 结 点 间 平 分 索引 项 来 实现 重新 分 布 。 伪 码 涉 及 从 一 个 
结 点 中 删除 索引 项 (K，P)。 对 叶 结 点 而 言 ， 指 向 索引 项 的 指针 实际 上 在 码 值 前 面 ， 因 此 指针 P 在 码 值 
KK 前面。 而 对 于 非 叶 结 点 ,，P IREE V ÉS o 
11.3.4 不 唯一 的 搜索 码 

假如 一 个 关系 可 以 拥有 多 个 包含 同一 搜索 码 值 的 记录 ( 换 句 话说 ， 两 条 或 者 多 条 记录 在 索引 属性 
上 拥有 相同 的 值 ) ， 那 么 该 搜索 码 称 为 不 唯一 搜索 码 ( nonunique search key), 

不 唯一 搜索 码 的 一 个 问题 在 于 记录 删除 效率 方面 。 假 设 某 个 特殊 的 搜索 码 值 出 现 很 多 次 ， 并 且 拥 
有 该 搜索 码 值 的 一 条 记录 将 要 被 删除 。 那 么 删除 操作 可 能 会 查找 很 多 项 ， 从 而 找 出 和 该 被 删 记 录 相 对 
应 的 项 ， 该 搜索 有 可 能 遍历 多 个 叶 结 点 。 

一 种 简单 的 解决 方法 是 通过 创建 包含 原始 搜索 码 和 其 他 属性 的 复合 搜索 码 来 确保 搜索 码 唯一 ， 对 
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于 所 有 记录 ， 该 复合 搜索 码 是 唯一 的 ， 这 通常 也 被 大 多 数 数据 库 系 统 使 用 。 这 个 额外 的 属性 可 以 是 指 |496 


向 记录 的 指针 一 一 记录 号 ， 或 者 是 任何 一 个 在 拥有 相同 搜索 码 值 的 所 有 记录 中 值 唯一 的 其 他 属性 。 这 
个 额外 属性 也 称 为 唯一 化 (uniquifier) 属性 。 当 要 删除 一 条 记录 时 ， 从 记录 中 计算 复合 搜索 码 值 ， 然 后 
再 从 索引 查找 。 因 为 值 是 唯一 的 ， 所 以 相应 的 叶子 级 项 可 以 通过 根 结 点 到 叶子 结 点 的 一 次 周游 就 可 以 
找到 ， 并 且 不 需要 进一步 访问 叶子 级 。 因 此 ， 可 以 有 效 地 删除 记录 。 

当 比 较 搜索 码 值 时 ， 具 有 原始 搜索 码 值 的 查找 可 以 简单 地 忽略 唯一 化 属性 值 。 

对 于 不 唯一 搜索 码 ， 一 个 码 值 在 多 少 条 记录 中 出 现 ，B 树 结构 就 存储 该 码 值 多 少 次 。 另 外 一 种 方 
法 是 在 该 树 中 每 个 码 值 只 存储 一 次 ， 并 且 为 该 搜索 码 值 维护 一 个 记录 指针 的 桶 (或 者 列表 ) 来 解决 不 唯 
一 搜索 码 问题 。 因 为 它 只 存储 码 值 一 次 ， 所 以 这 种 方法 在 空间 上 更 有 效 ， 但 是 当 B 树 实现 时 ， 它 要 带 
来 较 多 的 复杂 性 。 如 果 在 叶 结 点 上 保存 桶 ， 需 要 额外 的 代码 来 处 理 可 变 长 的 桶 ， 并 且 处 理 当 桶 增长 到 
比 叶 结 点 还 大 的 情况 。 如 果 这 些 桶 存储 在 单独 的 块 中 ， 在 获取 记录 时 可 能 需要 额外 的 YO 操作 。 此 外 ， 
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如 果 搜 索 码 值 出 现 次 数 较 多 ， 桶 方案 也 会 带 来 记录 删除 效率 不 高 的 问题 。 
11.35 B+ 树 更 新 的 复杂 性 

尽管 B 树 的 插入 和 删除 操作 比较 复杂 ， 但 它们 需要 较 少 的 IO 操作 ， 这 很 有 价值 ， 因 为 /O 操作 
比较 费时 。 在 最 坏 情 况 下 ， 一 次 插入 的 1/0 操作 次 数 可 能 正比 于 log.,s(N) ， 其 中 是 结 点 中 指针 的 
最 大 值 ，N 是 索引 文件 中 的 记录 条 数 。 





procedure delete (value K, pointer P) 
RIES K, P) 的 叶 结 点 区 
delete_entry( L, K, P) 


procedure delete_entry( node N, value K, pointer P) 
JAN 中 删除 (K，P) 
if (N 是 根 结 点 and N 只 剩 下 一 个 子 结 点 ) 
then 使 N 的 子 结 点 成 为 该 树 的 新 的 根 结 点 并 删除 NV 
else if ( N 中 值 / 指 针 太 少 ) then begin 
S N 为 parent(N) 的 前 一 子女 或 后 一 子女 
令 天 为 parent(N) 中 指针 N 和 "之 间 的 值 
if (N 和 N' 中 的 项 能 放 在 一 个 结 点 中 ) 
then begin / * 合并 结 点 * / 
if (NV 是 NV' 的 前 一 个 结 点 ) then swap_variables( N, N') 
if (N PETHA) 
then 将 K' 以 及 N 中 所 有 指针 和 值 附加 到 N' 中 
else 将 N 中 所 有 ( 天， 已 ) 对 附加 到 N' 中 ; SNP, =N. P, | 
delete_entry (parent(N), K', N); 删除 结 点 N 
end 
else begin / * 重新 分 布 : 从 N' 借 一 个 索引 项 */ 
if ( N' 是 六 的 前 一 个 结 点 ) then begin 
if (N 是 非 叶 结 点 ) then begin 
SmE: N'. P, 是 NN' 的 最 后 一 个 指针 
从 WV' 中 去 除 (N'. Kais N' Ph) 
插入 (NN'. P,，K') 并 通过 将 其 他 指针 和 值 右 移 使 之 成 为 
N 中 的 第 一 个 指针 和 值 
用 N'. K, ,替换 parent(V) 中 的 K” 
end 
else begin 
4 m WR: (NV'. Pa, N' Ka) Æ N' 中 的 最 后 一 个 指针 / 值 对 
从 N' 中 去 除 (N'. Pas N'. Ka) 
插入 ( N'. P,，N'. K,) 并 通过 将 其 他 指针 和 值 右 移 使 之 成 为 
N 中 的 第 一 个 指针 和 值 
FAN’. K,, 替换 parent (NN) 中 的 KK 
end 
end 
else … 与 then 的 情况 对 称 … 
end 
end 








end procedure 





图 11-19 A Be 树 中 删除 索引 项 
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如 果 搜 索 码 上 没有 相同 的 值 ， 最 坏 情 况 下 删除 过 程 的 复杂 度 同 样 正比 于 logra (入 ) 。 如 果 存 在 相 
同 的 值 ， 删 除 操作 须要 在 多 个 含有 相同 搜索 码 值 的 记录 中 进行 查找 ， 直 到 找到 要 删除 的 正确 的 项 ， 这 
样 的 效率 是 较 低 的 。 但 是 ， 如 11. 3.4 节 所 述 ， 即 便 原始 搜索 码 是 不 唯一 ， 也 通过 增加 唯一 化 属性 可 以 
使 搜索 码 唯一 ， 从 而 保证 了 在 最 坏 情况 下 删除 操作 的 复杂 性 也 是 一 样 的 。 

换 句 话 说 ， 以 VO 操作 来 衡量 的 插入 和 删除 操作 的 代价 是 和 B 树 的 高 度 成 正比 的 ， 因 此 是 比较 低 
的 。B ` 树 的 操作 速度 使 得 它 在 数据 库 实 现 中 成 为 频繁 使 用 的 索引 结构 。 

在 实践 中 ，B“ 树 上 的 操作 所 导致 的 VO 操作 要 比 最 坏 边 界 少 。 假 设 扇 出 为 100， 并 且 假 设 对 叶 结 
点 的 访问 是 均匀 分 布 的 ， 那么 叶 结 点 的 父 结 点 被 访问 的 次 数 可 能 是 叶 结 点 的 100 倍 。 相 反 地 ， 对 于 相 
同 的 扇 出 , B' 树 中 所 有 非 叶 结 点 的 总 数 可 能 仅 比 叶子 结 点 的 1/100 多 一 点 。 因此， 在 现在 通常 内 存 大 
小 可 达 几 GB 的 情况 下 ， 对 于 频繁 使 用 的 B* 树 ， 即 便 关系 非常 庞大 ， 大 部 分 非 叶 结 点 在 被 访问 时 已 经 
在 数据 库 缓 冲 区 中 。 因 此 ， 一 次 查询 通常 仅 需 要 一 次 或 两 次 VO 操作 。 在 更 新 方面 ， 叶 结 点 分 裂 的 可 
能 性 比较 小 。 在 扇 出 为 100 的 情况 下 , 100 次 插入 中 仅 有 1 次 或 50 次 插入 中 仅 有 1 次 会 导致 结 点 分 裂 ， 
从 而 导致 多 个 块 被 写 入 ， 这 取决 于 插入 的 顺序 。 因 此 ， 平均 情况 下 ,一 次 插入 需要 更 新 块 的 VO 操作 
仅 比 一 次 略 多 。 

尽管 B 树 仅 保 证 了 结 点 至 少 半 满 ， 但 是 ， 如 果 项 是 以 随机 顺序 插入 ,那么 结 点 在 平均 情况 下 会 比 
2/3 更 满 。 另 一 方面 ， 如 果 项 是 以 有 序 方式 插入 ， 结 点 将 会 仅仅 半 满 。( 我 们 将 此 留 作 后 面 的 联系 ， 让 
读者 来 计算 为 什么 结 点 会 仅仅 半 满 。) 
11.4 B- 树 扩展 

本 节 讨 论 几 个 B 树 索引 结构 的 扩展 和 变种 。 
11.4.1 B- 树 文件 组 织 

在 11.3 节 中 提 到 ， 索引 顺序 文件 组 织 最 大 的 缺点 是 文件 增 大 时 性 能 下 降 : 随 着 文件 的 增 大 ， 增 加 
的 索引 记录 所 占 百 分 比 和 实际 记录 之 间 变 得 不 协调 ， 不 得 不 存储 在 溢出 块 中 。 我 们 通过 在 文件 上 使 用 
B ' 树 索引 来 解决 案 引 查找 时 性 能 下 降 的 问题 。 通 过 用 B' 树 的 叶 级 结 点 来 组 织 存 放 实 际 记录 的 磁盘 块 ， 
我 们 可 以 解决 存储 实际 记录 的 性 能 下 降 问题 。 我 们 不 仅 把 B 树 结构 作为 索引 使 用 ， 而 且 把 它 作 为 一 个 
文件 中 的 记录 的 组 织 者 。 在 B 树 文件 组 织 (B”- tree file organization) 中 ， 树 的 叶 结 点 存储 的 是 记录 而 
不 是 指向 记录 的 指针 。 图 11-20 给 出 了 一 个 B 树 文件 组 织 的 例子 。 由 于 记录 通常 比 指针 大 ， 因 此 一 个 
叶 结 点 中 能 存储 的 记录 数目 要 比 一 个 非 叶 结 点 中 能 存储 的 指针 数目 少 。 然而， 叶 结 点 仍然 要 求 至 少 是 
半 满 的 。 
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图 11-20 B- 文 件 结构 


Bo 树 文件 组 织 中 记录 的 插入 和 删除 与 B 树 索引 中 索引 项 的 插入 和 删除 的 处 理 方式 一 样 。 当 搬入 
一 条 具有 给 定 码 值 v 的 记录 时 ， 系 统 通过 在 BR PAR 小 于 等 于 v 的 最 大 码 来 定位 应 该 包含 该 记录 的 
块 。 如 果 定 位 到 的 块 有 足够 的 空间 来 存放 记录 ， 系 统 就 将 该 记录 存放 在 该 块 中 。 否 则 ， 就 像 B MN 
和 人 那样， 系统 将 该 块 分 成 两 个 ， 重 新 分 布 其 中 的 记录 ( 按 BO 树 码 值 的 顺序 ) ， 以 给 新 记录 创建 空间 。 
这 种 分 裂 以 通常 的 形式 在 B 树 中 自 底 向 上 传播 。 当 删除 一 个 记录 时 ， 系 统 首先 从 包含 它 的 块 中 将 它 删 
除 。 如 果 块 B 因此 不 到 半 满 ， 就 要 对 B 中 的 记录 和 相 邻 的 块 B' 中 的 记录 重新 分 布 。 假 定 记录 大 小 固 
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定 ， 每 个 块 包含 的 记录 数 至 少 应 是 它 所 能 包含 的 最 大 记录 数 的 一 半 。 系 统 按 照 通 常 的 方式 更 新 B' 树 的 
非 叶 结 点 。 

当 我 们 用 B’ 树 作为 文件 组 织 方 式 时 ， 空 间 的 利用 尤为 重要 ， 因 为 记录 所 占 的 空间 很 可 能 比 码 和 指 
针 所 占 的 空间 要 大 得 多 。 通 过 在 分 裂 和 合并 时 在 重新 分 布 中 涉及 更 多 的 兄弟 结 点 ， 我 们 可 以 改善 B* 树 
的 空间 利用 率 。 这 个 技术 对 叶 结 点 和 非 叶 结 点 都 可 以 用 ， 具体 方 法 如 下 所 述 : 

在 插入 时 ， 如 果 某 个 结 点 已 满 ， 系 统 就 尝试 把 它 的 一 些 项 重新 分 布 到 与 它 相 邻 的 结 点 中 ， 以 给 新 
项 腾 出 空间 。 如 果 因 为 相 邻 结 点 本 身 已 满 而 导致 这 种 尝试 失败 ， 系 统 就 要 分 裂 该 结 点 ， 并 在 一 个 相 邻 
结 点 和 分 裂 原 始 结 点 得 到 的 两 个 结 点 这 三 者 之 间 均 匀 地 分 配 所 有 的 项 。 由 于 这 三 个 结 点 总 共 包 含 的 项 
比 两 个 结 点 所 能 容纳 的 多 1 个 ,因此 每 个 结 点 大 约 为 2/3 满 的 。 更 确切 地 说 ， 每 个 结 点 至 少 有 
[2n/3] 个 项 ， 其 中 是 每 个 结 点 能 容纳 的 最 大 项 数 。( | x | 表示 小 于 或 等 于 x 的 最 大 整数 ， 也 就 是 忽 
略 它 的 小 数 部 分 (如 果 有 的 话 ) o) 

在 删除 记录 时 ， 如 果 结 点 中 的 项 数 少 于 |2n/3」， 系 统 就 试图 从 相 邻 的 结 点 借入 一 项 。 如 果 两 个 
兄弟 结 点 都 有 | 2n/3 条 记录 ， 那 么 系统 就 不 是 借入 一 项 ， 而 是 把 这 个 结 点 及 两 个 兄弟 结 点 中 的 所 有 项 
均匀 地 分 布 到 两 个 结 点 中 ， 并 删除 第 三 个 结 点 。 我 们 能 用 这 种 方法 是 因为 项 的 总 数 是 3| 2n/3」-1., È 
小 于 2n。 当 使 用 三 个 相 邻 结 点 进行 重新 分 布 时 ， 每 个 结 点 能 保证 有 | 3n/4. 个 项 。 一 般 地 ， 如 果 重 分 
布 涉及 mn 个 结 点 (m -1 个 兄弟 结 点 ) ， 每 个 结 点 能 保证 包含 至 少 | (m -1)n/m | 个 索引 项 。 然 而， 参与 
重新 分 布 的 兄弟 结 点 越 多 ， 更 新 的 代价 也 越 高 。 

注意 在 B’ 树 索引 或 B’ 树 文件 组 织 中 ， 树 中 相 邻 的 叶 结 点 可 能 分 布 在 磁盘 中 的 不 同位 置 。 当 一 个 
文件 组 织 最 初 建立 在 一 组 记录 上 的 时 候 ， 可 以 实现 把 磁盘 中 基本 连续 的 块 分 配给 树 中 连续 的 叶 结 点 。 
由 此 对 叶 结 点 的 顺序 扫描 就 相当 于 磁盘 上 几乎 是 顺序 的 扫描 。 随 着 在 树 中 不 断 进行 插入 和 删除 操作 ， 

这 种 顺序 性 逐渐 丢失 ， 对 叶 结 点 的 顺序 访问 也 需要 越 来 越 频繁 地 等 待 磁盘 寻 道 为 了 恢复 这 种 顺序 性 
也 许 需 要 对 索引 进行 重建 。 

B* 树 文件 组 织 可 以 用 于 存储 大 型 数据 对 象 ， 如 SQL clob 类 型 以 及 blob 类 型 ， 这 些 数据 对 象 可 能 比 
磁盘 块 还 大 ， 甚 至 达到 好 几 个 CEB。 这 么 大 的 数据 对 象 可 以 通过 拆 分 成 稍 小 的 记录 序列 并 组 织 成 B' 树 
文件 组 织 进 行 存储 。 拆 分 的 记录 可 以 按 序 编号 ， 或 者 根据 记录 在 大 型 对 象 中 的 字 节 偏 移 量 进 行 编号 ， 
这 样 记 录 的 编号 就 可 以 用 作 搜 索 码 。 

11.4.2 辅助 索引 和 记录 重 定位 

一 些 文件 组 织 ( 如 B’ 树 文件 组 织 ) 可 能 改变 记录 的 位 置 ， 即 使 记录 并 没有 更 新 。 举 例 来 说 ， 当 B* 
树 文件 组 织 中 的 一 个 叶 结 点 分 裂 ， 一 些 记 录 会 移动 到 新 的 结 点 中 。 在 这 种 情况 下 ， 所 有 存储 了 那些 指 
向 重 定 位 过 的 记录 的 指针 的 辅助 索引 都 必须 更 新 ， 即 使 记录 中 的 值 并 没有 改变 。 每 个 叶 结 点 可 能 包含 
相当 多 的 记录 ， 而 其 中 每 条 记录 都 可 能 在 每 个 辅助 索引 中 的 不 同位 置 。 因 此 一 个 叶 结 点 的 分 裂 可 能 需 
要 几 十 甚至 几 百 次 VO 操作 来 更 新 所 有 影响 到 的 辅助 索引 ， 导 致 这 个 操作 代价 极其 高 昂 

为 解决 这 个 问题 广泛 使 用 的 方法 如 下 。 在 辅助 索引 中 ， 不 存储 指向 被 索引 的 记录 的 指针 ， 而 是 存 
储 主 索引 搜索 码 属性 的 值 。 例 如 ， 假 设 我 们 有 一 个 建立 在 instructor 关系 的 ID 属性 上 的 主 索引 ; 还 有 一 
个 建立 在 dept_name 上 的 辅助 索引 ， 这 个 辅助 索引 中 与 每 个 系 的 名 字 存 放 在 一 起 的 是 相应 记录 中 ID 值 
构成 的 列表 ， 而 不 是 指向 这 些 记录 的 指针 。 

于 是 ， 由 于 叶 结 点 分 裂 导 致 的 记录 的 重 定位 就 不 需要 对 这 样 的 辅助 索引 进行 更 新 了 。 然 而 ， 用 辅 
助 索引 定位 一 条 记录 现在 就 需要 两 步 : 首先 用 辅助 索引 找到 主 索引 搜索 码 的 值 ， 然 后 用 主 索引 来 找到 
对 应 的 记录 。 

上 述 方法 大 大 降低 了 由 文件 重组 导致 的 索引 更 新 的 代价 ， 尽 管 它 也 增加 了 使 用 辅助 索引 访问 数据 
的 代价 。 

11.4.3 字符 串 上 的 索引 

在 字符 串 属性 上 创建 B’* 树 索引 会 引起 两 个 问题 。 第 一 个 问题 是 字符 串 是 变 长 的 。 第 二 个 问题 是 字 

符 串 可 能 会 很 长 ， 导 致 结 点 扇 出 降低 以 及 相应 地 增加 树 的 高 度 。 
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对 于 变 长 搜索 码 ， 即 使 结 点 都 是 满 的 ,不同 的 结 点 也 可 能 会 有 不 同 的 扇 出 。 如 果 一 个 结 点 已 满 ， 
则 它 必 须 分 裂 ， 也 就 是 说 这 个 结 点 已 经 没有 空间 可 以 容纳 新 的 搜索 项 ， 不 管 原 来 它 有 多 少 项 。 同 样 地 ， 
结 点 的 合并 和 重新 分 布 取决 于 结 点 中 空间 使 用 的 比例 ， 而 不 是 根据 结 点 所 能 容纳 的 最 大 项 数 。 

使 用 前 缀 压缩 ( prefix compression ) 技术 可 以 增加 结 点 的 扇 出 。 使 用 前 绥 压 缩 技术 ， 不 用 在 非 叶 结 点 
存储 整个 搜索 码 值 。 只 须 存储 每 个 搜索 码 值 的 一 个 前 级 ， 使 得 这 个 前 缀 足以 将 由 该 搜索 码 值 分 开 的 两 
棵 子 树 中 的 码 值 区 分 开 。 例 如 ， 假 如 我 们 有 一 个 建立 在 名 字 上 的 索引 ， 非 叶 结 点 的 码 值 可 以 是 名 字 的 
一 个 前 级 ; 如 果 由 搜索 码 分 开 的 两 棵 子 树 中 跟 “Silberschatz” 最 相近 的 码 值 分 别 是 ”Silas” 和 “Silver”， 则 
在 非 叶 结 点 中 存储 “Slib” 就 足够 了 ， 而 不 用 存储 全 名 “Silberschatz”。 

11.4.4 B' 树 索引 的 批量 加 载 

如 我 们 先前 看 到 的 ， 在 B* 树 中 插入 一 条 记录 需要 一 些 VO 操作， 并且 在 最 坏 情况 下 与 树 的 高 度 成 
正比 ， 这 通常 还 是 比较 小 的 ( 即便 对 于 比较 大 的 关系 ， 一 般 为 5 次 或 者 更 少 ) 。 

现在 考虑 在 大 关系 上 建立 B' 树 的 情况 。 假 设 关 系 要 比 主 存 大 很 多 ， 并 且 我 们 在 关系 上 构建 非 聚 集 
索引 ,使 得 该 索引 也 比 主 存 要 大 。 在 这 种 情况 下 ， 当 扫描 关系 并 且 往 B* 树 中 添加 项 时 ， 要 访问 的 每 个 
叶 结 点 通常 不 会 在 数据 库 缓冲 区 中 ， 因 为 项 没有 特定 的 排序 。 在 这 种 块 的 随机 访问 中 ， 每 次 在 叶 结 点 
中 添加 一 个 项 时 ， 需 要 一 次 磁盘 寻 道 来 取 回 包含 叶 结 点 的 块 。 当 另 一 个 项 添加 到 块 中 ， 该 块 有 可 能 会 
磁盘 缓冲 区 中 剔 出 ， 导 致 另 一 次 磁盘 寻 道 将 块 回 写 到 磁盘 中 。 每 次 项 的 插入 可 能 都 需要 这 样 一 次 随机 
读 和 随机 写 操作 。 

例如 ， 如 果 一 个 关系 含有 1 亿 条 记录 ， 每 次 IO 操作 需要 10 毫秒 ， 那 么 它 将 至 少 需要 100 万 秒 的 
时 间 来 创建 索引 ， 这 仅仅 是 读 叶 结 点 的 开销 ， 还 不 算 将 节点 更 新 到 磁盘 的 写 操作 开销 。 很 明显 这 时 间 
开销 非常 大 ， 相 比 ， 如 果 每 条 记录 占用 100 字 节 ， 磁 盘子 系统 可 以 以 每 秒 50MB 的 速度 传输 数据 ， 那 
么 仅 需要 200 秒 的 时 间 来 读 取 整 个 关系 。 

将 大 量 项 一 次 插入 到 索引 中 称 为 索引 的 批量 加 载 (bulk loading) 。 一 种 有 效 执行 索引 批量 加 载 的 方 
式 如 下 : 首先 ， 创 建 一 个 含有 关系 索引 项 的 临时 文件 ， 然 后 根据 构建 好 的 索引 的 搜索 码 来 排序 文件 ， 
最 后 扫描 排序 好 的 文件 并 且 将 项 插入 到 索引 中 。 目 前 存在 对 于 大 关系 的 排序 算法 ， 这 将 会 在 12. 4 节 描 
述 。 假 设 主 存 容量 够 ， 即 便 对 于 一 个 很 大 的 文件 进行 排序 ， 该 算法 需要 的 VO 代价 与 读 几 次 文件 相当 

在 将 项 插入 到 B’ 树 之 前 进行 排序 具有 明显 的 好 处 。 在 项 按 排序 进行 插入 后 ， 所 有 到 特定 叶 结 点 的 
项 将 会 连续 出 现 ， 并 且 叶 结 点 只 需要 写 出 一 次 。 如 果 B’* 树 开始 时 为 空 ， 在 批量 加 载 时 结 点 就 不 需要 从 
磁盘 中 读 取 。 因 此 ， 即 便 许多 项 要 插入 到 一 个 结 点 中 ， 每 个 叶 结 点 也 只 需要 一 次 IO 操作 。 如 果 每 个 
叶 结 点 包括 100 个 项 ， 叶 子 级 将 包括 100 万 个 结 点 ， 那 么 创建 叶 级 只 需 100 万 次 IO 操作。 如果 连续 的 
叶 结 点 被 分 配 到 连续 的 磁盘 块 上 ， 那 么 这 些 VO 操作 也 可 以 是 顺序 的 ， 并且 需 要 很 少 的 磁盘 寻 道 。 就 
当前 的 磁盘 ， 相 比 于 随机 IO 操作 的 每 块 10 毫秒 ， 大 部 分 顺序 VO 操作 估计 只 需要 每 块 1 毫秒 。 

我 们 稍 后 在 12. 4 节 中 研究 大 关系 排序 的 代价 , 但 是 粗略 地 估计 ， 通 过 在 插入 B’ 树 中 前 对 项 进行 
HEF, 索引 可 以 在 1000 秒 就 构建 好 ， 与 之 相对 比 ,采用 随机 插入 则 需要 1 000 000 秒 的 时 间 来 构建 。 

如 果 B’' 树 初始 时 是 空 的 ， 那么 就 可 以 从 叶子 级 自 底 向 上 来 快速 构建 它 ， 而 不 是 使 用 常规 的 插入 过 
程 。 在 自 底 向 上 B $4932 (bottom -up B”- tree construction) 中 ， 通 过 我 们 所 描述 的 对 项 进行 排序 后 ， 
我 们 将 排序 好 的 项 分 解 到 块 中 ， 并 保证 每 个 块 中 有 尽 可 能 多 的 项 ， 由 此 产生 的 块 形成 B' 树 的 叶 级 。 每 
个 块 中 的 最 小 值 以 及 指向 块 的 指针 用 来 构建 下 一 级 的 B' 树 项 ， 并 且 指 向 叶 块 。 更 深 一 级 的 树 可 以 类 似 
地 利用 下 层 每 个 结 点 中 的 最 小 值 来 构建 ， 直 到 创建 根 结 点 。 我 们 把 这 些 细节 留 给 读者 作为 练习 。 

在 一 个 关系 上 创建 索引 时 ， 大 多 数 数据 库 系统 实现 了 基于 项 排序 和 自 底 向 上 构建 的 有 效 技 术 ， 尽 
管 在 向 有 索引 的 关系 上 一 次 插入 一 个 元 组 时 ， 它 们 使 用 普通 的 插入 程序 。 如 果 一 次 添加 非常 多 的 元 组 
到 已 经 存在 的 关系 中 ,一 些 数据 库 系 统 会 建议 在 该 关系 上 的 索引 ( 除 主 码 上 的 索引 ) 应 该 删除 ， 并 且 在 
插入 元 组 后 重新 构建 该 索引 ,来 有 效 地 利用 批量 加 载 技 术 。 


11.4.5 B 树 索引 文件 
B 树 索引 ( B-tree index) 和 了 B+ 树 索引 相似 。 两 种 方法 的 主要 区 别 在 于 B 树 去 除了 搜索 码 值 存储 中 的 
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宛 余 。 在 图 11-13 的 BWP, 搜索 码 “ Califieri” , “Einstein” | “Gold”, “Mozart” #1“ Srinivasan” 在 非 叶 
结 点 和 叶 结 点 中 均 出 现 。 每 个 搜索 码 值 都 出 现在 某 些 叶 结 点 中 ， 有 的 还 在 非 叶 结 点 中 重复 出 现 。 

在 B 树 中 ， 搜 索 码 值 可 能 同时 出 现在 非 叶 结 点 和 叶 结 点 中 。 与 B " 树 不 同 ，B 树 只 允许 搜索 码 值 
出 现 一 次 (如 果 它 们 是 唯一 的 ) 。 图 11-21 所 示 B 树 表示 与 图 11-13 中 的 B 树 相 同 的 搜索 码 值 。 由 于 B 
树 中 的 搜索 码 不 重复 ， 因 此 可 以 用 比 相应 B* 树 索引 更 少 的 树 结 点 来 存储 索引 。 然 而 , 在 B 树 中 ,由 于 
出 现在 非 叶 结 点 中 的 搜索 码 值 不 会 出 现在 其 他 地 方 ， 因 此 我 们 将 不 得 不 在 非 叶 结 点 中 为 每 个 搜索 码 增 
加 一 个 指针 域 。 附 加 的 这 些 指 针 指向 文件 记录 或 相应 搜索 码 所 对 应 的 桶 。 

值得 注意 的 是 ， 许 多 数据 库 系 统 手 册 、 行 业 文献 文章 以 及 行业 专家 使 用 术语 B 树 来 指 代 这 里 所 述 
的 B' 树 数据 结构 。 事 实 上 ， 在 当前 的 用 法 中 这 样 定义 也 是 合理 的 ， 因 为 术语 B 树 和 B’ 树 是 同义词 。 
尽管 如 此 ， 在 这 本 书 中 我 们 使 用 B 树 和 B’ 树 原本 的 定义 ,来 避免 两 种 数据 结构 的 混淆。 


B 树叶 结 点 一 般 的 形式 如 图 11-22a 所 示 ; 非 叶 结 点 如 图 11-22b 所 示 。 叶 结 点 和 B’ 树 中 的 叶 结 点 
一 样 。 在 非 叶 结 点 中 ， 指 针 P; 与 B* 树 中 使 用 的 树 指针 一 样 ， 而 指针 B; 是 桶 或 文件 记录 的 指针 。 在 图 
11-22 的 一 般 化 的 B 树 中 ， 叶 结 点 中 有 nn -1 个 码 ， 而 非 叶 结 点 中 有 m -1 个 码 。 这 个 差异 的 出 现 是 因 
为 非 叶 结 点 必须 包含 指针 B;， 这 样 就 减少 了 这 些 结 点 所 能 容纳 的 搜索 码 个 数 。 显 然 m<n, {Am 和 nn 的 
确切 关系 依赖 于 搜索 码 和 指针 的 大 小 。 
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ae ae … 以 及 其 他 记录 -… 


图 11-21 等 价 于 图 11-13 中 B’ 树 的 B 树 


| ee eee 


a) 叶 结 点 





b) 非 叶 结 点 
图 11-22 ”典型 的 B 树 结 点 


E B 树 中 进行 一 次 查找 所 访问 的 结 点 数 取决 于 搜索 码 所 在 的 位 置 。 对 B 树 的 查找 需要 遍历 从 树 根 
到 叶 结 点 的 路 径 。 与 此 相 比 ，B 树 中 有 时 不 需 到 达 叶 结 点 就 能 找到 想 要 的 值 。 然 而 ，B 树 中 存储 在 叶 
级 的 码 大 约 n 倍 于 存储 在 非 叶 级 的 码 ， 而 n 一 般 都 相当 大 ， 因 此 较 快 找到 特定 值 的 好 处 将 会 比较 小 。 
而 且 比 起 B " 树 来 ，B 树 的 非 叶 结 点 中 存储 的 搜索 码 较 少 ， 这 一 事实 意味 着 B 树 扇 出 较 小 因而 比 相应 的 
B' 树 深度 大 。 因 此 ， 在 B 树 中 查询 某 些 搜索 码 比 B 树 中 快 ， 而 另 一 些 值 比 B 树 慢 ， 虽 然 总 的 来 说 查 
找 时 间 仍 然 与 搜索 码 数目 取 对 数 成 正比 。 

B 树 中 的 删除 更 加 复杂 。 在 B 树 中 ， 被 删除 的 项 总 是 出 现在 叶 结 点 中 。 在 B 树 中 ， 被 删除 的 项 可 能 
出 现在 非 叶 结 点 中 。 我 们 必须 从 包含 被 删除 项 的 子 树 中 选择 正确 的 值 来 作为 替代 。 具 体 来 说 ， 如 果 搜 索 
码 K, 被 删除 ， 出 现在 指针 已 ,, 指 向 的 子 树 中 的 最 小 搜索 码 必 须 移 到 原先 天 所 占用 的 字段 中 。 如 果 叶 结 
点 包含 的 项 太 少 的 话 还 需 采 取 进 一 步 的 操作 。 与 此 相 比 ，B 树 中 的 插入 只 比 B 树 中 的 插入 略 复杂 一 些 。 

B 树 在 空间 上 的 优势 对 大 的 索引 来 讲 意义 不 大 ， 通 常 不 能 抵消 我 们 已 提 到 的 那些 不 足 。 因 此 ， 许 
多 数据 库 系 统 实现 采用 B 树 数据 结构 ， 即 使 (我 们 先前 讨论 过 ) 他 们 将 此 数据 结构 称 为 B 树 。 


第 11 章 索引 与 散 列 


11.4.6 闪存 

到 目前 为 止 ， 我 们 对 于 索引 的 描述 都 是 假设 数据 是 存放 在 磁盘 上 的 。 尽 管 这 种 假设 在 大 部 分 情况 
是 真 的 ， 但 是 闪存 容量 急速 增长 ， 并 且 每 GB 的 闪存 价格 日 益 下 跌 ， 使 得 许多 应 用 中 闪存 存储 成 为 蔡 
代 磁 盘存 储 的 强大 竞争 者 。 一 个 自然 的 问题 是 ， 这 种 变化 会 怎样 影响 索引 结构 。 

闪存 存储 是 通过 块 来 组 织 的 ， 并 且 B 树 索引 结构 可 以 在 闪存 存储 中 使 用 。 这 为 索引 查询 中 加 快 访 
问 速度 带 来 的 好 处 显而易见 。 相 比 于 平均 需要 10 毫秒 来 寻 道 和 读 块 ， 闪 存 中 的 随机 块 读 取 在 微 秒 级 完 
成 。 因 此 将 比 基 于 磁盘 的 数据 查找 要 快 得 多 。 闪 存 中 最 合适 的 B“ 树 结 点 大 小 通常 要 比 磁盘 小 得 多 ， 

闪存 的 唯一 缺点 就 是 它 不 允许 物理 层 的 数据 就 地 更 新 ， 尽 管 它 可 以 在 逻辑 上 实现 。 每 次 更 新 操作 
转换 成 整个 闪存 块 的 一 次 拷贝 加 上 写 操作 ， 要 求 块 的 旧 拷 贝 随后 清除 ， 一 个 块 的 清除 需要 1 毫秒 。 针 
对 开发 可 以 降低 块 清除 次 数 的 索引 结构 的 研究 正在 进行 。 同 时 ， 标 准 的 BO 树 索 引 可 以 继续 在 闪存 存储 
中 使 用 ， 提 供 可 以 接受 的 更 新 性 能 ， 以 及 比 磁 盘存 储 更 有 效 的 查询 性 能 。 


11.5 多 码 访问 


到 现在 为 止 ， 我 们 都 隐 含 地 假设 只 使 用 建立 在 一 个 属性 上 的 一 个 索引 来 执行 关系 上 的 查询 。 但 是 
对 于 某 些 类 型 的 查询 来 说 ， 如 果 存 在 多 个 索引 则 使 用 多 个 索引 ， 或 者 使 用 建立 在 多 属性 搜索 码 上 的 索 
引 ， 这 样 比较 有 利 。 
11.5.1 使 用 多 个 单 码 索引 

假设 instructor 文件 有 两 个 索引 ， 分 别 建立 在 dept_name 和 salary 上 。 考 虑 如 下 查询 :“ 找 出 金融 系 
中 工资 为 $80 000 的 所 有 教师 。 我 们 写作 


select ID 
from instructor 
where dept_name =" Finance" and salary = 80000 


处 理 这 个 查询 可 以 有 三 种 策略 : 

1. 利用 dept_name 上 的 索引 ， 找 出 属于 金融 系 的 所 有 记录 。 检 查 每 条 记录 是 否 满足 salary = 
80 000。 

2. 利用 salary 上 的 索引 ， 找 出 所 有 工资 等 于 $80 000 的 记录 。 检 查 每 条 记录 是 否 满足 dept_name = 
" Finance" 。 

3. 利用 dept_name 上 的 索引 找 出 指向 属于 金融 系 的 记录 的 所 有 指针 。 同 样 ， 利 用 salary 上 的 索引 找 
出 指向 工资 等 于 $80 000 的 记录 的 所 有 指针 。 计 算 这 两 个 指针 集合 的 交 。 交 集中 的 那些 指针 指向 金融 
系 中 工资 等 于 $80 000 的 记录 。 

上 面 三 种 策略 中 只 有 第 三 种 利用 了 存在 的 多 个 索引 的 优势 。 然 而 ， 如 果 下 面 所 有 条 件 都 成 立 ， 即 
使 这 种 策略 也 可 能 是 很 糟糕 的 选择 : 

。 属于 金融 系 的 记录 太 多 。 

。 余额 为 $80 000 的 记录 太 多 。 

。 金融 系 中 工资 为 $80 000 的 记录 只 有 几 个。 

如 果 这 些 条 件 成 立 的 话 ， 为 了 得 到 一 个 很 小 的 结果 集 ， 我 们 必须 扫描 大 量 指针 。 一 种 称 为 位 图 索 
引 ” 的 索引 结构 在 某 些 情况 下 可 以 加 速 第 三 种 策略 中 使 用 的 集合 交 的 操作 。 位 图 索引 将 在 11.9 节 介 绍 。 
11.5.2 多 码 索 引 

这 种 情况 下 另 一 个 可 选 的 策略 是 在 复合 的 搜索 码 ( dept_name, salary) 上 建立 和 使 用 索引 ， 也 就 是 
说 ， 这 一 搜索 码 由 系 名 和 教师 工资 连接 而 成 。 

我 们 可 以 使 用 在 上 述 复合 的 搜索 码 上 的 顺序 (B 树 ) 索 引 来 高 效 地 回答 具有 如 下 形式 的 查询 : 


select /D 
from instructor 
where = dept_name = "Finance" and salary = 80000 


在 搜索 码 的 第 一 个 属性 (dept_name) 上 指定 一 个 等 值 条 件 以 及 在 搜索 码 的 第 二 个 属性 (salary) 上 指 
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定 一 个 范围 ， 这 种 形式 的 查询 也 能 高 效 地 处 理 ， 因 为 它们 对 应 于 搜索 属性 上 的 一 个 范围 查询 ， 


select /D 
from instructor 
where dept_name = "Finance" and salary < 80000 


我 们 甚至 可 以 使 用 搜索 码 ( dept_name, salary) 上 的 顺序 索引 来 高 效 回答 下 面 这 种 只 涉及 一 个 属性 
的 查询 。 
select /D 


from instructor 
where = dept_name = "Finance" 


等 值 条 件 dept_name = "Finance" 等 价 于 一 个 范围 查询 ， 该 范围 查询 的 下 界 是 (Finance，- mm ) ， 上 
界 是 (Finance，+ om ) 。 仅 在 dept_name 属性 上 的 范围 查询 也 可 以 同样 处 理 。 
然而 ， 使 用 建立 在 一 个 复合 搜索 码 上 的 顺序 索引 结构 是 有 一 定 的 缺点 的 。 作 为 示例 ,考虑 以 下 的 
查询 
select ID 


from instructor 
where dept_name < "Finance" and salary < 80000 


我 们 可 以 使 用 建立 在 搜索 码 ( dept_name, salary) 上 的 顺序 索引 来 回答 这 个 查询 : 对 于 按 字 母 顺序 
小 于 "Finance" 的 每 个 dept_name 值 ， 系 统 定位 salary 值 为 80000 的 那些 记录 。 然 而 ， 由 于 文件 中 记录 的 
顺序 ， 每 条 记录 可 能 位 于 不 同 的 磁盘 块 ， 因 此 导致 大 量 IO 操作 。 

508 这 个 查询 和 前 面 两 个 查询 的 区 别 在 于 第 一 个 属性 (dept_nrame) 上 的 条 件 是 比较 条 件 而 不 是 等 值 条 
件 。 这 个 条 件 不 能 对 应 于 搜索 码 上 的 一 个 范围 查询 。 

为 了 加 速 处 理 一 般 的 复合 搜索 码 的 查询 (可 以 有 一 个 或 多 个 比较 操作 ) ， 我 们 可 以 使 用 若干 特殊 的 
结构 。 我 们 将 在 11.9 节 中 考虑 位 图 索引 。 还 有 一 种 称 为 R 树 的 结构 也 可 用 于 这 一 目的 。R 树 是 B 树 
的 扩展 ， 用 于 处 理 在 多 个 维 上 的 索引 。 因 为 R 树 结 构 主 要 用 于 地 理 数 据 类 型 ， 所 以 我 们 将 在 第 25 章 描 
述 其 结构 。 

11.5.3 覆盖 索引 

覆盖 索引 ( covering index) 存储 一 些 属性 (但 不 是 搜索 码 属性 ) 的 值 以 及 指向 记录 的 指针 。 存 储 附加 
的 属性 值 对 于 辅助 索引 是 非常 有 用 的 ， 因 为 它们 使 我 们 仅仅 使 用 索引 就 能 够 回答 一 些 查询 ， 甚 至 不 需 
要 找到 实际 的 记录 。 

例如 ， 假 设 我 们 有 一 个 建立 在 instructor 关系 的 ID 属性 上 的 非 聚 集 索 引 。 如 果 我 们 把 salary 属性 的 
值 与 记录 指针 一 起 存储 ， 我 们 就 可 以 回答 那些 要 求 查 salary 值 (但 不 是 另 一 个 属性 dept_name ) 的 查询 而 
不 需要 访问 instructor 记录 。 

在 搜索 码 (ID, salary) 上 创建 索引 能 够 达到 同样 的 效果 ， 然 而 一 个 覆盖 索引 能 够 减 小 搜索 码 的 大 
小 ， 使 非 叶 结 点 中 有 更 大 的 扇 出 ， 从 而 潜在 地 降低 索引 的 高 度 。 


11.6 静态 散 列 


顺序 文件 组 织 的 一 个 缺点 是 我 们 必须 访问 索引 结构 来 定位 数据 ， 或 者 必须 使 用 二 分 法 搜索 ， 这 将 
导致 过 多 的 VO 操作 。 基 于 散 列 (hashing) 技 术 的 文件 组 织 使 我 们 能 够 避免 访问 索引 结构 。 散 列 也 提供 
了 一 种 构造 索引 的 方法 。 在 接 下 来 的 几 节 中 ， 我 们 将 学 习 基于 散 列 的 文件 组 织 和 索引 。 

在 对 散 列 的 描述 中 ,我 们 将 使 用 术语 桶 (bucket) 来 表示 能 存储 一 条 或 多 条 记录 的 一 个 存储 单位 。 
通常 一 个 桶 就 是 一 个 磁盘 块 ， 但 也 可 能 小 于 或 大 于 一 个 磁盘 块 。 

正规 地 说 ， 令 表示 所 有 搜索 码 值 的 集合 ,， 令 B 表示 所 有 桶 地 址 的 集合 ， 散 列 函数 (hash function) 
h 是 一 个 从 K 到 B 的 函数 。 我 们 用 h 表示 散 列 函数 。 

为 了 插入 一 条 搜索 码 为 K; 的 记录 ， 我 们 计算 h(K,)， 它 给 出 了 存放 该 记录 的 桶 的 地 址 。 我 们 目前 
假定 桶 中 有 容纳 这 条 记录 的 空间 ， 于 是 这 条 记录 就 存储 到 该 桶 中 。 

为 了 进行 一 次 基于 搜索 码 值 K; 的 查找 ， 我 们 只 需 计算 h(K;)， 然 后 搜索 具有 该 地 址 的 桶 。 假 定 两 
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个 搜索 码 K AK, 有 相同 的 散 列 值 ， 即 ACK.) =h( KK;)。 如 果 我 们 执行 对 K; 的 查找 ， 则 桶 h(K; ) 包 含 
搜索 码 值 是 K; 以 及 K 的 记录 。 因 此 ， 我 们 必须 检查 桶 中 每 条 记录 的 搜索 码 值 ， 以 确定 该 记录 是 否 是 
我 们 要 查找 的 记录 。 

删除 也 一 样 简单 。 如 果 待 删除 记录 的 搜索 码 值 是 K;， 则 计算 h(K;)， 然 后 在 相应 的 桶 中 查找 此 记 
录 并 从 中 删除 它 。 

散 列 可 以 用 于 两 个 不 同 的 目的 。 在 散 列 文 件 组 织 ( hash file organization) 中 ， 我 们 通过 计算 所 需 记 录 
搜索 码 值 上 的 一 个 函数 直接 获得 包含 该 记录 的 磁盘 块 地 址 。 在 散 列 索引 组 织 (hash index organization ) 
中 ， 我 们 把 搜索 码 以 及 与 它们 相关 联 的 指针 组 织 成 一 个 散 列 文件 结构 。 

11.6.1 散 列 函数 

最 坏 的 可 能 是 散 列 函数 把 所 有 的 搜索 码 值 映 射 到 同一 桶 中 。 这 种 函数 并 不 是 我 们 所 期 望 的 ， 因 为 
所 有 的 记录 不 得 不 存放 到 同一 个 桶 里 。 查 找 一 个 需要 的 记录 时 将 不 得 不 检查 所 有 记录 。 理 想 的 散 列 函 
数 把 存储 的 码 均 匀 地 分 布 到 所 有 桶 中 ， 使 每 个 桶 含有 相同 数目 的 记录 。 

由 于 设计 时 我 们 无 法 精确 知道 文件 中 将 存储 哪些 搜索 码 值 ， 因 此 我 们 希望 选择 一 个 把 搜索 码 值 分 
配 到 桶 中 并 且 具 有 下 列 分 布 特性 的 散 列 函数 。 

© 分 布 是 均匀 的 。 即 散 列 函数 从 所 有 可 能 的 搜索 码 值 集合 中 为 每 个 桶 分 配 同 样 数量 的 搜索 码 值 。 

。 分 布 是 随机 的 。 即 在 一 般 情 况 下 ， 不 管 搜索 码 值 实际 怎样 分 布 ， 每 个 桶 应 分 配 到 的 搜索 码 值 数 

目 几 乎 相同 。 更 确切 地 说 ， 散 列 值 不 应 与 搜索 码 的 任何 外 部 可 见 的 排序 相关 ， 例 如 按 字母 的 顺 
序 或 按 搜索 码 长 度 的 顺序 。 散 列 函 数 应 该 表现 为 随机 的 。 

HT WA EREI, RIJAL dept_name 为 搜索 码 的 instructor 文件 选择 一 个 散 列 函数 。 我 们 选择 的 
散 列 函数 不 仅 要 在 我 们 一 直 使 用 的 instructor 文件 上 具有 所 需 的 特性 ， 而 且 在 拥有 许多 系 的 大 型 大 学 中 
的 真实 的 instructor 文件 上 也 应 如 此 。 

假设 我 们 决定 使 用 26 个 桶 ， 并 且 我 们 定义 的 散 列 函数 将 首 字母 是 字母 表 中 第 i 个 字母 的 名 字 映 射 
到 第 i 个 桶 上 。 该 散 列 函 数 虽 具有 简单 这 一 优点 , 但 是 无 法 提供 均匀 分 布 ， 因 为 我 们 可 以 预见 ， 例 如 ， 
以 B 和 R 这样 的 字母 开头 的 名 字 会 比 用 Q 和 X 之 类 的 字母 开头 的 要 多 。 

现在 假设 我 们 想 要 搜索 码 salary 上 的 一 个 散 列 函数 。 假 设 最 低 工资 是 $30 000， 最 高 工资 是 
$130 000。 我 们 可 以 使 用 一 个 散 列 函数 把 这 些 值 分 成 10 个 区 间 : $30 000 ~ $40 000, $40 001 ~ 
$50 000 等 。 对 于 该 函数 ， 搜 索 码 值 的 分 布 是 均匀 的 (因为 每 个 桶 具有 相同 数目 的 不 同 salary 值 ) ， 但 不 
是 随机 的 。 然 而 ， 工 资 在 $60 001 ~ $70 000 之 间 的 记录 比 在 $30 001 ~ $40 000 之 间 的 记录 要 普遍 得 
多 。 其 结果 是 ， 记 录 的 分 布 是 不 均匀 的 ， 某 些 桶 得 到 的 记录 比 其 他 桶 多 。 如 果 该 函数 分 布 随机 ， 即 使 
搜索 码 中 有 这 种 相关 性 ， 分 布 的 随机 性 也 将 使 所 有 桶 拥有 大 致 相等 的 记录 数 ， 只 要 每 个 搜索 码 都 仅 对 
应 一 小 部 分 记录 。( 如 果 记 录 中 的 大 部 分 都 对 应 同一 个 搜索 码 ， 那 么 不 管 使 用 何 种 散 列 函数 ， 包 含 该 搜 
索 码 的 桶 都 会 比 其 他 桶 拥有 更 多 的 记录 。) 

通常 散 列 函数 在 搜索 码 中 字符 的 内 部 二 进 制 机 器 表示 上 执行 计算 。 这 种 类 型 的 一 个 简单 函数 是 先 
计算 码 中 字符 的 二 进 制 表示 的 总 和 ， 然 后 返回 该 总 和 取 桶 数目 的 模 。 

图 11-23 给 出 了 该 方案 的 一 个 应 用 ， 它 作用 于 instructor 文件 ， 具 有 8 个 桶 ， 并 假设 字母 表 中 的 第 i 
个 字母 用 整数 i 表示 。 

下 面 的 散 列 函数 是 散 列 字符 串 的 一 个 较 好 选择 。 设 * EKREN n 的 字符 串 ，s[ 引 是 字符 串 的 第 i 个 
字 节 。 散 列 函 数 如 下 定义 : 


s [O] * 310°" 4+ s[1] e 31°27 +--+ + s[n-1] 


这 个 函数 可 以 按 如 下 方式 高 效 实现 : 最 初 把 散 列 函数 值 设 为 0， 然 后 从 字符 串 的 第 一 个 字符 开始 
和 迭代， 直到 最 后 一 个 字符 为 止 ， 每 一 步 欠 代 都 把 散 列 函数 值 乘 以 31 再 加 上 下 一 个 字符 的 值 (把 字符 看 
作 整 数 ) 。 上 述 表 示 似 乎 可 以 导致 一 个 很 大 的 数 ,但 是 实际 上 计算 后 是 一 个 固定 大 小 的 正 整数 ;每 次 乘 
法 运算 和 除法 运算 自动 模 可 能 的 最 大 整数 值 加 1 后 运算 得 到 。 上 述 函 数 的 结果 再 取 桶 数目 的 模 得 到 的 
值 就 可 以 用 作 索 引 。 
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图 11-23 使 用 dept_name 作为 码 的 instructor 文件 的 散 列 组 织 


散 列 函数 的 设计 需要 认真 仔细 。 一 个 糟糕 的 散 列 函数 可 能 导致 查找 所 花费 的 时 间 与 文件 中 搜索 码 
数目 成 正比 ; 一 个 设计 良好 的 散 列 函数 一 般 情 况 下 查找 所 花费 时 间 是 一 个 ( 较 小 的 ) 常数 ， 而 与 文件 中 
搜索 码 的 个 数 无 关 。 
11.6.2 桶 溢出 处 理 
到 目前 为 止 ， 我 们 一 直 假设 ， 当 插入 一 条 记录 时 ， 记 录 映 射 到 的 桶 有 存储 记录 的 空间 。 如 果 桶 没 
有 足够 的 空间 ， 就 会 发 生 桶 溢出 ( bucket overflow) 。 桶 溢出 的 发 生 可 能 有 以 下 几 个 原因 
。 桶 不 足 。 桶 数目 (用 n 表示 ) 的 选择 必须 使 ns >n/f,, HP n, 表示 将 要 存储 的 记录 总 数 ，/. 表示 
一 个 桶 中 能 存放 的 记录 数目 。 当 然 ， 这 种 表示 是 以 在 选择 散 列 函数 时 记录 总 数 已 知 为 前 提 的 。 
© 偏 斜 。 某 些 桶 分 配 到 的 记录 比 其 他 桶 多 ， 所 以 即使 其 他 桶 仍 有 空间 ， 某 个 桶 也 仍 可 能 溢出 。 这 
种 情况 称 为 桶 偏 斜 (skew) 。 偏 斜 发 生 的 原因 有 两 个 : 
1. 多 条 记录 可 能 具有 相同 的 搜索 码 。 
2. 所 选 的 散 列 函数 可 能 会 造成 搜索 码 的 分 布 不 均 。 
为 了 减少 桶 溢出 的 可 能 性 ， 桶 的 数目 选 为 (n,/f.) * (1 + d) ， 其 中 4 是 避让 因子 ， 其 典型 值 约 为 
2。 有 一 些 空间 会 浪费 : 桶 中 大 约 20% 的 空间 是 空 的 。 但 好 处 是 减少 了 溢出 的 可 能 性 。 
尽管 分 配 的 桶 比 所 需 的 桶 多 一 些 ， 但 是 桶 溢出 还 是 可 er ee 
能 发 生 。 我 们 用 滋 出 桶 (over3ow bucket) 来 处 理 桶 溢出 问题 。 ”本 0 
如 果 一 条 记录 必须 插入 桶 b 中 ， 而 桶 b 已 满 ， 系 统 会 为 桶 。 pe 
提供 一 个 溢出 桶 ， 并 将 此 记录 插入 到 这 个 溢出 桶 中 。 如 果 “ 桶 1 H = 
溢出 桶 也 满 了 ， 系 统 会 提供 另 一 个 溢出 桶 ， 如 此 继续 下 去 。 aan 
一 个 给 定 桶 的 所 有 溢出 桶 用 一 个 链接 列表 链接 在 一 起 , gg 
图 11-24 所 示 。 使 用 这 种 链接 列表 的 溢出 处 理 称 为 溢出 链 
(overflow chaining) 。 
为 了 处 理 溢出 链 ， 我 们 需要 将 查找 算法 做 轻微 的 改动 。 福 3 
和 前 面 一 样 ， 系 统 使 用 搜索 码 上 的 散 列 函 数 来 确定 一 个 桶 
5。 同 前 面 一 样 ， 系 统 必须 检查 桶 中 的 所 有 记录 ， 看 是 否 




















图 11-24 散 列 结构 中 的 溢出 链 
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有 匹配 的 搜索 码 。 此 外 ， 如 果 桶 上 有 溢出 桶 ， 则 系统 还 要 检查 桶 4 的 所 有 溢出 桶 中 的 记录 。 

我 们 刚刚 描述 的 这 种 形式 的 散 列 结构 称 为 闭 地 址 (close addressing) ， 较 少 称 为 闭 散 列 (closed 
hashing) 。 另 一 种 方法 称 为 开 地 址 (open addressing) ， 它 的 桶 集合 是 固定 的 ， 没 有 溢出 链 。 它 与 闭 地 址 
不 同 ， 当 一 个 桶 满 了 以 后 ， 系 统 将 记录 插 人 到 初始 桶 集合 B 的 其 他 桶 中 。 一 种 策略 是 使 用 下 一 个 ( 按 
轮转 顺序 ) 有 空间 的 桶 ， 这 个 策略 称 为 线性 探查 法 (linear probing) 。 我 们 还 可 以 使 用 其 他 策略 ， 比 如 计 
算 更 多 的 散 列 函数 的 方法 。 开 地 址 曾 用 于 构造 编译 器 和 汇编 器 的 符号 表 ， 而 闭 地 址 更 适合 用 于 数据 库 
系统 。 原 因 在 于 开 地 址 中 的 删除 操作 十 分 麻烦 。 一 般 来 说 ， 编 译 器 和 汇编 器 只 是 在 符号 表 上 做 查找 和 
插入 操作 。 可 是 在 数据 库 系统 中 ， 处 理 删除 的 能 力 和 处 理 插入 一 样 重要 。 因 此 ， 开 地 址 在 数据 库 实现 
中 的 重要 性 不 大 。 

我 们 前 面 描述 的 散 列 方式 一 个 很 大 的 缺点 是 我 们 必须 在 实现 系统 时 选择 确定 的 散 列 函 数 ， 此 后 若 
被 索引 的 文件 变 大 或 缩小 ， 要 想 再 改变 它 就 不 容易 了 。 因 为 函数 尹 将 搜索 码 值 映 射 到 桶 地 址 的 固定 集 
合 B 上 ， 如 果 为 了 处 理 将 来 文件 的 增长 而 将 B 取得 较 大 就 会 浪费 空间 。 如 果 B 太 小 ， 一 个 桶 就 会 包含 
许多 具有 不 同 的 搜索 码 值 的 记录 ， 从 而 可 能 发 生 桶 溢出 。 当 文件 变 大 时 ， 性 能 就 会 受到 影响 。 稍 后 
11.7 节 将 介绍 如 何 动态 改变 桶 的 数目 和 散 列 函数 。 

11.6.3 散 列 索引 

散 列 不 仅 可 以 用 于 文件 的 组 织 ， 还 可 以 用 于 索引 结构 的 创建 。 散 列 索 引 ( hash index) 将 搜索 码 及 其 
相应 的 指针 组 织 成 散 列 文 件 结构 。 我 们 按 如 下 方法 构建 散 列 索 引 。 我 们 将 散 列 函数 作用 于 搜索 码 以 确 
定 对 应 的 桶 ， 然 后 将 此 搜索 码 以 及 相应 指针 存 人 此 桶 (或 溢出 桶 ) 中 。 图 11-25 给 出 了 instructor 文件 上 
的 一 个 辅助 散 列 索引 ， 其 搜索 码 是 D, K 11-25 中 的 散 列 函数 计算 ID 的 各 位 数字 之 和 对 8 取 模 的 结 
果 。 该 散 列 索引 有 8 个 桶 ， 每 个 桶 的 大 小 为 2( 当然 ， 现 实 中 索引 的 桶 会 大 得 多 ) 。 其 中 一 个 桶 有 三 个 
码 映射 到 它 ， 因 此 它 有 一 个 溢出 桶 。 在 这 个 例子 中 ，1D 是 instructor 的 主 码 ， 所 以 每 个 搜索 码 只 对 应 一 
个 指针 。 一 般 情况 下 ， 每 个 码 可 能 对 应 多 个 指针 。 
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图 11-25 instructor 文件 中 在 搜索 码 ID 上 的 散 列 索引 - 


291 


292 第 三 部 分 ”数据 存储 和 查询 


我 们 使 用 术语 散 列 索引 来 表示 散 列 文件 结构 ， 同 时 也 用 它 表 示 辅 助 散 列 索引 。 严 格 地 说 ， 散 列 索 
引 只 是 一 种 辅助 索引 结构 。 散 列 索引 从 来 不 需要 作为 聚集 索引 结构 来 使 用 ， 因 为 如 果 一 个 文件 自身 是 
按 散 列 组 织 的 ， 就 不 必 在 其 上 另外 建立 一 个 独立 的 索引 结构 。 不 过 ， 既 然 散 列 文件 组 织 能 像 索引 那样 
提供 对 记录 的 直接 访问 ， 我 们 不 妨 认 为 以 散 列 形 式 组 织 的 文件 上 也 有 一 个 聚集 散 列 索引 。 


11.7 动态 散 列 


正如 我 们 已 经 看 到 的 那样 ， 前 一 节 中 的 静态 散 列 技术 要 求 固定 桶 地 址 集合 B， 这 带 来 了 一 个 很 严 
重 的 问题 。 大 多 数 数据 库 都 会 随时 间 而 变 大 。 如 果 我 们 准备 为 这 样 的 数据 库 使 用 静态 散 列 ， 我 们 有 三 
种 选择 : 
1. 根据 当前 文件 大 小 选择 散 列 函数 。 这 种 选择 会 使 性 能 随 数据 库 增 大 而 下 降 。 
2. 根据 将 来 某 个 时 刻 文件 的 预计 大 小 选择 散 列 函数 。 尽 管 这 样 可 以 避免 性 能 下 降 ， 但 是 初始 时 会 
造成 相当 大 的 空间 浪费 。 
3. 随 着 文件 增 大 ， 周 期 性 地 对 散 列 结构 进行 重组 。 这 种 重组 涉及 一 系列 问题 ， 包 括 新 散 列 函数 的 
选择 ， 在 文件 中 每 条 记录 上 重新 计算 散 列 函数 ， 以 及 分 配 新 的 桶 。 重 组 是 一 个 规模 大 、 耗 时 的 操作 ， 
而 且 重组 期 间 必须 禁止 对 文件 的 访问 。 
几 种 动态 散 列 (dynamic hashing) 技术 允许 散 列 函数 动态 改变 ， 以 适应 数据 库 增 大 或 缩小 的 需要 。 
本 节 介 绍 一 种 动态 散 列 技术 ， 称 为 可 扩充 散 列 (extendable hashing) 。 文 献 注解 列 出 了 有 关 其 他 动态 散 
列 技术 的 参考 。 
11.7.1 ”数据 结构 
当 数据 库 增 大 或 缩小 时 ， 可 扩充 散 列 可 以 通过 桶 的 分 裂 或 合并 来 适应 数据 库 大 小 的 变化 。 这 样 可 
以 保持 空间 的 使 用 效率 。 此 外 ， 由 于 重组 每 次 仅 作用 于 一 个 桶 ， 因 此 所 带 来 的 性 能 开销 较 低 ， 可 以 
接受 。 
314) ”使 用 可 扩充 散 列 时 ,我们 选择 一 个 具有 均匀 性 和 随机 性 特性 的 散 列 函数 h 但是， 此 散 列 函数 产 
sis | 生 的 值 范 围 相 对 较 大 ， 是 45 位 二 进 制 整数 。 一 个 典型 的 5 值 是 32。 
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图 11-26 可 扩充 散 列 的 一 般 结 构 


我 们 并 不 为 每 一 个 散 列 值 创建 一 个 桶 。 实 际 上 ，2 ”超过 40 亿 ， 除 非 是 非常 大 的 数据 库 ， 否 则 没有 
必要 创建 这 么 多 桶 。 相 反 ， 我 们 是 在 把 记录 插入 文件 时 按 需 建 桶 的 。 开 始 时 ， 我 们 不 使 用 散 列 值 的 全 
部 b 位， 任意 时 刻 我 们 使 用 的 位 数 i 满 足 0 < i < b。 这 样 的 i 个 位 用 作 附 加 的 桶 地 址 表 中 的 偏 移 量 。i 
的 值 随 着 数据 库 大 小 的 变化 而 增 大 或 减 小 。 

图 11-26 所 示 为 一 般 的 可 扩充 散 列 结构 。 图 11-26 中 出 现在 桶 地 址 表 上 方 的 i 表明 散 列 值 h(K) 中 
有 i 位 需要 用 来 正确 地 定位 对 应 于 的 桶 。 当 然 ,， i 的 值 会 随 着 文件 增长 而 变化 。 尽 管 找 出 桶 地 址 表 中 
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的 正确 表 项 需要 i 位 ,但 几 个 连续 的 表 项 可 能 指向 同一 个 桶 。 所 有 这 样 的 表 项 有 一 个 共同 的 散 列 前 级 ， 
但 这 个 前 级 的 长 度 可 能 小 于 i。 因此， 我 们 给 每 一 个 桶 附加 一 个 整数 值 ， 用 来 表明 共同 的 散 列 前 缀 长 
度 。 在 图 11-26 中 ,与 桶 j 相 关联 的 整数 是 i。 桶 地 址 表 中 指向 桶 j 的 表 项 编号 为 

gei 


11.7.2 ”查询 和 更 新 

我 们 现在 来 看 如 何在 可 扩充 散 列 结构 上 执行 查询 、 插 入 和 删除 。 

为 了 确定 含有 搜索 码 值 K, 的 桶 的 位 置 ， 系 统 取 得 ACK,) 的 前 ;个 高 位 ， 然 后 为 这 个 位 串 查找 对 应 
的 表 项 ， 再 根据 表 项 中 的 指针 得 到 桶 的 位 置 。 

要 插入 一 条 搜索 码 值 为 K 的 记录 ， 系 统 按 上 述 相同 过 程 进行 查找 ， 最 终 定位 到 某 个 桶 一 一 假定 为 
fj. 如 果 该 桶 中 有 剩余 空间 ， 系 统 将 该 记录 插入 该 桶 即 可 ， 反之 ， 如 果 桶 /已 满 ， 系 统 必须 分 裂 这 个 
桶 并 将 该 桶 中 现 有 记录 和 新 记录 一 起 进行 重新 分 配 。 为 了 分 裂 该 柄 ， 系 统 必须 首先 根据 散 列 值 确定 是 
否 需要 增加 所 使 用 的 位 数 。 

。 如 果 i=ii， 那 么 在 桶 地 址 表 中 只 有 一 个 表 项 指向 桶 j。 所 以 系统 需要 增加 桶 地 址 表 的 大 小 ， 以 容 

纳 由 于 桶 j 分 裂 而 产生 的 两 个 桶 指针 。 为 了 达到 这 一 目的 ， 系 统考 虑 多 引入 散 列 值 中 的 一 位 。 系 
统 将 i 的 值 加 1， 从 而 使 桶 地 址 表 的 大 小 加 倍 。 这 样 ， 原 表 中 每 个 表 项 都 被 两 个 表 项 替代 ， 两 个 
表 项 都 包含 和 原始 表 项 一 样 的 指针 。 现 在 桶 地 址 表 中 有 两 个 表 项 指向 桶 j。 这 时 ， 系 统 分 配 一 个 
新 的 桶 ( 桶 z) ， 并 让 第 二 个 表 项 指向 此 新 桶 。 系 统 将 i 和 i 置 为 i。 接 下 来 ， 桶 j 中 的 各 条 记录 重 
新 散 列 ， 根 据 前 i 位 ( 记 住 i 已 加 1) 来 确定 该 记录 是 放 在 桶 j 中 还 是 放 到 新 创建 的 桶 中 。 

系统 现在 再 次 尝试 插入 该 新 记录 。 通 常 这 一 尝试 会 成 功 。 但是， 如 果 桶 j 中 原 有 的 所 有 记 
录 和 新 插入 的 记录 具有 相同 的 散 列 值 前 级 ， 该 桶 就 必须 再 次 分 裂 ， 这 是 因为 桶 j 中 的 所 有 记录 
和 新 插入 的 记录 被 分 配 到 同一 个 桶 中 。 如 果 散 列 函 数 已 经 过 仔细 挑选 ， 一 次 插入 导致 两 次 或 两 
次 以 上 分 裂 是 不 太 可 能 的 ， 除 非 大量 的 记录 具有 相同 的 搜索 码 。 如 果 桶 j 中 所 有 记录 搜索 码 值 
相同 ， 那 么 多 少 次 分 裂 也 不 能 解决 问题 。 在 这 种 情况 下 ， 采 用 溢出 桶 来 存储 记录 ， 就 像 在 静态 
散 列 中 那样 。 

。 如 果 i> ii， 那么 在 桶 地 址 表 中 有 多 个 表 项 指向 桶 j。 因 此 ， 系 统 不 需要 扩大 桶 地 址 表 就 能 分 列 
桶 j。 我 们 发 现 指向 桶 j 的 所 有 表 项 的 索引 前 级 的 最 左 i 位 相同 。 系 统 分 配 一 个 新 桶 ( 桶 z) ， 将 
i Al i, 置 为 原 i; 加 1 后 得 到 的 值 。 接 下 来 系统 需要 调整 桶 地 址 表 中 原来 指向 桶 j 的 表 项 。( 注 
意 ,由 于 i 有 了 新 的 值 ， 并 非 所 有 表 项 的 散 列 前 缀 的 最 左 i 位 都 相同 。) 系统 让 这 些 表 项 的 前 一 
半 保 持原 样 (指向 桶 j) ， 而 使 后 一 半 指 向 新 创建 的 桶 ( 桶 z) 。 然 后 就 像 上 一 种 情况 那样 ， 桶 j 中 
的 各 条 记录 被 重新 散 列 ， 分 配 到 桶 / 或 新 桶 z 中 。 

此 时 ， 系 统 重新 尝试 插入 记录 。 失 败 的 可 能 性 微乎其微 ， 如 果 失 败 ， 则 根据 情况 是 i=i 还 
是 i> i 继续 做 相应 的 处 理 。 
注意 ， 在 这 两 种 情况 下 ， 系 统 都 只 需要 在 桶 j 的 记录 上 重新 计算 散 列 函数 。 

要 删除 一 条 搜索 码 值 为 K, 的 记录 ， 系 统 可 以 按 前 面 的 查找 过 程 找到 相应 的 桶 ， 不 妨 设 为 桶 j。 系 
统 不 仅 要 把 搜索 码 从 桶 中 删除 ， 还 要 把 记录 从 文件 中 删除 。 如 果 这 时 桶 成 为 空 的， 那么 桶 也 需要 删除 。 
注意 ， 此 时 某 些 桶 可 能 合并 ， 桶 地 址 表 的 大 小 也 可 能 减 半 。 决 定 哪些 桶 可 以 合并 以 及 如 何 合并 这 些 桶 
的 过 程 留 作 习 题 。 桶 地 址 表 的 大 小 在 何 种 条 件 下 可 以 减 小 也 留 作 习题 。 与 桶 的 合并 不 同 ， 若 桶 地 址 表 
很 大 ， 则 改变 该 表 的 大 小 是 一 个 开销 相当 大 的 操作 。 因 此 只 有 当 桶 数目 减少 很 多 时 ， 减 小 桶 地 址 表 的 
大 小 才 是 值得 的 。 

为 了 说 明 插入 操作 ， 我 们 使 用 图 11-1 中 的 instructor 文件 并 假设 搜索 码 为 dept_name， 散 列 值 有 32 位 ， 
如 图 11-27 所 示 。 假 设 该 文件 开始 时 是 空 的 ， 如 图 11-28 所 示 。 一 条 一 条 地 插入 记录 。 为 了 用 一 个 很 小 的 结 
构 演示 可 扩充 散 列 的 所 有 特性 ， 我 们 需要 做 一 个 不 实际 的 假设 : 一 个 桶 只 能 容纳 两 条 记录 

插入 记录 (10101， Srinivasan, Comp. Sei. ，65000) 。 桶 地 址 表 包 含 一 个 指向 桶 的 指针 ， 系 统 插 人 该 
条 记录 。 接 着 ， 我 们 插入 记录 (12121，Wu，Finance, 90000) 。 系 统 也 把 这 条 记录 放 到 对 应 结构 中 的 一 
个 桶 里 。 
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当 试图 插入 下 一 条 记录 (15151，Mozart，Music, 40000) 时 ， 我 们 发 现 桶 已 经 满 了 。 由 于 i=i。， 因 此 
需要 增加 所 使 用 的 散 列 值 中 的 位 数 。 现 在 我 们 使 用 1 位 ， 人 允许 有 2 =2 个 桶 。 这 一 位 数 的 增加 使 桶 地 
址 表 的 大 小 必须 加 倍 ， 增 加 到 有 两 个 表 项 。 系 统 分 裂 桶 ， 在 新 桶 中 放置 那些 搜索 码 的 散 列 值 以 1 开始 
的 记录 ， 而 将 其 余 的 记录 留 在 原来 的 桶 中 。 图 11-29 给 出 了 该 结构 在 分 裂 后 的 状态 。 
dept_name A(dept_name) 


Biology 0010 1101 1111 1011 0010 1100 0011 0000 
Comp. Sci. 1111 0001 0010 0100 1001 0011 0110 1101 
Elec. Eng. 0100 0011 1010 1100 1100 0110 1101 1111 











Finance 1010 0011 1010 0000 1100 0110 1001 1111 
History 1100 0111 1110 1101 1011 1111 0011 1010 
Music 0011 0101 1010 0110 1100 1001 1110 1011 
Physics 1001 1000 0011 1111 1001 1100 0000 0001 





图 11-27 dept_name 的 散 列 函数 


桶 地 址 表 桶 1 
图 11-28 ”初始 的 可 扩充 散 列 结构 


i Maas lds 


桶 地 址 表 
a 
Finance | 90000 





mawa | 
图 11-29 3 次 插入 操作 后 的 散 列 结构 


接 下 来 ， 插 人 (22222 Einstein, Physics, 95000), H F h( Physics) 的 第 一 位 是 1， 因 此 必须 将 该 记 
录 插 入 桶 地 址 表 中 表 项 1” 指向 的 桶 。 我 们 又 一 次 发 现 桶 满 了 并 且 i =i,。 我 们 将 使 用 的 散 列 值 位 数 二 
加 到 2。 这 一 位 数 增加 使 桶 地 址 表 的 大 小 必须 加 倍 ， 增 加 到 有 4 个 表 项 ， 如 图 11- 30 所 示 。 由 于 
图 11-29 中 散 列 前 缀 为 0 的 桶 并 未 分 裂 ， 因 此 桶 地 址 表 中 00 和 01 表 项 都 指向 该 桶 。 
对 于 图 11-29 中 散 列 前 组 为 1 的 桶 (正在 分 裂 的 桶 ) 中 的 每 一 条 记录 ， 系 统 检查 其 散 列 值 中 的 前 两 
位 ， 决 定 在 新 结构 的 哪 一 个 桶 中 存放 它 。 
前 列 前 缀 








[| 
sisi[Movart [Music [40000] 
12121) Wu Finance | 90000 

福地 址 表 [2222 Einstein | Physics [95000] 


10101] Srinivasan|Comp. Sci 65000 | 
ihe culver ae ty wan 


AL 11-30 4 次 插入 操作 后 的 散 列 结构 
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接 下 来 ,我 们 插入 (32343 ,El Said, History, 60000) ， 它 进入 Comp. Sci. 所 在 的 同一 个 桶 。 然 后 又 
tf A (33456, Gold, Physics, 87000) ， 这 导致 了 桶 溢出 ， 引 起 位 数 增加 和 桶 地 址 表 的 大 小 加 倍 ( 如 图 


11-31 所 示 ) 。 


15151| Mozart | Music | 40000 
Boh Saale nae ee 


22272] Einstein | Physics [95000 | 
33456| Gold | Physics _ | 87000 | 


221 Finance 
Hs mL eT aa 


10101 | Srinivasan|Comp. Sci.| 65000] 
[32343] El Said [History _ | 60000| 
图 11-31 6 次 插入 操作 后 的 散 列 结构 
(45565, Katz, Comp. Sei. , 75000) 的 插入 引起 另 一 次 溢出 。 但 是 ， 这 次 溢出 不 必用 增加 位 数 来 解 
决 了 ， 因 为 该 桶 有 两 个 指向 它 的 指针 (如 图 11-32 所 示 ) 。 


O] 
fiis] | ee [aoo 
beee | | 


散 列 前 组 



















12121| Wu Finance | 90000 | 











[3 | 

32343 
| 

[3 | 

10101 

45565 [Katz | Comp. Sci. | 75000_ 


图 11-32 7 次 插入 操作 后 的 散 列 结构 


接 下 来 插入 “Califieri”、“Singh”、“Crick” 的 记录 ， 它 们 不 会 带 来 桶 溢出 。 但 是 , 第 三 条 Comp. Sci. 
记录 (83821 ，Brandt，Comp. Sci. , 92000) 的 插入 会 导致 另外 的 溢出 。 这 种 溢出 不 能 通过 增加 位 数 来 解 
决 ， 因 为 有 三 条 记录 具有 相同 的 散 列 值 。 因 此 系统 使 用 一 个 溢出 桶 ， 如 11-33 所 示 。 我 们 继续 按 这 种 
方法 进行 ,直到 插入 图 11-1 中 的 所 有 instructor 记录 为 止 。 产 生 的 结构 如 图 11-34 所 示 。 
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图 11-34 文件 instructor 的 可 扩充 散 列 结构 
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11.7.3 静态 散 列 与 动态 散 列 比较 

现在 让 我 们 来 看 一 看 可 扩充 散 列 相 对 静态 散 列 的 优 缺点 。 可 扩充 散 列 最 主要 的 优点 是 其 性 能 不 随 
文件 的 增长 而 降低 。 此 外 ， 其 空间 开销 是 最 小 的 。 尽 管 桶 地 址 表 带 来 了 额外 的 开销 ， 但 该 表 为 当前 前 
级 长 度 的 每 个 散 列 值 存放 一 个 指针 ， 因 此 该 表 较 小 。 可 扩充 散 列 与 其 他 散 列 形式 相 比 ， 主 要 的 空间 节 
省 是 不 必 为 将 来 的 增长 保留 桶 ; 桶 的 分 配 是 动态 的 。 

可 扩充 散 列 的 一 个 缺点 在 于 查找 涉及 一 个 附加 的 间接 层 ， 因 为 系统 在 访问 桶 本 身 之 前 必须 先 访问 
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桶 地 址 表 。 这 一 额外 的 访问 只 对 性 能 有 一 个 微小 的 影响 。 尽 管 11. 6 节 讨 论 的 散 列 结构 没有 这 一 额外 的 |51 


间接 层 ， 但 当 它们 变 满 后 就 失去 了 这 个 微小 的 性 能 优势 。 

因而 ， 可 扩充 散 列 看 来 是 一 种 非常 吸引 人 的 技术 ， 只 要 我 们 愿意 接受 在 实现 它 时 增加 的 复杂 性 。 
关于 可 扩充 散 列 实 现 更 详细 的 资料 见 文献 注解 。 

文献 注解 同时 也 提供 了 另 一 种 动态 散 列 形式 一 一 线性 散 列 ( linear hashing) 的 参考 ， 这 一 方法 以 可 
能 有 更 多 溢出 桶 的 代价 为 前 提 ， 避 免 了 与 可 扩充 散 列 相关 联 的 额外 的 间接 层 。 


11.8 顺序 索引 和 散 列 的 比较 


我 们 已 经 看 到 了 一 些 顺 序 索 引 方案 和 散 列 方案 。 可 以 用 索引 顺序 组 织 或 B' 树 组 织 将 记录 文件 组 织 
成 顺序 文件 。 另 外 ， 也 可 以 用 散 列 来 组 织 文 件 。 最 后 ， 可 以 将 它们 组 织 成 堆 文件 ， 其 中 的 记录 不 以 任 
何 特定 方式 排序 。 

各 种 方案 在 一 定 条 件 下 各 有 其 优点 。 数 据 库 系 统 的 实现 者 可 提供 多 种 方案 ， 而 将 使 用 哪 种 方案 的 最 后 
决定 权 留 给 数据 库 设 计 者 。 但 是 ， 这 种 方法 需要 实现 者 写 更 多 的 代码 ， 加 大 了 系统 的 成 本 和 系统 所 占用 的 空 
间 。 大 多 数 数据 库 系统 支持 B' 树 索 引 ， 并且 有 可 能 还 额外 支持 某 种 形式 的 散 列 文件 组 织 或 散 列 索引 。 

要 对 关系 的 文件 组 织 和 索引 技术 做 出 明智 的 选择 ， 实 现 者 或 数据 库 设 计 者 必须 考虑 以 下 问题 : 

。 索引 或 散 列 组 织 的 周期 性 重组 代价 是 否 可 接受 ? 

© 插入 和 删除 的 相对 频率 如 何 ? 

。 是 否 愿意 以 增加 最 坏 情况 下 的 访问 时 间 为 代价 优化 平均 访问 时 间 ? 

© 用 户 可 能 提出 哪些 类 型 的 查询 ? 

我 们 已 经 考虑 了 前 三 个 问题 ， 首 先 在 我 们 回顾 具体 索引 技术 的 相对 优点 时 ， 然 后 在 我 们 讨论 散 列 
技术 时 。 第 4 个 问题 一 一 预期 的 查询 类 型 一 一 不 管 对 选择 顺序 索引 还 是 散 列 都 至 关 重 要 。 

如 果 大 多 数 查 询 形 如 








select A, Az; “> A, 
from r 
where A, =c; 





那么 ， 为 了 处 理 该 查询 ， 系 统 将 在 一 个 顺序 索引 或 散 列 结构 中 为 属性 A, 查找 值 c<。 对 于 这 种 形式 的 查 


询 ， 散 列 的 方案 更 可 取 。 顺 序 索引 的 查找 所 需 时 间 与 关系 > 中 4; 值 的 个 数 的 对 数 成 正比 。 但 在 散 列 结 
构 中 ， 平 均 查 找 时 间 是 一 个 与 数据 库 大 小 无 关 的 常数 。 对 于 这 种 形式 的 查询 ， 非 散 列 的 索引 结构 的 唯 
一 优点 是 最 坏 情况 下 的 查找 时 间 和 关系 > 中 A, 值 的 个 数 的 对 数 成 正比 ， 而 用 散 列 时 ， 最 坏 情况 下 所 需 
的 查找 时 间 和 关系 中 4; 值 的 个 数 成 正比 。 但 是 ， 用 散 列 时 最 坏 查 找 发 生 的 可 能 性 极 小 ， 因 而 在 这 种 
情况 下 散 列 更 可 取 。 
顺序 索引 技术 在 指出 了 一 个 值 范 围 的 查询 中 比 散 列 更 可 取 。 这 样 的 查询 有 如 下 形式 : 
select A,, Aj, =, A, 
from r 
where A, <c, and A, =c, 
换 名 话说， 这 一 查询 要 找 出 4; 的 值 在 c, ~c, 之 间 的 所 有 记录 。 
让 我 们 考虑 如 何 用 顺序 索引 处 理 该 查询 。 首 先 查找 值 c, 。 一 旦 找到 值 c, 的 桶 ， 就 可 以 顺 着 索引 中 
的 指针 链 顺序 读 取 下 一 个 桶 ， 如 此 继续 下 去 直到 到 达 c,。 
如 果 我 们 不 用 顺序 索引 而 用 散 列 结构 ， 我 们 查找 c, 并 确定 其 对 应 的 桶 ， 但 一 般 来 说 ， 决 定 下 一 个 
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必须 检查 的 桶 并 不 容易 ， 因 为 好 的 散 列 函数 总 是 将 值 随机 地 分 散 到 各 桶 中 。 因 而 没有 一 个 简单 的 概念 
能 够 表示 “ 按 顺 序 排序 的 下 一 个 桶 ” 。 我 们 不 能 将 桶 按 4; 的 大 小 顺序 串 在 一 起 的 原因 是 每 个 桶 都 分 配 了 
许多 搜索 码 值 。 既 然 值 由 散 列 函数 随机 地 散布 ， 在 一 定 范围 内 的 值 就 很 可 能 散布 在 很 多 甚至 全 部 桶 中 。 
因而 ， 为 了 找到 所 需 搜索 码 ， 我 们 不 得 不 读 取 所 有 的 桶 。 

通常 设计 者 会 使 用 顺序 索引 ， 除 非 他 预先 知道 将 来 不 会 频繁 使 用 范围 查询 ， 在 这 种 情况 下 使 用 散 
列 。 散 列 组 织 对 于 在 查询 执行 过 程 中 创建 的 临时 文件 来 说 特别 有 用 ， 如 果 需 要 基于 码 值 查找 并 且 不 执 
行 范 围 查询 。 
11.9 位 图 索引 


位 图 索引 是 一 种 为 多 码 上 的 简单 查询 设计 的 特殊 索引 ， 尽 管 每 个 位 图 索引 都 是 建立 在 一 个 码 之 
上 的 。 

为 了 使 用 位 图 索引 ， 关 系 中 的 记录 必须 按 顺 序 编号 ， 比 如 说 从 0 开始 。 对 于 给 定 的 一 个 nn 值 ， 必 
须 能 很 简单 地 检索 到 编号 为 半 的 记录 。 如 果 记 录 是 大 小 固定 的 ， 而 且 位 于 文件 的 连续 块 上 ， 则 实现 这 
一 点 就 更 容易 了 。 然 后 ， 该 记录 号 就 可 以 很 简单 地 转化 为 一 个 块 编 号 和 一 个 指出 块 内 记录 的 记录 号 。 

考虑 一 个 关系 r， 它 有 一 个 属性 4 只 能 取 很 少 的 一 些 数值 (例如 ,2 ~ 20) 。 例 如 ， 关 系 instructor_ 
info 可 能 有 一 个 属性 gender， 它 只 能 取 m( 男 ) 和 f( 女 ) 值 。 另 一 个 例子 是 属性 income_level， 此 处 收入 分 
成 5 级 : Ll: $0~9999, 12: $10 000 ~ 19 999, £3: $20 000 ~39 999, IA: $40 000 ~74 999, L5; 
$75 000 ~ % 。 在 这 里 ， 原 始 数据 可 以 取 很 多 数值 ， 但 是 数据 分 析 者 将 这 些 数值 划分 成 少数 几 个 区 间 
以 简化 数据 分 析 。 
11.9.1 位 图 索引 结构 

位 图 (bitmap) 就 是 位 的 一 个 简单 数组 。 在 其 最 简单 的 形式 中 ,关系 7 的 属性 4 上 的 位 图 索引 
(bitmap index) 是 由 4 能 取 的 每 个 值 建立 的 位 图 构成 的 。 每 个 位 图 都 有 和 关系 中 的 记录 数 相等 数目 的 
位 。 如 果 编 号 为 i 的 记录 在 属性 4 LEA v, MEA v 的 位 图 中 的 第 i 个 位 设置 为 1， 而 该 位 图 上 的 
其 他 所 有 位 设置 为 0。 

在 该 例子 中 ， 对 值 m 和 f 都 分 别 有 一 个 位 图 。 如 果 号 码 为 i 的 记录 的 gender (Am, W m 的 位 图 
中 的 第 i 位 设置 为 1， 而 m 的 位 图 中 的 其 他 位 设置 为 0。 类 似 地 , f 位 图 中 等 于 1 的 位 对 应 于 属性 gender 
的 值 为 了 的 记录 ， 而 其 他 位 都 为 0。 图 11-35 表示 了 关系 instructor_info 上 的 位 图 索引 的 例子 。 

我 们 现在 考虑 什么 时 候 使 用 位 图 索引 是 有 利 的 。 用 属性 值 为 m( 或 者 有 ) 来 检索 所 有 记录 ， 最 简单 的 
办 法 就 是 读 取 关系 中 的 所 有 记录 ， 再 选择 其 中 值 为 m( 或 者 有) 的 记录 。 在 这 样 的 办 法 中 ,位 图 索引 实际 
上 并 不 能 加 快 检索 速度 。 尽 管 它 可 以 让 我 们 只 读 取 某 个 特定 性 别 的 记录 ,但 是 很 有 可 能 文件 的 所 有 块 
都 需要 被 读 取 到 。 





























gender 的 位 图 income_level 
的 位 图 
m 10010 
E1 10100 
f | oo 
L2 01000 
L3 00001 | 
L4 00010 
Bs. | 00000 | 


K| 11-35 关系 instructor_info 上 的 位 图 索引 


事实 上 ， 位 图 索引 主要 在 对 多 个 码 上 的 选择 操作 有 用 。 假 设 如 前 所 述 ， 除 了 gender 上 的 位 图 索引 
之 外 ， 还 创建 了 属性 income_level 上 的 位 图 索引 。 
现在 考虑 一 个 选择 收入 在 $10 000 ~ $19 999 之 间 的 女性 的 查询 。 这 个 查询 可 以 表示 成 为 
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select ` 
from r 
where gender = 'f' and income level = ‘12’; 


为 了 计算 这 个 选择 ， 我 们 取 属 性 gender 值 为 f 的 位 图 和 属性 income_level 值 为 L2 的 位 图 ， 然 后 执行 
两 个 位 图 的 交 (intersection ) 操作 (逻辑 与 ) 。 换 句 话 说， 我 们 计算 出 了 一 个 新 的 位 图 ， 如 果 前 面 两 个 位 
图 的 第 i 位 值 都 为 1， 则 这 个 新 位 图 的 第 i 位 值 为 1; 否则 ,为 0。 在 图 11-35 的 例子 中 ，gender 的 位 图 = 
f(01101) 和 income_level 的 位 图 =L2(01000) 的 交 得 到 位 图 01000, 

因为 第 一 个 属性 可 以 取 两 个 值 ， 第 二 个 属性 可 以 取 5 个 值 ， 所 以 我 们 认为 ， 平均 10 条 记录 中 只 有 一 
条 记录 能 满足 两 个 属性 上 的 组 合 条 件 。 如 果 有 更 多 的 条 件 ， 则 满足 所 有 条 件 的 记录 在 所 有 记录 中 所 占 的 
比例 可 能 就 很 小 了 。 这 样 ， 系 统 可 通过 在 交 操 作 以 后 的 位 图 中 找 出 值 为 1 的 所 有 位 ， 然 后 检索 相应 的 记 
录 来 计算 出 查询 结果 。 如 果 满 足 条 件 的 记录 所 占 比 例 很 大 ， 则 扫描 整个 关系 将 是 代价 更 低 的 一 种 选择 。 

位 图 的 另 一 个 重要 应 用 就 是 统计 满足 所 给 选择 条 件 的 元 组 数 。 这 样 的 检索 对 于 数据 分 析 很 重要 。 
例如 ， 我 们 希望 找到 有 多 少女 性 的 收入 水 平 为 乙 ， 我 们 计算 两 个 位 图 的 交 ， 然 后 统计 交 操 作 后 得 到 的 
位 图 中 值 为 1 的 位 的 数目 。 这 样 我 们 甚至 可 以 在 不 需要 访问 关系 的 条 件 下 从 位 图 索引 得 到 需要 的 结果 。 

和 实际 关系 大 小 相 比 ， 位 图 索引 通常 比较 小 。 典 型 的 记录 至 少 是 几 十 或 几 百 字 节 长 ， 然 而 在 位 图 
中 一 位 就 可 以 代表 一 条 记录 。 这 样 ， 单 个 位 图 占用 的 空间 通常 少 于 关系 所 占 空间 的 1% 。 例 如 ， 如 果 
一 个 给 定 关系 的 记录 长 度 为 100 字 节 ， 那 么 单个 位 图 所 占 空 间 将 是 整个 关系 所 占 空 间 的 1% 的 1/8。 如 
果 关 系 的 属性 4 可 以 取 8 AE, AREA 上 的 位 图 索引 将 包含 8 个 位 图 ,这 8 个 位 图 一 起 仅 占 用 该 
关系 大 小 的 1%。 

删除 记录 会 在 顺序 排列 的 记录 之 间 产 生 间 际 ， 因 为 移动 记录 (或 者 记录 号 ) 来 填充 间隙 需要 极 大 的 
代价 。 为 了 识别 被 删除 的 记录 ， 我 们 可 以 存储 一 个 存在 位 图 ( existence bitmap) ， 在 该 位 图 中 如 果 第 i 位 
的 值 为 0， 表示 记录 i 不 存在 ,否则 为 1。 我 们 将 在 11.9. 2 节 了 解 存在 位 图 的 必要 性 。 记 录 的 插 人 不 应 
该 影响 到 其 他 记录 的 顺序 编号 。 因 此 ， 我 们 可 以 通过 在 文件 的 末尾 添加 记录 或 者 替换 被 删除 的 记录 来 
完成 插入 操作 。 

11. 9.2 位 图 操作 的 高 效 实现 

我 们 可 以 简单 地 用 一 个 for 循环 来 计算 两 个 位 图 的 交 : 第 i 个 循环 计算 两 个 位 图 的 第 i 位 的 与 
(and)。 我 们 可 以 通过 大 多 数 计算 机 指令 集 支持 的 位 模式 and 指令 来 显著 加 快 交 操 作 运 算 速 度 。 根 据 
不 同 的 计算 机 体系 结构 ， 一 个 字 ( word) 通 常 有 32 或 64 位 。 位 模式 and 指令 以 两 个 字 作 为 输入 ， 输 出 
一 个 字 ， 该 字 的 每 一 个 位 是 输入 的 两 个 字 对 应 位 的 与 (and) 。 值 得 重点 注意 的 是 ， 位 模式 and 指令 唱 
以 用 一 次 运算 得 到 32 位 或 者 64 位 的 交 。 

如 果 一 个 关系 有 100 万 条 记录 ， 每 个 位 图 将 包含 100 万 个 位 ， 相 当 于 128KB。 假设 字 长 是 32 位 的 ， 
则 为 计算 该 例子 中 的 两 个 位 图 的 交 ， 只 需要 31 250 条 指令 。 因 此 ， 位 图 的 交 运 算 就 相当 快 。 

正如 位 图 的 交 运 算 可 用 于 计算 两 个 条 件 的 与 (and) ， 位 图 的 并 可 用 来 计算 两 个 条 件 的 或 (or) 。 位 
图 并 的 过 程 和 位 图 与 的 过 程 十 分 相似 ， 不同 之 处 在 于 ， 我 们 用 位 模式 or 指令 代替 位 模式 and 指令 。 

补 码 操作 可 用 于 计算 对 某 个 条 件 取 反 的 断言 ， 例 如 mot(income_level =L1)。 位 图 的 补 码 可 以 用 位 图 
中 每 一 位 的 补 码 来 产生 (1 的 补 码 是 0, 0 的 补 码 是 1)。 看 起 来 ,我 们 好 像 可 以 通过 计算 收入 等 级 为 L 
的 位 图 的 补 码 来 实现 not(income_level = L1), 但是， 如 果 一 些 记 录 已 经 删除 了 ， 那 么 仅仅 计算 位 图 的 补 
码 是 不 够 的 。 与 删除 记录 相对 应 的 位 在 原 位 图 中 为 0， 但 在 补 码 中 将 为 1， 而 实际 上 该 记录 已 经 不 存在 
了 。 当 属性 值 为 空 (null) 的 时 候 ， 也 会 出 现 同样 的 问题 。 例 如 ， 如 果 income_level 的 值 为 空 ， 在 原来 的 
位 图 中 , (AL) 对 应 的 位 的 值 为 0， 而 在 补 码 位 图 中 为 1。 

为 了 确保 对 应 于 被 删除 记录 的 位 在 结果 中 设置 为 0,， 补 码 位 图 必须 和 存在 位 图 进行 交 操 作 使 
得 已 删除 记录 对 应 的 位 为 0。 类 似 地 ， 处 理 空 值 时 ， 补 码 位 图 也 必须 和 空 值 (null) 的 补 码 位 图 进行 
交 操 作 。 S 





加 ”处理 诸如 is unknown 之 类 的 断言 会 导致 更 多 麻烦 ， 这 通常 需要 使 用 为 一 个 位 图 来 跟踪 未 知 的 操作 结果 。 
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可 以 通过 一 个 巧妙 的 技术 ， 使 计算 位 图 中 值 为 1 的 位 的 数目 变 得 很 快 。 可 以 维护 一 个 具有 256 个 
项 的 数组 ， 其 中 第 i 个 项 存储 i 的 二 进 制 表示 中 值 为 1 的 位 的 个 数 。 开 始 时 设置 总 计数 值 为 0。 我 们 取 
得 位 图 中 的 每 一 个 字 节 ， 将 它 作 为 数组 的 下 标 ， 然 后 将 其 中 存储 的 值 加 到 总 计数 值 上 。 加 操作 的 数目 

将 是 整个 元 组 数 的 /8 ， 因 此 该 计数 过 程 是 很 有 效 的 。 一 个 大 的 数组 ( 使 用 2”= 65536 个 项 ) 用 多 个 字 
节 来 做 数组 下 标 ， 将 会 得 到 更 高 的 加 速 比 ， 但 是 需要 更 大 的 存储 开销 ， 
11.9.3 位 图 和 B- 树 

对 于 一 些 属性 值 经 常 出 现 ， 而 另外 一 些 属性 值 虽然 也 出 现 ， 但 出 现 频率 很 小 的 关系 ， 位 图 可 以 和 
一 般 的 B 树 索 引 组 合 起 来 使 用 。 在 B 树 索引 的 叶 结 点 中 ， 对 于 每 个 值 ， 我 们 通常 保留 以 这 个 值 为 索 
引 属性 值 的 所 有 记录 的 列表 。 列 表 的 每 个 元 素 可 以 是 记录 的 标识 符 ， 至 少 有 32 位 ， 而 通常 会 更 多 。 对 
于 一 个 在 许多 记录 中 都 出 现 的 值 ， 我 们 存储 一 个 位 图 而 不 是 记录 的 列表 。 

假设 一 个 特殊 的 值 v 在 1/16 的 关系 记录 中 出 现 。 令 N 为 关系 中 的 记录 数目 ， 并 假设 每 条 记录 有 一 
个 64 位 的 号 来 标识 它 。 位 图 仅 需要 1 位 来 表示 每 条 记录 ， 总 共 需 要 N 位 。 相 对 而 言 ， 在 值 出 现 的 地 
方 ， 列 表 需 要 64 位 来 表示 每 条 记录 ， 即 总 共 64 * N/16 =4N 位 。 因 此 ， 我们 更 倾向 于 使 用 位 图 来 表示 
值 v 的 记录 列表 。 在 该 例子 (使 用 64 位 记录 标识 ) 中 ， 如 果 少 于 1/64 的 记录 具有 相同 的 值 ， 对 于 标识 
具有 这 种 特殊 值 的 记录 而 言 ， 则 更 倾向 于 使 用 列表 表示 ， 因 为 它 比 位 图 表示 使 用 更 少 的 位 。 如 果 多 于 
1/64 的 记录 具有 相同 的 值 ， 则 倾向 于 使 用 位 图 表示 。 

因此 ， 对 于 经 常 出 现 的 那些 值 ， 我 们 可 以 在 B* 树 的 叶 结 点 中 使 用 位 图 来 作为 一 种 压缩 存储 机 制 。 


11.10 SQL 中 的 索引 定义 


SQL 标准 并 未 为 数据 库 用 户 或 管理 员 提 供 任 何在 数据 库 系统 中 控制 创建 和 维护 何 种 索引 的 方法 
由 于 索引 是 元 余 的 数据 结构 ， 因 此 索引 对 保证 正确 性 来 说 并 不 是 必需 的 。 但 是 ， 索 引 对 事务 的 高 效 处 
理 十 分 重要 ， 既 包括 更 新 事务 又 包括 查询 。 索 引 对 完整 性 约束 的 有 效 实施 也 很 重要 。 

原则 上 ， 数 据 库 系统 可 以 自动 决定 创建 何 种 索引 。 但 是 ， 由 于 索引 的 空间 代价 和 索引 对 更 新 操作 
的 影响 ， 在 维护 何 种 索引 上 自动 地 做 出 正确 选择 并 不 容易 。 因 此 ， 大 多 数 SQL 实现 允许 程序 员 通过 数 
据 定义 语言 的 命令 对 索引 的 创建 和 删除 进行 控制 。 

下 面 我 们 举例 说 明 这 些 命令 的 语法 。 尽 管 我 们 给 出 的 语法 被 很 多 数据 库 系 统 使 用 和 支持 ， 但 它 并 
不 是 SQL 标准 的 一 部 分 。SQL 标准 不 支持 物理 数据 模式 的 控制 ， 它 将 自身 约束 在 逻辑 数据 模式 层面 。 

528 我 们 使 用 create index 命令 创建 索引 ， 它 的 形式 为 
create index < index-name > on <relation-name > ( < attribute-list > ) 

attribute-list 是 构成 索引 搜索 码 的 关系 属性 列表 。 

为 了 在 关系 instructor 上 定义 以 dept_name 为 搜索 码 的 名 为 dept_index 的 索引 ， 我 们 写作 

create index dept_index on instructor( dept_name ) 
如 果 我 们 想 要 声明 该 搜索 码 是 一 个 候选 码 ， 就 在 索引 定义 中 加 入 属性 unique。 于 是 ， 命 令 
create unique index dept_index on instructor( dept_name ) 

声明 了 dept_name 是 instructor 的 一 个 候选 码 (这 个 有 可 能 不 是 在 我 们 的 大 学 数据 库 中 真正 想 要 的 ) 。 如 
果 当 我 们 输入 create unique index 命令 时 dept_name 不 是 候选 码 ， 系 统 就 会 显示 错误 消息 ， 并 且 索 引 创 
建 失败 。 如 果 创 建 该 索引 成 功 ， 接 下 来 任何 违反 码 声 明 的 元 组 插入 企图 都 将 失败 。 注 意 ， 如 果 数 据 库 
系统 支持 SQL 标准 的 unique 声明 ， 那 么 这 里 的 unique 特性 就 是 多 余 的 。 

很 多 数据 库 系统 也 提供 一 种 方法 来 详细 说 明 要 使 用 的 索引 类 型 (如 B 树 或 散 列 ) 。 有 些 数据 库 系 
统 也 允许 一 个 关系 上 的 某 个 索引 声明 是 聚集 的 ; 这 样 系统 就 以 聚集 索引 的 搜索 码 顺 序 来 存储 这 个 关系 。 

为 索引 指定 的 索引 名 在 删除 索引 时 是 需要 的 。drop index 命令 采用 的 形式 是 : 


drop index < index-name > 


11.11 BS 
© 许多 查询 只 涉及 文件 中 很 少 一 部 分 记录 。 为 了 减少 查找 这 些 记录 的 开销 ， 我 们 可 以 为 存储 数据 库 的 
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文件 创建 索引 。 
© 索引 顺序 文件 是 数据 库 系统 中 最 古老 的 索引 模式 之 一 。 为 了 允许 按 搜 索 码 顺序 快速 检索 记录 ， 记 录 
按 顺序 存储 ， 而 无 序 记 录 链 接 在 一 起 。 为 了 允许 快速 的 随机 访问 ,使 用 了 索引 结构 。 





。 可 以 使 用 的 索引 类 型 有 两 种 : 稠密 索引 和 稀 琉 索引 。 稠 密 索 引 对 每 个 搜索 码 值 都 有 索引 项 ， 而 稀 朴 [529 











索引 只 对 某 些 搜索 码 值 包含 索引 项 。 

。 如 果 搜 索 码 的 排序 序列 和 关系 的 排序 序列 相 匹配 ， 则 该 搜索 码 上 的 索引 称 为 聚集 索引 ， 其 他 的 索引 
称 为 非 聚集 索引 或 辅助 索引 。 辅 助 索 引 可 以 提高 不 以 聚集 索引 的 搜索 码 作为 搜索 码 的 查询 的 性 能 。 

_ 但是， 辅助 索引 增加 了 修改 数据 库 的 开销 。 

。 索引 顺序 文件 组 织 的 主要 缺陷 是 随 着 文件 的 增 大 ， 人 性 能 会 下 降 。 为 了 克服 这 个 缺陷 ， 可 以 使 用 巨 " 树 
索引 。 

。 B 树 索 引 采 用 平衡 树 的 形式 ， 即 从 树 根 到 树叶 的 所 有 路 径 长 度 相等 。B ` 树 的 高 度 与 以 关系 中 的 记录 
BLN 为 底 的 对 数 成 正比 ， 其 中 每 个 非 叶 结 点 存储 N 个 指针 ，N 值 通常 约 为 50 ~ 100。 因 此 ，B - 树 比 
其 他 的 平衡 二 又 树 (如 AVL 树 ) 要 矮 很 多 ， 故 定位 记录 所 需 的 磁盘 访问 次 数 也 较 少 。 

。 B 树 上 的 查询 是 直接 而 且 高 效 的 。 然 而 ， 插 入 和 删除 要 更 复杂 一 些 ， 但 是 仍然 很 有 效 。 在 B 树 中 ， 
查询 、 插 入 和 删除 所 需 操 作 数 与 以 关系 中 的 记录 数 N 为 底 的 对 数 成 正比 ， 其 中 每 个 非 叶 结 点 存储 N 
个 指针 。 

。 可 以 用 了 B 树 去 索引 包含 记录 的 文件 ， 也 可 以 用 它 组 织 文 件 中 的 记录 。 

。B 树 索引 和 B ` 树 索引 类 似 。B 树 的 主要 优点 在 于 它 去 除了 搜索 码 值 存储 中 的 宛 余 。 主 要 缺点 在 于 整 
体 的 复杂 性 以 及 结 点 大 小 给 定时 减 小 了 扇 出 。 在 实际 应 用 中 ,系统 设计 者 几乎 无 一 例外 地 倾向 于 使 
H Bo 树 索 引 。 

。 顺序 文件 组 织 需 要 一 个 索引 结构 来 定位 数据 。 相 比 之 下 ， 基 于 散 列 的 文件 组 织 允 许 我 们 通过 计算 所 
需 记 录 搜 索 码 值 上 的 一 个 函数 直接 找 出 一 个 数据 项 的 地 址 。 由 于 设计 时 我 们 不 能 精确 知道 哪些 搜索 
码 值 将 存储 在 文件 中 ， 因 此 一 个 好 的 散 列 函数 应 该 能 均匀 且 随 机 地 把 搜索 码 值 分 散 到 各 个 桶 中 。 

。 静态 散 列 所 用 散 列 函数 的 桶 地 址 集合 是 固定 的 。 这 样 的 散 列 函数 不 容易 适应 数据 库 随 时 间 的 显著 增 
长 。 有 几 种 允许 修改 散 列 函数 的 动态 散 列 技术 。 可 扩充 散 列 是 其 中 之 一 , 它 可 以 在 数据 库 增长 或 缩 
减 时 通过 分 裂 或 合并 桶 来 应 付 数据 库 大 小 的 变化 。 530 

© 也 可 以 用 散 列 技术 创建 辅助 索引 : 这 样 的 索引 称 为 散 列 索引 。 为 使 记 法 简便 ,假定 散 列 文件 组 织 中 
用 于 散 列 的 搜索 码 上 有 一 个 隐 式 的 散 列 索引 。 

© RB 树 和 散 列 索引 这 样 的 有 序 索引 可 以 用 作 涉 及 单个 属性 且 基 于 相等 条 件 的 选择 操作 。 当 一 个 选择 
条 件 中 涉及 多 个 属性 时 ， 可 以 取 多 个 索引 中 检索 到 的 记录 标识 符 的 交 。 

。 对 于 索引 属性 只 有 少数 几 个 不 同 值 的 情况 ， 位 图 索引 提供 了 一 种 非常 紧凑 的 表达 方式 。 位 图 索引 的 
交 操 作 相当 得 快 ， 使 得 它 成 为 一 种 支持 多 属性 上 的 查询 的 理想 方式 。 


术语 回顾 
© 访问 类 型 。 RARI 。 自 底 向 上 B 树 构建 
© 访问 时 间 。 多 级 索引 。B 树 索 引 
。 插入 时 间 。 顺序 扫描 。 静态 散 列 
。 删除 时 间 © B' 树 索引 © 散 列 文件 组 织 
。 空间 开销 © 叶 结 点 。 散 列 索引 
。 顺序 索引 © 非 叶 结 点 。 iii 
。 聚集 索引 。 平衡 树 © 散 列 函数 
e ERII 。 范围 查询 。 桶 溢出 
。 非 聚集 索引 © 结 点 分 列 。 tie 
。 辅助 索引 ° 结 点 合并 © 闭 地 址 
。 索引 顺序 文件 。 不 唯一 搜索 码 。 动态 散 列 
。 索引 记录 /项 。 Bo 树 文件 组 织 。 可 扩充 散 列 
。 稠密 索引 。 批量 加 载 。 多 码 访问 


302 


531 


532 


第 三 部 分 ”数据 存储 和 查询 


。 多 码 索引 
。 位 图 索引 
。 位 图 操作 
Dé 
口 并 
口 补 码 
口 存在 位 图 


实践 习题 


l1. 
IL. 


11. 
11. 


11. 


1 


7 


To 


.9 


索引 加 速 了 查询 处 理 ， 但 是 在 作为 潜在 的 搜索 码 的 每 一 个 属性 上 或 者 每 一 个 属性 组 上 创建 索引 ， 通 常 
并 不 是 一 个 很 好 的 方法 ， 请 解释 为 什么 。 
在 一 个 关系 的 不 同 搜索 码 上 建立 两 个 主 索引 一 般 来 说 是 否 可 能 ? 解释 你 的 答案 。 
用 下 面 的 关键 码 值 集合 建立 一 个 B Bt 
(2 
假设 树 初 始 为 空 ， 值 按 上 升 顺序 加 入 。 根 据 一 个 结 点 所 能 容纳 指针 数 的 下 列 情况 分 别 构造 B 树 : 
a. 4 
b. 6 
c- 8 
对 习题 11. 3 中 的 每 一 棵 B R, Ah FIARE EAR: 
a. 插入 9 
b. 插入 10 
c. 插入 8 
d. 删除 23 
e. 删除 19 
考虑 11. 4. 1 节 所 述 修改 后 的 B * 树 重 分 布 模式 。 树 的 预期 高 度 与 飞 之 间 的 函数 关系 是 什么 ? 
假设 我 们 在 一 个 文件 上 使 用 可 扩充 散 列 ， 该 文件 所 含 记录 的 搜索 码 值 如 下 : 
全 了 
如 果 散 列 函数 为 h(x) =x mod 8， 且 每 个 桶 可 以 容纳 3 条 记录 。 给 出 此 文件 的 可 扩充 散 列 结构 。 
进行 下 列 各 步 以 后 ， 习 题 11.6 中 的 可 扩充 散 列 结构 如 何 变 化 ? 
a. 删除 11 
b. 删除 31 
c. 插入 1 
d. 插入 15 
给 出 B’' 树 函数 findIterator( ) 的 伪 码 ， 该 伪 码 类 似 于 函数 find( ) ， 除 了 它 返 回 如 11. 3. 2 节 描 述 的 迭代 
对 象 。 同 时 ， 给 出 迭代 类 的 伪 代 码 ， 包 括 和 迭代 对 象 中 的 变量 和 next( ) 方 法 。 
给 出 从 可 扩充 散 列 结构 中 删除 项 的 伪 代 码 ， 包 括 何 时 和 如 何 合并 桶 的 细节 。 不 必 关 心 减少 桶 地 址 表 的 
KN. 


.10 通过 与 桶 地 址 表 一 起 存储 一 个 额外 计数 ， 提 出 一 种 有 效 的 方法 来 测试 是 否 能 减少 可 扩充 散 列 桶 地 址 


表 的 大 小 。 详 细 描 述 在 桶 分 裂 、 合 并 和 删除 时 如 何 维护 这 个 计数 。( 注意: 减少 桶 地 址 表 大 小 的 操 

作 是 一 个 代价 很 高 的 操作 ， 随 后 的 插入 可 能 导致 表 的 再 次 增长 。 因 此 最 好 尽 可 能 不 要 减少 表 的 大 小 ， 

只 有 当 索 引 项 的 数目 与 桶 地 址 表 的 大 小 相 比 较 小 时 才 这 样 做 ,) 

考虑 在 图 11-1 aN hy KA instructor, 

a. 在 属性 salary 上 构建 一 个 位 图 索引 ， 把 salary 的 值 分 成 4 个 区 间 : zF 50000, 50000 ~ 60000 以 
F, 60000 ~70000 以 下 ，70000 及 其 以 上 。 

b. 考虑 一 个 查询 ， 即 在 金融 系 中 所 有 工资 为 80 000 美元 或 更 多 的 教师 。 假 设 上 述 salary 上 的 位 图 索 
引 和 dept_name 上 的 位 图 索引 可 用 概述 回答 该 查询 的 步 又， 并且 给 出 为 回答 这 个 查询 而 构建 的 中 
间 和 最 终 位 图 。 
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11. 12 ”如 果 索 引 项 按照 已 排 好 的 序 插 入 ，B ` 树 的 每 个 叶 结 点 的 充满 情况 如 何 ?” 解释 为 什么 ? 
11.13 ”假设 你 有 一 个 包括 n, 条 元 组 的 关系 r， 需 要 在 上 面 建立 一 个 辅助 B 树 索引 。 
a. 通过 一 次 插入 一 条 记录 来 建立 B' 树 索引 的 代价 是 多 少 ? 给 出 计算 公式 。 假 设 平均 每 个 页 面 存 储 / 


条 索引 项 ， 并 且 所 有 高 于 叶 级 的 结 点 都 在 内 存 中 。 

b. 假设 一 次 随机 磁盘 访问 的 时 间 是 10 毫秒 ,在 一 个 包含 1 000 万 条 记录 的 关系 上 建立 索引 的 代价 
是 多 少 ? 

c， 请 写 出 如 11. 4. 4 节 描 述 的 自 底 向 上 构建 B 树 的 伪 代 码 。 你 可 以 假设 存在 一 个 可 以 有 效 排序 大 文 
件 的 函数 。 





11.14 为 什么 B “ 树 文件 组 织 的 叶 结 点 可 能 会 丢失 顺序 性 ? 


:23 


.24 


a. 请 建议 文件 组 织 该 如 何 重新 组 织 来 恢复 顺序 性 。 

b. 对 于 一 个 相当 大 的 n， 另 一 种 重新 组 织 的 方法 是 以 n 块 为 单位 重新 分 配 叶 子 页 。 当 分 配 B' 树 的 第 一 
个 叶子 时 , n 块 单元 中 只 有 一 块 被 使 用 ， 剩 下 的 页 是 空闲 的 。 如 果 有 一 页 分 裂 ， 并 且 它 的 n 块 单元 
有 空闲 页 ， 则 新 的 页 可 以 使 用 该 空间 。 如 果 n 块 单元 已 经 存 满 了 ,分 配 男 一 个 n 块 单元 ,并且 前 n/ 
2 叶子 页 被 放 入 第 一 个 n RET, 剩余 的 放 入 第 二 个 n 块 单元 中 。 简 单 起 见 ， 假 设 没 有 删除 操作 。 
i, 假设 没有 删除 操作 ， 当 第 一 个 n 块 单元 存 满 时 ， 已 分 配 空间 的 充满 度 的 最 坏 情 况 是 什么 ? 

ii, 有 没有 可 能 出 现 这 样 的 情况 : 分 配给 一 个 nn 结 点 块 单元 的 叶子 结 点 是 不 连贯 的 ， 也 就 是 说 有 可 
能 有 两 个 叶子 结 点 分 配 到 同一 个 n 结 点 块 中 , 但 是 在 它们 之 间 的 另 一 个 叶子 结 点 分 配 到 了 男 一 
个 不 同 的 n 结 点 块 中 ? 

iii. 在 缓冲 区 对 于 存储 一 个 页 的 块 来 说 是 足够 的 这 一 合理 假设 下 ，B“ 树 的 页 级 扫描 在 最 坏 情况 
下 需要 多 少 次 寻 道 ? 请 把 该 数字 和 如 果 每 次 只 为 叶子 页 分 配 一 个 块 的 最 坏 情 况 进行 比较 。 

iv. 为 了 提高 空间 利用 率 而 将 值 重 新 分 配给 兄弟 结 点 的 技术 如 果 与 上 述 用 于 叶子 结 点 的 分 配 策略 
结合 使 用 可 能 会 更 有 效 。 请 解释 为 什么 。 


什么 情况 下 使 用 稠密 索引 比 使 用 稀 琉 索引 更 可 取 ? 解释 你 的 答案 。 

聚集 索引 和 辅助 索引 有 何 区 别 ? 

对 习题 11. 3 中 的 每 一 棵 B “ 树 ， 给 出 下 列 查询 中 涉及 的 步 又: 

a. 找 出 搜索 码 值 为 11 的 记录 。 

b. 找 出 搜索 码 值 在 7 ~ 17 之 间 ( 包 括 7 和 17) 的 记录 。 

11. 3.4 节 列 出 的 处 理 不 唯一 搜索 码 的 解决 方案 是 通过 为 每 个 搜索 码 添加 一 个 附加 的 属性 。 这 种 改变 

会 为 B' 树 的 高 度 带 来 什么 样 的 影响 ? 

解释 闭 地 址 和 开 地 址 的 区 别 。 讨 论 这 两 种 技术 在 数据 库 应 用 中 的 相对 优点 。 

在 散 列 文件 组 织 中 导致 桶 溢出 的 原因 是 什么 ”如何 减 少 桶 溢出 的 发 生 ? 

为 什么 对 于 一 个 可 能 在 其 上 进行 范围 查询 的 搜索 码 而 言 散 列 结构 不 是 最 佳 选择 ? 

假设 有 一 个 关系 (A, B, C), HHA—MBERGBACA, B) 的 B MRL. 

a. 用 这 个 索引 查找 满足 10 < 4 < 50 条 件 的 记录 ， 最 坏 情况 下 的 代价 是 多 少 ? 用 获取 的 记录 数目 n 
和 树 的 高 度 h 来 度量 。 

b. 用 这 个 索引 查找 满足 10 < 4 < SOAS < B < 10 条 件 的 记录 ， 最 坏 情况 下 的 代价 是 多 少 ? 用 满 
足 条 件 的 记录 数目 n 和 上 面 定义 的 n, 和 hh 来 度量 。 

c 当 n, 和 nn 满足 什么 条 件 的 时 候 这 个 索引 对 于 查找 满足 10 < 4 < SOAS <B < 10 条 件 的 记录 
是 一 个 高 效 的 手段 ? 

假设 你 必须 在 大 量 的 名 字 上 建立 一 个 B 树 索 引 ， 这 些 名 字 的 最 大 长 度 可 能 非常 大 (比如 40 个 字 

符 ) ， 并 且 这 些 名 字 长 度 的 平均 值 本 身 也 很 大 ( 比如 10 个 字符 )。 解 释 一 下 如 何 用 前 缀 压缩 来 使 内 部 

结 点 的 平均 扇 出 尽 可 能 大 。 

假设 一 个 关系 以 B* 树 文件 组 织 的 形式 存储 。 假 设 辅 助 索 引 存 储 的 记录 标识 符 是 指向 磁盘 中 记录 的 

指针 。 
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a， 如 果 一 个 文件 组 织 中 发 生 磁 盘 页 分 裂 ， 会 对 辅助 索引 产生 什么 影响 ? 
b. 更 新 辅助 索引 中 所 有 影响 到 的 记录 ， 代 价 是 多 少 ? 
ce 使 用 一 个 逻辑 记录 标识 符 作 为 文件 组 织 的 搜索 码 如 何 能 够 解决 这 个 问题 ? 
d. 和 使 用 这 样 的 逻辑 记录 标识 符 会 带 来 什么 附加 的 代价 ? 

11.25 说 明 如 何 从 其 他 位 图 中 计算 出 存在 位 图 。 通 过 使 用 空 (mall) 值 位 图 ， 确 保 你 的 方法 能 在 有 空 值 存在 
的 情况 下 仍然 能 够 保持 其 正确 性 。 

11.26 数据 加 密 是 如 何 影 响 索 引 方 案 的 ?特别 地 ， 在 试图 按 排序 顺序 存储 数据 时 ， 它 是 如 何 影响 索引 方 
案 的 ? 

11.27 我 们 对 静态 散 列 的 描述 作 了 这 样 的 假设 : 一 段 大 型 连续 的 磁盘 块 能 够 分 配给 静态 散 列 表 。 假 设 你 只 
能 分 配 C 个 连续 磁盘 块 。 提 出 如 何 实现 可 能 远 比 C 个 磁盘 块 大 的 散 列表 。 对 磁盘 块 的 访问 仍然 能 够 

535 高 效 。 


文献 注解 


有 关 索 引 和 散 列 中 所 用 的 基本 数据 结构 的 讨论 可 在 Cormen 等 [ 1990 | 中 找到 。B 树 索 引 最 先是 由 Bayer 
[1972 ] 以 及 Bayer 和 MeCreight[ 1972] 引 入 的 。Comer[ 1979 | 、Bayer 和 Unterauer [ 1977 ] 以 及 Knuth[ 1973 | 对 
B * 树 进行 了 讨论 。 第 15 章 的 文献 注解 提供 了 有 关 人 允许 对 B 树 的 并 发 访问 和 更 新 的 研究 工作 的 参考 。Gray 
和 Reuter[ 1993 ] 在 B’' 树 实现 的 问题 上 提供 了 很 好 的 描述 。 

人 们 已 经 提出 了 几 种 可 选 的 树 和 类 树 搜索 结构 。try 是 一 种 其 结构 基于 码 中 的 “数字 "(例如 ， 字典 中 的 
thumb 索引 对 每 个 字母 有 一 个 索引 项 ) 的 树 。 这 种 树 可 能 不 像 B 树 那 样 是 平衡 的 。try 在 Ramesh 等 [1989 | 、 
Orenstein[ 1982] Litwin[ 1981 ] 以 及 Fredkin[ 1960 ] 中 进行 了 讨论 。 相 关 工 作 包 括 Lomet[ 1981 ] 中 的 数字 
B 树 。 

Knuth [1973] 对 大 量 不 同 的 散 列 技术 做 了 分 析 。 动 态 散 列 模式 有 几 种 。 可 扩充 散 列 由 Fagin 等 [1979 ] 5| 
和 人 入。 线性 散 列 由 Litwin[ 1978 ] 和 Litwin[ 1980] 引 入 ; Rathi 等 [1990 ] 给 出 了 线性 散 列 与 可 扩充 散 列 的 性 能 比 
较 ; Ramakrishna 和 Larson[ 1989 ] 给 出 的 另 一 种 模式 以 少数 数据 库 更 新 开销 很 大 为 代价 ， 使 检索 只 须 访问 一 
次 磁盘 。 分 段 散 列 是 对 多 属性 散 列 的 扩充 ， 见 Rivest[ 1976] 、Burkhard[ 1976] 和 Burkhard[ 1979 ] 。 

Vitter[ 2001 ] 对 外 存 的 数据 结构 和 算法 给 出 了 广泛 的 综述 。 

位 图 索引 和 它 派生 的 位 片 索 引 ( bit-sliced index) 以 及 投影 索引 ( projection index) 由 O'Neil 和 Quass[ 1997 | 
描述 。 它 们 在 平台 AS400 上 的 IBM Model 204 文件 管理 器 中 首次 提出 。 它 们 对 某 些 类 型 的 查询 提供 了 很 大 的 
加 速 比 ， 在 现在 的 大 多 数 数据 库 系统 中 都 有 实现 。 近 来 ， 最 近 的 有 关 位 图 索引 的 研究 ， 可 参考 Wu 和 

Buchmann[ 1998 ] 、Chan 和 Ioannidis[ 1998 ] 、Chan 和 Ioannidis[ 1999 | 以 及 Johnson[ 1999 | 。 
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Database System Concepts, 6E 


查询 处 理 


查询 处 理 ( query processing) 是 指 从 数据 库 中 提取 数据 时 涉及 的 一 系列 活动 。 这 些 活动 包括 : 将 用 
高 层 数 据 库 语 言 表示 的 查询 语句 翻译 为 能 在 文件 系统 的 物理 层 上 使 用 的 表达 式 ， 为 优化 查询 而 进行 各 
种 转换 ， 以 及 查询 的 实际 执行 。 


12.1 概述 


查询 处 理 步骤 如 图 12-1 所 示 。 基 本 步骤 包括 : 
1. 语法 分 析 与 翻译 。 

2. 优化 。 

3. 执行 。 






有 关 数 据 
的 统计 值 


图 12-1 查询 处 理 的 步骤 


查询 处 理 开 始 之 前 ， 系 统 必须 将 查询 语句 翻译 成 可 使 用 的 形式 。 如 SQL 这 样 的 语言 适合 人 使 用 ， 
然而 并 不 适合 查询 的 系统 内 部 表示 。 一 种 更 有 用 的 内 部 表示 是 建立 在 扩展 的 关系 代数 基础 上 的 。 

因此 ， 查 询 处 理 中 系统 首先 必须 把 查询 语句 翻译 成 系统 的 内 部 表示 形式 。 该 翻译 过 程 类 似 于 编译 
器 的 语法 分 析 器 所 做 的 工作 。 在 产生 查询 语句 的 系统 内 部 表示 形式 的 过 程 中 ， 语 法 分 析 器 检查 用 户 查 
询 的 语法 ， 验 证 查询 中 出 现 的 关系 名 是 数据 库 中 的 关系 名 等 。 系 统 构造 该 查询 语句 的 语法 分 析 树 表示 ， 
然后 将 之 翻译 成 关系 代数 表达 式 。 如 果 查 询 是 用 视图 形式 表示 的 ， 翻 译 阶段 还 要 用 定义 该 视图 的 关系 
代数 表达 式 来 替换 所 有 对 该 视图 的 引用 。 大 多 数 有 关 编 译 器 的 教科 书 中 都 有 讨论 语法 分 析 的 内 容 。 ”[537 

对 于 给 出 的 一 个 查询 ， 一 般 都 会 有 多 种 计算 结果 的 方法 。 例 如 ,我 们 已 知 在 SQL 中 ,一 个 查询 能 
够 用 几 种 不 同 的 方式 表示 。 每 个 SQL 查询 可 以 用 其 中 的 一 种 方式 翻译 成 关系 代数 表达 式 。 另 外 ,查询 
的 关系 代数 表达 式 形 式 仅仅 部 分 地 指定 了 如 何 执行 查询 ; 通常 有 许多 方式 来 计算 关系 代数 表达 式 。 作 
为 例子 ， 考 虑 查询 : 





O ”对 于 物化 视图 ， 定 义 视 图 的 表达 式 已 经 执行 并 存储 了 结果 。 故 此 ， 可 以 使 用 存储 的 关系 ， 而 不 需要 用 定义 视图 
的 表达 式 蔡 换 视图 。 递 归 视 图 的 处 理 与 此 不 同 ， 它 通过 不 动 点 过 程 来 处 理 ， 如 5. 4 节 和 附录 B. 3. 6 所 述 。 
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select salary 
from instructor 
where salary < 75000; 


该 查询 语句 可 翻译 成 下 面 两 个 关系 代数 表达 式 中 的 任意 一 个 : 

® Our < 75000 ( Tolar, ( instructor) ) 

© Tatary (O salary < 75000 ( instructor ) ) 

进一步 地 ， 我 们 可 以 用 其 中 一 种 不 同 的 算法 来 执行 每 个 关系 代数 运算 。 例 如 ， 要 实现 前 面 的 选择 ， 
可 以 通过 扫描 instructor 的 每 个 元 组 找 出 满足 salary < 75 000 条 件 的 元 组 。 如 果 存 在 属性 salary 上 的 B* 
树 索 引 ， 我 们 可 以 改 用 它 来 定位 元 组 。 

要 全 面 说 明 如 何 执行 一 个 查询 ， 我 们 不 仅 要 提供 关系 代数 表达 式 ， T salary 
还 要 对 表达 式 加 上 注释 来 说 明 如 何 执行 每 个 操作 。 注 释 可 以 声明 某 个 具 
体操 作 所 采用 的 算法 ,或 将 要 使 用 的 一 个 或 多 个 特定 的 索引 。 加 了 “如 
何 执行 "注释 的 关系 代数 运算 称 为 计算 原 语 ( evaluation primitive), H F 
执行 一 个 查询 的 原 语 操作 序列 称 为 查询 执行 计划 ( query-execution plan) O salary <75 000; 使 用 索引 1 
或 查询 计算 计划 ( query-evaluation plan)。 图 12-2 表示 对 所 举 查 询 例 子 的 
一 个 执行 计划 。 图 12-2 中 为 选择 运算 指定 了 一 个 具体 的 索引 (图 12-2 
中 用 “索引 1" 表 示 )。 查 询 执 行 引擎 ( query-execution engine) 接受 一 个 查 instructor 
询 执 行 计划 ， 执 行 该 计划 并 把 结果 返回 给 查询 。 图 12-2 一 个 查询 执行 计划 

给 定 查 询 的 不 同 执行 计划 会 有 不 同 的 代价 。 我 们 不 能 寄 希 望 于 用 户 
写 出 具有 最 高 效率 执行 计划 的 查询 语句 。 相 反 ， 构 造 具 有 最 小 查询 执行 代价 的 查询 执行 计划 应 当 是 系 
统 的 责任 。 这 项 工作 叫 作 查询 优化 。 第 13 章 将 详细 介绍 查询 优化 。 

一 且 选 定 了 查询 计划 ， 就 用 该 计划 来 执行 查询 并 输出 查询 结果 。 

以 上 对 查询 语句 的 处 理 步骤 的 描述 是 示意 性 的 ; 并 不 是 所 有 数据 库 系统 都 完全 遵从 这 些 步 又 。 举 
个 例子 来 说 ， 许 多 数据 库 系 统 并 不 用 关系 代数 表达 式 来 表示 查询 ， 而 是 采用 基于 给 定 SQL 查询 结构 的 
带 注释 的 语法 分 析 树 来 表示 。 然 而 ， 我 们 此 处 所 讲述 的 概念 构成 了 数据 库 中 查询 处 理 的 基础 。 

为 了 优化 查询 ， 查 询 优 化 器 必须 知道 每 个 操作 的 代价 。 虽 然 精 确 计 算 代价 是 很 难 的 ， 因 为 这 依赖 
于 许多 参数 ( 例如 该 操作 实际 能 用 的 内 存 ) ， 但 对 每 个 操作 的 执行 代价 得 出 一 个 粗略 的 估计 是 可 能 的 。 

这 一 章 我 们 将 学 习 在 一 个 查询 计划 中 如 何 执行 单个 的 操作 ， 以 及 如 何 估计 它们 的 代价 。 第 13 章 将 
回 到 查询 优化 的 讨论 。12. 2 节 概 述 如 何 度量 某 个 查询 的 执行 代价 。12. 3 ~ 12.6 节 介 绍 单个 关系 代数 操作 
的 执行 。 某 些 操作 可 以 组 合成 流水 线 (pipeline) ， 其 中 的 每 个 操作 都 同时 在 输入 元 组 上 开始 执行 ， 即 使 某 
个 操作 的 输入 元 组 由 另 一 个 操作 产生 。12.7 节 将 讨论 在 一 个 查询 执行 计划 中 如 何 协调 多 个 操作 的 执行 ， 
特别 是 如 何 将 操作 组 织 成 流水 线 ， 以 避免 将 中 间 结 果 立 即 写 和 磁盘. 


12.2 查询 代价 的 度量 


数据 库 中 可 以 存在 多 种 可 能 的 查询 计算 计划 ， 重 要 的 是 要 能 够 根据 它们 的 (估计 ) 代 价 来 对 不 同 的 
计划 做 比较 ， 并 选择 最 佳 方案 。 为 此 ， 我 们 必须 估计 个 别 操作 的 成 本 ， 并 结合 它们 得 到 了 一 个 查询 计 
算计 划 的 开销 。 因 此 ， 后 面 的 章节 会 研究 每 一 个 操作 的 执行 算法 ， 也 会 略 述 如 何 估计 操作 的 代价 。 

查询 处 理 的 代价 可 以 通过 该 查询 对 各 种 资源 的 使 用 情况 进行 度量 ， 这 些 资源 包括 磁盘 存 取 、 执 
行 一 个 查询 所 用 CPU 时 间 ， 还 有 在 并 行 /分 布 式 数据 库 系 统 中 的 通信 代价 (我 们 将 在 第 18 ~ 19 章 中 
讨论 ) 。 

然而 在 大 型 数据 库 系统 中 ， 在 磁盘 上 存 取 数据 的 代价 通常 是 最 主要 的 代价 ， 因 为 磁盘 存 取 比 内 存 
操作 速度 慢 。 此 外 ，CPU 速度 的 提升 比 磁盘 速度 的 提升 要 快 得 多 ， 这 样 很 可 能 花费 在 磁盘 存 取 上 的 时 
间 仍 将 决定 着 整个 查询 执行 的 时 间 。 一 个 任务 消耗 的 CPU 时 间 比 较 难 以 估计 ， 因 为 它 取 决 于 执行 代码 
的 低层 详细 情况 。 尽 管 实 际 应 用 中 查询 优化 器 的 确 把 CPU 时 间 考 虑 在 内 ， 但 为 了 简化 起 见 我 们 将 忽略 
CPU 时 间 ， 而 仅仅 用 磁盘 存 取 代价 来 度量 查询 执行 计划 的 代价 。 

我 们 用 传送 磁盘 块 数 以 及 搜索 磁盘 次 数 来 度量 查询 计算 计划 的 代价 。 假 设 磁 盘子 系统 传输 一 个 块 
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的 数据 平均 消耗 i; 秒 ， 磁 盘 块 平均 访问 时 间 ( 磁盘 搜索 时 间 加 上 旋转 延迟 ) 为 ts 秒 ， 则 一 次 传输 b 个 块 
以 及 执行 5 次 磁盘 搜索 的 操作 将 消耗 b* ti + Set, Eo tr Alts 的 值 必须 针对 所 使 用 的 磁盘 系统 进行 计 
算 ， 而 当今 高 端 磁盘 的 典型 数值 通常 是 1, =4 毫秒 和 t+ =0.1 毫秒 (假定 磁盘 块 的 大 小 是 4KB， 传 输 率 
为 40MB/ 秒 )。 


通过 把 读 磁 盘 块 与 写 磁盘 块 区 分 开 ， 我 们 可 以 进一步 细 化 磁盘 存 取代 价 的 估算 ， 因 为 写 磁盘 块 的 


代价 通常 是 读 磁盘 块 的 两 倍 (这 是 由 于 磁盘 系统 在 写 完 扇 区 后 还 会 重新 读 取 该 局 区 以 验证 写 操作 已 经 
成 功 ) 。 简 化 起 见 我 们 忽略 这 个 细节 ， 并 把 它 留 给 读者 对 各 种 操作 做 出 更 精确 的 代价 估算 。 


我 们 给 出 的 代价 估算 没有 包括 将 操作 的 最 终结 果 写 回 磁盘 的 代价 ， 当 需要 时 再 单独 考虑 。 我 们 所 


考虑 的 所 有 的 算法 代价 依赖 于 主 存 中 缓冲 区 的 大 小 。 最 好 的 情形 是 所 有 的 数据 可 以 读 入 到 缓冲 区 中 ， 
不 必 再 访问 磁盘 。 最 坏 的 情形 是 假定 缓冲 区 只 能 容纳 数目 不 多 的 数据 块 一 一 大 约 每 个 关系 一 块 。 涉 及 
代价 估算 时 ， 我 们 通常 假定 是 最 坏 的 情形 。 [540 | 


另外 ， 尽 管 我 们 假定 开始 时 数据 必须 从 磁盘 中 读 取出 来 ， 但 是 很 可 能 我 们 访问 的 磁盘 块 已 经 在 内 


存 缓冲 区 中 ， 为 简化 起 见 ， 对 这 种 情况 我 们 也 忽略 了 。 由 此 ， 执 行 一 个 查询 计划 过 程 中 的 实际 磁盘 存 
取代 价 可 能 会 比 估算 的 代价 要 小 。 


假设 计算 机 中 没有 其 他 活动 在 进行 ， 那 么 一 个 查询 计算 计划 的 响应 时 间 (response time ) ( 即 执行 计 


划 所 需 的 挂钟 时 间 ) 就 是 所 有 的 这 些 开销 ， 并 可 以 作为 计划 的 代价 的 度量 。 遗 憾 的 是 ， 没有 实际 地 执行 
计划 ， 就 很 难 估 算计 划 的 响应 时 间 ， 原 因 如 下 : 


1. 当 查 询 开 始 执行 ， 响 应 时 间 依 赖 于 缓冲 区 中 的 内 容 ; 在 对 查询 进行 优化 时 ， 该 信息 是 无 法 获取 


的 ， 而 且 即 便 可 以 获取 也 很 难 用 于 计算 。 


2. 在 具有 多 张 磁 盘 的 系统 中 ， 响 应 时 间 依 赖 于 访问 如 何 分 布 在 各 磁盘 上 ， 没 有 对 分 布 在 磁盘 中 的 


数据 的 详细 了 解 这 是 很 难 估计 的 。 


有 趣 的 是 ， 以 额外 的 资源 消耗 为 代价 ， 计 划 可 能 获得 更 好 的 响应 时 间 。 例 如 ， 假 如 一 个 系统 有 多 


张 磁 盘 ， 一 个 计划 A 需要 额外 的 磁盘 读 取 ， 但 它 并 行 地 跨 多 张 磁盘 执行 读 ， 它 可 能 比 另 一 个 计划 B 完 
成 更 快 ， 尽 管 计划 B 有 较 少 的 磁盘 读 取 ， 但 它 从 同一 张 磁盘 读 。 然 而 ， 如 果 一 个 查询 的 许多 实例 同时 
使 用 计划 A 来 运行 ， 整 体 响应 时 间 可 能 比如 果 相 同 的 这 些 实例 使 用 计划 B 来 执行 要 长 ， 这 是 因为 计划 
A 带 来 更 多 的 磁盘 负载 。 


因此 ， 优 化 器 通常 努力 去 尽 可 能 降低 查询 计划 总 的 资源 消耗 ( resource consumption) ) ， 而 不 是 尽 可 能 


缩 低 响 应 时 间 。 我 们 用 于 估计 总 的 磁盘 访问 时 间 ( 包 括 寻 道 和 数据 传输 ) 的 模型 ， 就 是 一 个 这 样 的 基于 
资源 消耗 的 查询 代价 模型 的 实例 。 


12. 3 选择 运算 


在 查询 处 理 中 ， 文 件 扫描 (file scan) 是 存 取 数 据 最 低级 的 操作 。 文 件 扫描 是 用 于 定位 、 检 索 满足 选 


择 条 件 的 记录 的 搜索 算法 。 在 关系 系统 中 ， 若 关系 保存 在 单个 专用 的 文件 中 ， 采 用 文件 扫描 就 可 以 读 
取 整 个 关系 。 


12. 3.1 使 用 文件 扫描 和 索引 的 选择 


考虑 所 有 元 组 都 保存 在 单个 文件 的 关系 上 的 一 个 选择 运算 。 执 行 一 个 选择 最 简单 的 方式 如 下 
。 A1 ( 线性 搜索 ) : 在 线性 搜索 中 ， 系 统 扫描 每 一 个 文件 块 ， 对 所 有 记录 都 进行 测试 ， 看 它们 是 
否 满足 选择 条 件 。 开 始 时 需 做 一 次 磁盘 搜索 来 访问 文件 的 第 一 个 块 。 如 果 文 件 的 块 不 是 顺序 存 [541 | 
放 的 ， 也 许 需要 更 多 的 磁盘 搜索 ， 不 过 为 简化 起 见 我 们 忽略 这 种 情况 。 
虽然 线性 搜索 比 其 他 实现 选择 操作 的 算法 速度 要 慢 ， 但 它 可 用 于 任何 文件 ， 不 用 管 该 文件 
的 顺序 、 索 引 的 可 用 性 ， 以 及 选择 操作 的 种 类 。 我 们 将 要 研究 的 其 他 算法 并 不 能 应 用 到 所 有 情 
况 下 ,但 在 可 用 情况 下 它们 一 般 都 比 线性 搜索 要 快 。 





O 一 些 数据 库 系统 会 进行 磁盘 寻 道 和 磁盘 块 传输 的 测试 来 估算 平均 寻 道 代价 和 磁盘 块 传输 代价 ， 并 把 这 个 步骤 作 
为 安装 过 程 的 一 部 分 。 
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线性 扫描 以 及 其 他 选择 算法 的 代价 估计 如 图 12-3 所 示 。 在 图 12-3 P, FRE A, 表示 Be 
树 的 高 度 。 现 实 中 的 优化 器 通常 假设 树 的 根 在 内 存 的 缓冲 区 中 ， 因 为 它 被 频繁 地 访问 。 有 的 优 
化 器 甚至 假设 树 的 所 有 非 叶 级 别 都 是 保存 在 内 存 中 的 ， 因 为 它们 被 相对 频繁 地 访问 ， 并且 B* 
树 结 点 中 通常 只 有 小 于 1% 的 是 非 叶 结 点 。 代 价 公式 可 以 做 适当 的 修改 。 

索引 结构 称 为 存 取 路 径 ( access path) ， 因 为 它们 提供 了 定位 和 存 取 数据 的 一 条 路 径 。 在 第 
11 章 中 ,我 们 曾 指 出 按 与 物理 顺序 一 致 的 顺序 读 取 文件 记录 的 效率 较 高 。 回 想 一 下 ， 主 索引 
(也 称 为 聚集 索引 ) 允许 文件 记录 可 以 按 与 其 在 文件 中 的 物理 顺序 一 致 的 顺序 进行 读 取 。 不 是 主 
索引 的 索引 称 为 辅助 索引 。 

使 用 索引 的 搜索 算法 称 为 索引 扫描 (index scan) 。 我 们 用 选择 谓词 来 指导 我 们 在 查询 处 理 
中 选择 使 用 哪个 索引 。 使 用 索引 的 搜索 算法 有 以 下 几 种 。 


。 A2 ( 主 索引 ， 码 属性 等 值 比较 ) : 对 于 具有 主 索引 的 码 属性 的 等 值 比较 ， 我 们 可 以 使 用 索引 检 


索 到 满足 相应 等 值 条 件 的 唯一 一 条 记录 。 代 价 估计 如 图 12-3 所 示 。 


。 Ag3 ( 主 索引 ， 非 码 属性 等 值 比较 ) : 当选 择 条 件 是 基于 非 码 属性 4 的 等 值 比较 时 ， 我 们 可 以 利 


用 主 索引 检索 到 多 条 记录 。 与 前 一 种 情况 唯一 不 同 的 是 ， 这 种 情况 下 需要 取 多 条 记录 。 然 而 ， 
因为 文件 是 依据 搜索 码 进行 排序 的 ， 所 以 这 些 记录 在 文件 中 必然 是 连续 存储 的 。 代 价 估计 如 
图 12-3 所 示 。 


。 A4 (辅助 索引 ， 等 值 比较 ) : 使 用 等 值 条 件 的 选择 可 以 使 用 辅助 索引 。 若 等 值 条 件 是 码 属 性 上 


的 ， 则 该 策略 可 检索 到 唯一 一 条 记录 ; 若 索引 字段 是 非 码 属性 ， 则 可 能 检索 到 多 条 记录 。 

在 第 一 种 情况 下 ， 只 检索 到 一 条 记录 。 这 种 情况 下 的 时 间 代 价 与 主 索引 的 情况 一 样 ( 参 
看 A2)。 

在 第 二 种 情况 下 ， 每 条 记录 可 能 存在 于 不 同 的 磁盘 块 中 ， 可 能 导致 每 检索 到 一 条 记录 需要 
一 次 VO 操作 ， 以 及 一 次 VO 操作 需要 一 次 搜索 和 一 次 磁盘 块 传输 。 如 果 每 条 记录 位 于 不 同 磁 
盘 块 并 且 所 取 块 是 任意 排列 的 ， 在 这 种 情形 下 的 最 坏 情 形 时 间 代 价 是 (h, +n) * (t+tr), nn 是 
所 取 的 记录 数目 。 如 果 要 检索 大 量 记 录 ， 最 坏 情形 开销 甚至 会 比 线性 搜索 更 差 。 

如 果 内 存 缓冲 区 较 大 ， 那 么 包含 该 记录 的 块 可 能 已 经 在 缓冲 区 中 。 我 们 可 以 将 包含 该 记录 
的 块 已 经 位 于 缓冲 区 中 的 可 能 性 考虑 进去 ， 来 构建 选择 操作 的 平均 ( average ) 或 期 望 (expected ) 
代价 的 估算 。 对 于 大 的 缓冲 区 ,这 样 的 估计 会 比 最 坏 情形 的 估计 小 很 多 。 















































算 法 开 销 | 原 因 
Al | ”线性 搜索 t, +b, #1, -次 初始 搜索 加 上 b, 个 块 传输 ， 表示 在 文件 中 的 块 数量 
a | “线性 搜索 ， 码 属性 | 平均 情形 因为 最 多 二 条 记录 满足 条 件 ， 所 以 只 要 找到 所 需 的 记录 ， 扫 撒 
等 值 比较 1,+(b,/2) t | 就 可 以 终止 。 在 最 坏 的 情形 下 ， 仍 需要 5, 个 块 传输 
wo | BRER, BA | +D GEF h, 表示 索引 的 高 度 ) 。 索 引 查找 穿越 树 的 高 度 ， 再 加 上 一 
性 等 值 比较 (t, +t,) 次 1/0 来 取 记 录 ; 每 个 这 样 的 1/0 操作 需要 一 次 搜索 和 一 次 块 传输 
ee re 树 的 每 层 一 次 搜索 ,第 一 个 块 一 次 搜索 。4 是 包含 具有 指定 搜 
A | ii 索 码 记录 的 块 数 。 假 定 这 些 块 是 顺序 存储 ( 因为 是 主 索引 ) 的 叶子 
r 块 并 且 不 需要 额外 搜索 
"机 辅助 家 引 , 码 | (h +1)* Sates | 
it |- aj 这 种 情形 和 主 索引 相似 
Miah i Z 同 的 块 上 ， 这 需要 每 条 记录 一 次 搜索 ， 如 果 n 值 比 
| 较 大 ， 代 价 可 能 会 非常 高 
h; * (tp +t,) + 
AS | BWER, wl, 和 43 ， 非 码 属性 等 值 比较 情形 一 样 
h +n) * 
ag | BY RARER, | Cte) 和 44， 非 码 属性 等 值 比较 情形 一 样 
比较 (EEN 














图 12-3 ”选择 算法 代价 估计 
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在 某 些 算 法 中 , 包括 A2， 因 为 记录 存储 于 树 的 叶子 级 结 点 ， 所 以 使 用 B 树 文件 组 织 可 以 节省 一 
次 存 取 。 

正如 11.4.2 节 所 描述 的 ， 当 记录 以 B’' 树 文件 组 织 或 其 他 可 能 需要 把 记录 重新 配置 的 文件 组 织 的 
方式 存储 时 ， 辅 助 索引 通常 不 存储 指向 记录 的 指针 “。 反 之 ， 辅助 索引 存储 的 是 B' 树 文件 组 织 中 作为 
码 值 的 属性 值 。 通 过 这 种 辅助 索引 存 取 一 条 记录 的 代价 将 更 大 : 首先 必须 搜索 辅助 索引 以 找到 主 索引 
的 搜索 码 值 ， 然 后 查找 主 索引 来 找到 记录 。 如 果 使 用 这 样 的 索引 ， 对 辅助 索引 的 代价 公式 的 描述 需要 
做 适当 的 调整 。 
12. 3.2 涉及 比较 的 选择 

考虑 形 如 os<,(r) 的 选择 。 我 们 可 以 用 线性 搜索 ， 或 按 以 下 方法 之 一 使 用 索引 来 实现 选择 运算 

。 A5( 主 索引 ， 比 较 ) : 在 选择 条 件 是 比较 时 ， 可 使 用 顺序 主 索引 (如 B 树 主 索引 ) 。 形 如 4 >” 
或 4=v 的 比较 条 件 ， 可 按 以 下 方式 使 用 4 上 的 主 索引 来 指导 元 组 的 检索 。 对 于 4=2， 我 们 在 
索引 中 寻找 值 v， 以 检索 出 满足 条 件 4 =v 的 首 条 记录 。 从 该 元 组 开始 到 文件 末尾 进行 一 次 文件 
扫描 就 返回 所 有 满足 该 条 件 的 元 组 。 对 于 4 >v， 文 件 扫 描 从 第 一 条 满足 4 >v 的 记录 开始 。 这 
种 情况 下 的 代价 估算 跟 43 的 情况 一 样 。 

对 于 形 如 A <v 或 4<v 的 比较 式 , 没有 必要 查找 索引 。 对 于 4 <"， 只 是 简单 地 从 文件 头 开 
始 进行 文件 扫描 ， 直 到 遇 上 (但 不 包含 ) 首 条 满足 4 =v Hoc Ak. ASD 的 情形 类 似 ， 只 是 扫 
描 直 到 遇 上 (但 不 包含 ) 首 条 满足 4 > 的 元 组 为 止 。 这 两 种 情况 下， 索引 都 没有 什么 用 处 。 

。 A6 ( 辅助 索引 ， 比 较 ) : 可 以 使 用 有 序 辅助 索引 指导 涉及 < 、<、 三 、> 的 比较 条 件 的 检索 。 
对 于 “<” 及 “<” 和 情形， 扫描 最 底层 索引 块 是 从 最 小 值 开始 直 到 vw Aik; 对 于 ”> "及 "= "情形 
扫描 是 从 v 开始 直到 最 大 值 为 止 。 

辅助 索引 提供 了 指向 记录 的 指针 ， 但 我 们 需要 使 用 指针 以 取得 实际 的 记录 。 由 于 连续 的 记 
录 可 能 存在 于 不 同 的 磁盘 块 中 ， 因 此 每 取 一 条 记录 可 能 需要 一 次 IO 操作 。 和 前 面 一 样 ， 一 次 
VO 操作 需要 一 次 磁盘 搜索 和 一 次 块 传输 。 如 果 检 索 得 到 的 记录 数 很 大 的 话 ， 使 用 辅助 索引 的 
代价 甚至 比 线性 搜索 还 要 大 。 因 此 辅助 索引 应 该 仅 在 选择 得 到 的 记录 很 少时 使 用 。 
12.3.3 复杂 选择 的 实现 
到 此 为 止 ， 我 们 只 考虑 了 形 如 4 op B 的 简单 选择 条 件 ， 其 中 op 是 等 值 或 比较 运算 。 现 在 我 们 来 看 
看 更 复杂 的 选择 谓词 。 
© 合 取 : 合 取 选择 (conjunctive selection) 形 式 如 下 ， 
o,non--no, 7) 
o MTEL: 析 取 选择 (disjunctize selection) 形 式 如 下 ， 
Ta, VaV va Cr) 
所 有 满足 单个 简单 条 件 9; 的 记录 的 并 集 满足 该 析 取 条 件 。 

© 取 反 : 选择 操作 olr 的 结果 就 是 关系 7 中 对 条 件 9 取 值 为 假 的 元 组 的 集合 。 如 果 没 有 空 值 的 
话 ， 该 结果 就 是 那些 不 在 olr) 中 的 元 组 的 集合 。 

我 们 可 以 用 下 列 算 法 之 一 来 实现 涉及 多 个 简单 条 件 的 合 取 或 析 取 的 选择 操作 。 

。 A7( 利 用 一 个 索引 的 合 取 选 择 ) : 首先 我 们 判断 是 否 存在 某 个 简单 条 件 中 的 某 个 属性 上 的 一 条 存 
取 路 径 。 若 存在 ， 则 可 以 用 选择 算法 A2 ~ A6 中 的 一 个 来 检索 满足 该 条 件 的 记录 。 然 后 在 内 存 组 
冲 区 中 ,我 们 通过 测试 每 条 检索 到 的 记录 是 否 满足 其 余 的 简单 条 件 ， 来 最 终 完 成 这 个 操作 。 

为 减少 代价 ， 我 们 选择 某 个 0, 及 Al ~ A6 算法 之 一 ,它们 的 组 合 可 使 o (r) 的 代价 达到 最 
小 。 算 法 A7 的 代价 由 所 选 算法 的 代价 给 出 。 
© A8 (使 用 组 合 索引 的 合 取 选择 ) : 某 些 合 取 选 择 可 能 可 以 使 用 合适 的 组 合 索引 (composite index) 





© 回想 一 下 ， 如 果 用 B* 树 文件 组 织 存储 关系 ， 则 当 叶 结 点 分 裂 、 合 并 或 记录 重新 配置 的 时 候 记 录 可 能 在 磁盘 块 之 
间 移 动 。 
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( 即 在 多 个 属性 上 建立 的 一 个 索引 ) 。 如 果 选 择 指定 的 是 两 个 或 多 个 属性 上 的 等 值 条 件 ， 并 且 在 
这 些 属性 字段 的 组 合 上 又 存在 组 合 索引 ， 则 可 以 直接 搜索 索引 。 索 引 的 类 型 将 决定 使 用 A2、 
A3 、A4 算法 中 的 哪 一 个 。 

。 AS 通过 标识 符 的 交 实 现 合 取 选 择 ) : 另 一 种 可 选 的 实现 合 取 选 择 的 方法 是 利用 记录 指针 或 记 
录 标 识 符 。 该 算法 要 求 各 个 条 件 所 涉及 的 字段 上 有 带 记录 指针 的 索引 。 该 算法 对 每 个 索引 进行 
扫描 ， 获 取 那 些 指向 满足 单个 条 件 的 记录 的 指针 。 所 有 检索 到 的 指针 的 交集 就 是 那些 满足 合 取 
条 件 的 指针 的 集合 。 然 后 算法 利用 该 指针 集合 获取 实际 的 记录 。 如 果 并 非 各 个 条 件 上 均 存 在 索 
引 ， 则 该 算法 要 用 剩余 条 件 对 所 检索 到 的 记录 进行 测试 。 

算法 A9 的 代价 是 扫描 各 个 单独 索引 代价 的 总 和 加 上 获取 检索 到 的 指针 列表 的 交集 中 的 记 
录 的 代价 。 对 指针 列表 进行 排序 并 按照 排序 顺序 检索 记录 能 够 减少 该 算法 的 代价 。 因 此 ，(1) 
应 把 指向 一 个 磁盘 块 中 所 有 记录 的 指针 归并 到 一 起 ， 这 样 只 需 通过 一 次 VO 操作 就 可 以 获取 到 
在 该 磁盘 块 中 选择 的 所 有 记录 ; 并 且 (2) 磁 盘 块 的 读 取 也 要 按 存储 次 序 执行 ， 这 样 磁盘 臂 的 移 
动 最 少 。12. 4 节 描述 排序 算法 。 

。 A10( 通过 标识 符 的 并 实现 析 取 选 择 ) : 如果 在 析 取 选择 中 所 有 条 件 上 均 有 相应 的 存 取 路 径 存 
在 ， 则 逐个 扫描 索引 获取 满足 单个 条 件 的 元 组 指针 。 检 索 到 的 所 有 指针 的 并 集 就 是 指向 满足 析 
取 条 件 的 所 有 元 组 的 指针 集 。 然 后 利用 这 些 指针 检索 实际 的 记录 。 

然而 ， 即 使 只 有 其 中 的 一 个 条 件 不 存在 存 取 路 径 ， 我 们 也 不 得 不 对 这 个 关系 进行 一 次 线性 
扫描 以 找 出 那些 满足 该 条 件 的 元 组 。 因 此 ， 只 要 析 取 式 中 有 一 个 这 样 的 条 件 ， 最 有 效 的 存 取 方 
法 就 是 线性 扫描 ， 扫 描 的 同时 对 每 个 元 组 进行 析 取 条 件 测试 。 
具有 取 反 条 件 的 选择 的 实现 留 作 练习 (实践 习题 12.6) 。 


12.4 排序 


数据 排序 在 数据 库 系 统 中 有 重要 的 作用 ， 其 原因 有 两 个 : 第 一 个 原因 是 SQL 查询 会 指明 对 结果 进行 
排序 ; 第 二 个 原因 是 当 输入 的 关系 已 排序 时 ， 关 系 运算 中 的 一 些 运算 (如 连接 运算 ) 能 够 得 到 高 效 实现 ， 
这 个 原因 对 查询 处 理 而 言 也 是 同等 重要 。 因 此 ， 本 节 先 讨论 排序 ， 然 后 在 12. 5 节 中 讨论 连接 运算 。 
通过 在 排序 码 上 建立 索引 ， 然 后 使 用 该 索引 按 序 读 取 关 系 ， 可 以 完成 对 关系 的 排序 。 然 而 ， 这 一 
过 程 仅仅 在 逻辑 上 通过 索引 对 关系 排序 ， 而 设 有 在 物理 上 排序 。 因 此 ， 顺 序 读 取 元 组 可 能 导致 每 读 一 
个 元 组 就 要 访问 一 次 磁盘 (磁盘 搜索 加 上 磁盘 块 传输 ) 。 由 于 记录 数目 可 能 比 磁 盘 块 的 数目 大 很 多 ， 因 
此 这 样 做 的 代价 会 很 大 。 出 于 以 上 原因 ， 有 时 需要 在 物理 上 对 记录 排序 。 
人 们 已 对 排序 的 有 关 问 题 进行 了 广泛 的 研究 ， 这 些 研 究 既 有 针对 内 存 中 能 够 完全 容纳 的 关系 的 ， 
又 有 针对 不 能 完全 被 内 存 容 纳 的 关系 的 。 在 第 一 种 情况 下 ， 可 以 利用 标准 的 排序 技术 ( 如 快速 排序 ) 。 
这 里 讨论 如 何 处 理 第 二 种 情况 。 
12.4.1 ”外 部 排序 归并 算法 
对 不 能 全 部 放 在 内 存 中 的 关系 的 排序 称 为 外 排序 (external sorting) 。 外 排序 中 最 常用 的 技术 是 外 部 
排序 归并 ( external sort-merge) 算 法 。 下 面 讲 述 该 算法 。 令 W 表示 内 存 缓冲 区 中 可 以 用 于 排序 的 块 数 ， 
即 内 存 的 缓冲 区 能 容纳 的 磁盘 块 数 。 
1. 第 一 阶段 ， 建 立 多 个 排 好 序 的 归并 段 (run) 。 每 个 归并 段 都 是 排序 过 的 ， 但 仅 包含 关系 中 的 部 
分 记录 。 
i=0; 
repeat 
读 入 关系 的 肝 块 数据 或 剩 下 的 不 足 MAHE; 
在 内 存 中 对 关系 的 这 一 部 分 进行 排序 ; 
将 排 好 序 的 数据 写 到 归并 段 文件 R, 中 ; 


i=i+l; 


until 到 达 关 系 末 尾 
2. 第 二 阶段 ， 对 归并 段 进行 上 归并。 暂时 假定 归并 段 的 总 数 小 于 M， 这 样 我 们 可 以 为 每 个 归并 段 
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文件 分 配 一 个 块 ， 此 外 剩 下 的 空间 还 应 能 容纳 存放 结果 的 一 个 块 。 归 并 阶段 的 工作 流程 如 下 : 

为 NN 个 归并 有 段 文 件 R 各 分 配 一 个 内 存 缓冲 块 ， 并 分 别 读 入 一 个 数据 块 ; 

repeat 
Teer TTT ery were 
把 该 元 组 作为 输出 写 出 ， 并 将 其 从 缓冲 块 中 删除 ; 
if 任何 一 个 归并 段 文件 R, 的 缓冲 块 为 空 并 且 没 有 到 达 R, 末尾 
then A R, 的 下 一 块 到 相应 的 缓冲 块 
until 所 有 的 缓冲 块 均 空 

归并 阶段 的 输出 是 已 排序 的 关系 。 输 出 文件 也 被 缓冲 以 减少 写 磁盘 次 数 。 上 面 的 归并 算法 是 对 标 
准 内 存 排 序 归 并 算法 中 的 二 路 归并 算法 的 推广 ; 由 于 该 算法 对 w 个 归并 段 进 行 归并 ， 因 此 它 称 为 N 路 
归并 (N-way merge), [547 | 

一 般 而 言 ， 若 关系 比 内 存 大 得 多 ， 则 在 第 一 阶段 可 能 产生 M 个 甚至 更 多 的 归并 段 ， 并 且 在 归并 阶 
段 为 每 个 归并 段 分 配 一 个 块 是 不 可 能 的 。 在 这 种 情况 下 ， 归 并 操作 需要 分 多 趟 进行 。 由 于 内 存 足 以 容 
纳 M -1 个 缓冲 块 ， 因 此 每 趟 归并 可 以 用 M - 1 个 归并 段 作 为 输入 。 

最 初 那 趟 归并 过 程 如 下 : KM -1 个 归并 段 如 前 第 2 点 所 述 进 行 归并 得 到 一 个 归并 段 作 为 下 一 趟 
的 输入 。 接 下 来 的 W -1 个 归并 段 类 似 地 进行 归并 ， 如 此 下 去 ， 直 到 所 有 的 初始 归并 段 都 处 理 过 为 止 。 
此 时 ， 归 并 段 的 数目 减少 到 原来 的 1/(W - 1) ， 如 果 归 并 后 的 归并 段 数 目 仍 大 于 等 于 内 ， 则 以 上 一 趟 
归并 创建 的 归并 有 段 作为 输入 进行 下 一 趋 归 并 。 每 一 趋 归并 有 段 的 数目 均 减少 为 原来 的 1/(M - 1) 。 如 有 
需要 归并 过 程 将 不 断 重复 ， 直 到 归并 有 段 数目 小 于 M， 此 时 作 最 后 一 未 归并 ,得 到 排序 的 输出 结果 。 

图 12-4 显示 了 对 一 个 示例 关系 进行 外 部 归并 排序 的 过 程 。 为 了 方便 说 明 ， 我 们 假定 每 块 只 能 容纳 1 
ATCA, = 1), ， 同 时 假定 内 存 最 多 只 能 提供 3 个 块 。 在 归并 阶段 ， 两 个 块 用 于 输入 ， 另 一 块 用 于 输出 -。 














归并 段 归并 段 


图 12-4 使 用 归并 排序 的 外 排序 


12. 4.2 外 部 排序 归并 的 代价 分 析 

下 面 我 们 计算 外 部 归并 排序 的 磁盘 存 取 代价 。 令 b, 代表 包含 关系 7 中 记录 的 磁盘 块 数 。 在 第 一 阶 [548 
段 要 读 入 关系 的 每 一 数据 块 并 写 出 ， 共 需 2b, 次 磁盘 块 传输 。 初 始 归并 段 数 为 | b,AM 1。 由 于 每 一 趟 归 
并 会 使 归并 有 段 数目 减少 为 原来 的 1/(M - 1) ， 因 此 总 共 所 需 归 并 趟 数 为 | logy, (b,/M) | 。 对 于 每 一 趟 
归并 ， 关 系 的 每 一 数据 块 读 写 各 一 次 ， 其 中 有 两 趟 例外 。 首 先 ， 最 后 一 趟 可 以 只 产生 排序 结果 而 不 写 
和 人 磁盘。 其 次 ， 可 能 存在 在 某 一 趟 中 既 没有 读 和 人 又 没有 写 出 的 归并 段 一 一 例如 ， 某 一 趟 有 M 个 归并 段 
需 归 并 ， 其 中 M - 1 个 被 读 和 并 归并 ， 而 另 一 个 归并 段 在 该 趟 归并 中 却 未 被 访问 。 忽 略 后 一 种 特殊 情 
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况 ( 相 对 少 地 ) 所 能 节省 的 磁盘 存 取 ， 关 系 外 排序 的 磁盘 块 传输 的 总 数 为 : 
b, (2[ logy_1(b,/M) ] +1) 

把 该 公式 用 到 图 12-4 所 示 的 例子 上 ， 我 们 算出 共 需 12 * (4 +1) =60 次 块 传输 ， 这 一 结果 可 以 在 
图 12-4 中 得 以 验证 。 注 意 ， 上 面 的 值 不 包括 将 最 后 结果 写 到 外 存 的 开销 。 

此 外 ,我们 还 要 加 上 磁盘 搜索 的 代价 。 在 产生 归并 有 段 阶段 需要 为 读 取 每 个 归并 有 段 的 数据 作 磁 盘 搜 
索 ， 也 要 为 写 回归 并 段 作 磁盘 搜索 。 在 归并 阶段 ， 如 果 每 次 从 一 个 归并 段 读 取 b, 块 数据 (也 就 是 说 ， 
把 b, 个 缓冲 块 分 配给 每 个 归并 段 ) ， 则 每 一 趟 归并 需要 作 [ b, b, 1 次 磁盘 搜索 以 读 取 数据 ”。 尽 管 输出 
结果 是 顺序 写 回 磁盘 的 ， 如 果 它 和 输入 归并 段 在 一 个 磁盘 块 上 ， 磁 盘 头 在 写 回 连续 的 块 的 间隔 中 可 能 
已 经 移 到 别处 。 这 样 我 们 需要 为 每 趟 归并 加 上 总 共 2[ 57 b, ] 次 磁盘 搜索 ， 除 了 最 后 一 趟 以 外 ( 因为 我 
们 假定 最 终结 果 不 写 回 磁盘 )。 假 设 输出 阶段 也 分 配 了 5b, 个 块 ， 每 一 趟 可 以 归并 L M/b, -1 个 归并 段 ， 
则 磁盘 搜索 的 总 次 数 为 : 

2[b,/M] +[b,/ b, 1(2| logi ws (6,/M) | -1) 

如 果 我 们 把 分 配给 每 个 归并 段 的 缓冲 块 数 b, 设 为 1， 把 该 公式 用 到 图 12-4 所 示 的 例子 上 ， 我 们 算 

出 共 需 8+12* (2*2-1) =44 次 磁盘 搜索 。 


12.5 连接 运算 


这 一 节 将 探讨 计算 关系 连接 的 几 种 算法 ， 并 分 析 各 种 算法 的 代价 。 

我 们 用 等 值 连接 (equi-join) 这 个 词 来 表示 形 如 r.ae s 的 连接 ， 其 中 4、B 分 别 为 关系 7 与 s 的 属 
性 或 属性 组 。 

我 们 使 用 下 面 的 表达 式 作 为 例子 : 

student MK takes 

我 们 就 用 在 第 2 章 用 过 的 同样 的 关系 模式 ， 假 定 关 于 这 两 个 关系 有 如 下 信息 。 

© student 的 记录 数 : ms = 5000 

© student 的 磁盘 块 数 : bouden = 100 

© takes 的 记录 数 : Nuar, =10 000 

© takes 的 磁盘 块 数 : bares =400 
12.5.1 REHNE 


图 12-5 给 出 了 一 个 计算 两 个 关系 r 和; 的 0 连接 ro sy RRA TFAA EE hE for 
循环 构成 ， 因 此 它 称 为 嵌 套 循环 连接 ( nested-loop join) 。 由 于 算法 中 有 关 7 的 循环 包含 有 关 ; 的 循环 ， 因 
此 关系 7 称 为 连接 的 外 层 关系 (outer relation), iil s 称 为 连接 的 内 层 关 系 (inner relation ) 。 该 算法 使 用 了 
t,t. 这 个 记号 ， 其 中 4 和, 表示 r、s WTH, t, t, 表示 将 上 和 1, 元 组 的 属性 值 拼接 而 成 的 一 个 元 组 。 

与 选择 算法 中 使 用 的 线性 文件 扫描 算法 类 似 ， 骨 套 循环 连接 算法 不 要 求 有 索引 ， 并 且 不 管 连接 条 
件 是 什么 ， 该 算法 均 可 使 用 。 对 此 算法 进行 扩展 来 计算 自然 连接 也 是 简单 明了 的 ， 因 为 自然 连接 可 表 
示 为 一 个 9 连接 然后 做 去 掉 重 复 属性 的 投影 运算 。 唯 一 需要 的 修改 是 在 将 t,* 1, 放 人 结果 集 之 前 删除 
t, ° ,的 重复 属性 。 





for each 元 组 t, in r do begin 
for each 元 组 /in s do begin 
测试 元 组 对 (1,, t) 是 否 满足 连接 条 件 9 


WRH E, Ee, 加 到 结果 中 
end 
end 





12-5 内 套 循环 连接 


CO 更 精确 一 点 ， 由 于 归并 段 都 是 分 开 读 取 的 ， 在 读 到 归并 段 未 尾 的 时 候 可 能 会 读 到 小 于 b 个 块 ， 因 此 我 们 也 许 对 
每 个 段 都 需要 一 次 额外 的 磁盘 搜索 。 简 单 起 见 我 们 省 略 了 这 个 细节 。 
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徐 套 循环 连接 算法 的 代价 很 大 ， 因 为 该 算法 逐个 检查 两 个 关系 中 的 每 一 对 元 组 。 考 虑 嵌 套 循环 连 
接 算法 的 代价 ， 所 需 考虑 的 元 组 对 数目 是 n, * n,， 这 里 n, 指 7 中 的 元 组 数 ，n, 指 * 中 的 元 组 数 。 对 于 
关系 > 中 的 每 一 条 记录 ， 我 们 必须 对 * 作 一 次 完整 的 扫描 。 在 最 坏 的 情况 下 ， 缓 冲 区 只 能 容纳 每 个 关系 
的 一 个 数据 块 ， 这 时 共 需 n, * b, +b, 次 块 传输 ， 这 里 5, 和 上 六 分 别 代表 包含 关系 > 和 ， 中 元 组 的 磁盘 块 
数 。 对 每 次 扫描 内 层 关系 ;我 们 只 需 一 次 磁盘 搜索 ， 因 为 它 的 数据 是 顺序 读 取 的 ， 读 取 关 系 7 一 共和 需要 
b, 次 磁盘 搜索 ， 这 样 得 到 总 的 磁盘 搜索 次 数 为 几 + b,。 在 最 好 的 情况 下 ， 内 存 有 足够 空间 同时 容纳 两 
个 关系 ， 此 时 每 一 数据 块 只 需 读 一 次 ; 从 而 只 需 b, + b 次 块 传输 ， 加 上 两 次 磁盘 搜索 。 

如 果 其 中 一 个 关系 能 完全 放 在 内 存 中 ， 那 么 把 这 个 关系 作为 内 层 关系 来 处 理 是 有 好 处 的 。 因 为 这 
样 内 层 循环 关系 只 需要 读 一 次 。 所 以 ， 如 果 s 小 到 可 以 装 入 内 存 ， 那 么 我 们 的 策略 只 需 b, + b, 次 块 传 
输 和 两 次 磁盘 搜索 一 一 其 代价 与 两 个 关系 能 同时 装 人 内 存 的 情形 相同 。 

现在 考虑 student 与 takes 的 自然 连接 。 暂 时 假设 两 个 关系 中 没有 任何 索引 可 以 利用 ， 并 且 也 不 想 创 
建 任 何 索引 。 我 们 可 以 用 艇 套 循环 来 计算 连接 ， 假 定 连 接 中 student 是 外 层 关系 ，takes 是 内 层 关 系 。 这 
时 我 们 需要 检查 5000 * 10000 = 50 * 10° 对 元 组 。 在 最 坏 的 情况 下 ， 块 传输 次 数 是 5000 * 400 + 100 = 
2 000 100， 加 上 5000 + 100 =5100 次 磁盘 搜索 ; 然而 在 最 好 的 情况 下 ， 两 个 关系 只 需要 读 一 次 ， 然 
后 进行 计算 ， 其 代价 最 多 只 要 100 + 400 = 500 次 块 传输 和 两 次 磁盘 搜索 一 一 大 大 优 于 最 坏 的 情况 。 如 
果 我 们 把 takes 作为 外 层 关系 ， 把 student 作为 内 层 关系 ， 此 策略 在 最 坏 情 况 下 需要 10000 * 100 +400 = 
1 000 400 次 块 传输 加 上 10 400 次 磁盘 搜索 。 块 传输 的 数目 显著 地 减少 了 ， 不 过 磁盘 搜索 的 次 数 增加 了 ， 
不 过 假定 =4 BRD, tp = 0. 1 毫秒 ， 总 的 时 间 代 价 还 是 减少 了 。 
12.5.2 ” 块 嵌 套 循环 连接 

因 缓 冲 区 太 小 而 内 存 不 能 完全 容纳 任何 一 个 关系 时 ， 如 果 我 们 以 块 的 方式 而 不 是 以 元 组 的 方式 处 
理 关系 ， 仍 然 可 以 减少 不 少 块 读 写 次 数 。 图 12-6 Mat EERE EM EE (block nested-loop join) , 
它 是 嵌 套 循环 连接 的 一 个 变种 ， 其 中 内 层 关系 的 每 一 块 与 外 层 关系 的 每 一 块 形 成 一 对 。 在 每 个 块 对 中 ， 
一 个 块 中 的 每 一 个 元 组 与 另 一 块 的 每 一 元 组 形成 元 组 对 ， 得 到 全 体 元 组 对 。 和 前 面 一 样 ， 把 满足 连接 
条 件 的 所 有 元 组 对 添加 到 结果 中 。 





for each 块 B, of r do begin 
for each 块 B of s do begin 
for each 元 组 1, in B, do begin 
for each 元 组 t. in B, do begin 
测试 元 组 对 (t,，i, ) 是 否 满足 连接 条 件 
WRH E, HEt, t, 加 到 结果 中 
end 
end 
end 
end 











图 12-6 KREME 


块 赔 套 循 环 连接 与 基本 的 艇 套 循环 连接 算法 代价 的 主要 差别 在 于 : 在 最 坏 的 情况 下 ， 对 于 外 层 关 
系 中 的 每 一 个 块 ， 内 层 关系 s 的 每 一 块 只 须 读 一 次 ， 而 不 是 对 外 层 关系 的 每 一 个 元 组 读 一 次 。 因 此 ， 
在 最 坏 的 情况 下 ， 共 需 b, * b, +b, 次 块 传输 ， 这 里 b, Ab, 分 别 代表 含有 关系 r+ 和 s 中 元 组 的 磁盘 块 数 。 
对 内 层 关系 的 每 一 次 扫描 需要 一 次 磁盘 搜索 ， 对 外 层 关系 的 扫描 需要 每 块 一 次 磁盘 搜索 ， 这 样 总 共 是 
2b, 次 磁盘 搜索 。 显 然 ， 如 果 内 存 不 能 容纳 任何 一 个 关系 ， 则 使 用 较 小 的 关系 作为 外 层 关系 更 有 效 。 在 
最 好 的 情况 下 ， 内 存 能 够 容纳 内 层 关系 ， 需 要 b, +b, 次 块 传输 加 上 两 次 磁盘 搜索 (在 这 种 情况 下 我 们 把 
较 小 的 关系 作为 内 层 关系 ) 。 

回 到 计算 student X takes 的 例子 ， 考 虑 用 块 说 套 循环 连接 算法 来 计算 。 在 最 坏 的 情况 下 ， 我 们 必须 
为 student 的 每 一 个 块 读 取 takes 的 所 有 块 ， 因 此 ， 在 最 坏 的 情况 下 ， 共 需 100 * 400 + 100 =40 100 次 块 
传输 加 上 2 * 100 = 200 次 磁盘 搜索 。 这 个 代价 与 采用 基本 艇 套 循 环 连 接 算法 所 需 的 5000 * 400 + 100 = 


313 


[550 | 








[551 | 


314 ”第 三 部 分 数据 存储 和 查询 


2 000 100 次 块 传输 和 5100 次 磁盘 搜索 相 比 ， 是 一 个 显著 的 改进 。 而 最 好 的 情况 下 的 代价 和 原来 一 
样 一 一 100 +400 =500 次 块 传输 和 两 次 磁盘 搜索 。 

嵌 套 循环 与 块 柑 套 循环 算法 的 性 能 可 以 进一步 地 改进 : 

。 如 果 自 然 连 接 或 等 值 连接 中 的 连接 属性 是 内 层 关 系 的 码 ， 则 对 每 个 外 层 关系 元 组 ， 内 层 循环 一 

且 找 到 了 首 条 匹配 元 组 就 可 以 终止 。 

© 在 块 肉 套 循 环 连接 算法 中 ， 外 层 关系 可 以 不 用 磁盘 块 作为 分 块 的 单位 ， 而 以 内 存 中 最 多 能 容纳 
的 大 小 为 单位 ， 当 然 同 时 要 留 出 足够 的 缓冲 空间 给 内 层 关 系 及 输出 结果 使 用 。 也 就 是 说 ， 如 果 
AFA M 块 ， 我 们 一 次 读 取 外 层 关系 中 的 M -2 块 ， 当 我 们 读 取 到 内 层 关系 中 的 每 一 块 时 ， 我 
们 把 它 与 外 层 关系 中 的 所 有 M -2 块 做 连接 。 这 种 改进 使 内 层 关系 的 扫描 次 数 从 b, 次 减少 到 
[b,/( M -2) | 次 ,这 里 的 b, 是 外 层 关系 所 占 的 块 数 。 这 样 全 部 代价 为 [7A(M -2) * b, +b. 1 次 
块 传输 和 2[b,/( M -2) | 次 磁盘 搜索 。 
对 内 层 循环 轮流 做 向 前 、 向 后 的 扫描 。 该 扫描 方法 对 磁盘 块 读 写 请 求 进行 排序 ， 使 得 上 一 次 扫 
描 时 留 在 缓冲 区 中 的 数据 可 以 重用 ， 从 而 减少 磁盘 存 取 次 数 。 

。 若 内 层 循环 的 连接 属性 上 有 索引 ， 可 以 用 更 有 效 的 索引 查找 法 替代 文件 扫描 法 。 这 一 改进 在 
12. 5. 3 节 讲 述 。 
12.5.3 索引 岁 套 循环 连接 

TERE EEE (LA 12-5) 中 ， 若 在 内 层 循 环 的 连接 属性 上 有 索引 ， 则 可 以 用 索引 查找 替代 文件 

扫描 。 对 于 外 层 关系 7 的 每 一 个 元 组 1,， 可 以 利用 索引 查找 s PATH t, 满足 连接 条 件 的 元 组 。 

上 述 连 接 方法 称 为 索引 嵌 套 循环 连接 (indexed nested-loop join) ， 它 可 以 在 已 有 索引 或 者 为 了 计算 
该 连接 而 专门 建立 临时 索引 的 情况 下 使 用 。 

在 关系 * 中 查找 和 给 定 元 组 满足 连接 条 件 的 元 组 本 质 上 是 在 ;上 做 选择 运算 。 例 如， 考虑 
student X takes。 假 设 student 中 有 一 个 ID 为 “00128” 的 元 组 ， 那 么 takes 中 相应 的 元 组 就 是 那些 满足 选择 
条 件 ID =“00128” 的 元 组 。 

索引 髋 套 循环 连接 的 代价 可 以 如 下 计算 。 对 于 外 层 关系 7 的 每 一 个 元 组 ， 需 要 在 关系 : 的 索引 上 进 
行 查找 ， 检 索 相 关 元 组 。 在 最 坏 的 情况 下 ,缓冲 区 只 能 容纳 关系 7 的 一 块 和 索引 的 一 块 。 此 时 ， 读 取 
关系 r+ 需 4b, KIORE, REH b, 指 包含 关系 中 记录 的 磁盘 块 数 。 每 次 YO 操作 需要 一 次 磁盘 搜索 
和 一 次 块 传输 ， 因 为 磁盘 头 可 能 在 1/0 操作 的 间隔 中 移动 过 。 对 于 关系 + 中 的 每 个 元 组 ， 在 ; 上 进行 索 
引 查 找 。 这 样 ， 连 接 的 时 间 代 价 可 用 b(t, +ts) +n, xe RIA, Hen, 是 关系 r 中 的 记录 数 ,c 是 使 用 
连接 条 件 对 关系 * 进行 单 次 选择 操作 的 代价 。 在 12.3 节 中 我 们 已 经 知道 对 单个 选择 算法 (可 能 使 用 索 
引 ) 如 何 估计 代价 ， 这 可 以 使 我 们 估算 出 c 的 值 。 

代价 计算 公式 表明 ， 如 果 两 个 关系 ~、* 上 均 有 索引 时 ， 一 般 把 元 组 较 少 的 关系 作 外 层 关 系 时 效果 
较 好 。 

例如 ， 考 虑 student Mi takes HRI HAVER, FCP student 作 外 层 关系 。 假 设 关系 takes 在 连接 属 
性 ID 上 有 B' 树 主 索 引 ， 平均 每 个 索引 结 点 包含 20 个 索引 项 。 由 于 takes 有 10 000 个 元 组 ， 因 此 树 高 
度 为 4， 存 取 实 际 数据 还 需要 一 次 磁盘 访问 。 又 由 于 nw 是 5000， 因 此 总 代价 为 100 + 5000 * 5 = 
25 100 次 磁盘 访问 ， 其 中 每 次 访问 都 需要 一 次 磁盘 搜索 和 一 次 磁盘 块 传输 。 反 之 ， 正 如 我 们 此 前 看 到 
的 , 一 次 块 嵌 套 循环 连接 操作 需要 40 100 次 块 传输 和 200 次 磁盘 搜索 。 尽 管 块 传输 的 次 数 减少 了 ， 但 
磁盘 搜索 的 代价 增加 了 。 这 样 总 的 代价 还 是 增加 了 ， 因 为 一 次 磁盘 搜索 的 代价 比 一 次 块 传输 要 高 。 然 
而 ， 如 果 我 们 在 student 关系 上 有 一 个 选择 操作 使 得 行 数 显著 地 减少 ， 索 引 嵌 套 循环 连接 可 以 比 块 媒 套 
循环 连接 快 得 多 。 

12.5.4 ”归并 连接 

归并 连接 ( merge join) 算 法 (又 称 排序 - 归并 - 连接 ( sort-merge join) 算 法 ) 可 用 于 计算 自然 连接 和 等 值 连 
接 。 令 r(R)、s(5) 表 示 要 执行 自然 连接 运算 的 关系 ， 并 令 RNS 表示 两 个 关系 的 公共 属性 。 假 定 两 个 关系 均 
按 属性 RNMS 排序 ， 那 么 它们 的 连接 可 用 与 归并 排序 算法 中 的 归并 阶段 非常 类 似 的 处 理 过 程 来 计算 . 
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12.5.4.1 归并 算法 
归并 连接 算法 如 图 12-7 所 示 。 在 这 个 算法 中 ，Join4ttrs 表示 ROS 中 的 属性 ; tt, 表示 具有 相同 [553] 
Join4ttrs 属性 值 的 两 个 元 组 t, t, 的 拼接 ， 接 着 通过 投影 去 除 其 中 重复 的 属性 。 归 并 连接 算法 为 每 个 关 
系 分 配 一 个 指针 。 这 些 指 针 一 开始 指向 相应 关系 的 第 一 个 元 组 。 随 着 该 算法 的 进行 ， 指 针 遍 历 整 个 关 
系 。 一 个 关系 中 在 连接 属性 上 具有 相同 值 的 一 组 元 组 被 读 和 人 到 S, 中 。 图 12-7 所 示 算 法 要 求 每 个 5, 元 
组 集合 都 能 装 和 人 主 存 ; 本 节 稍 后 将 讲述 如 何 扩展 该 算法 以 避免 这 一 限制 。 接 下 来 ， 另 一 关系 中 相应 的 
元 组 (如 果 有 的 话 ) 被 读 和 人 ， 并 在 读 和 人 的 同时 加 以 处 理 。 








pr := r 的 第 一 个 元 组 的 地 址 ; 
ps := s 的 第 一 个 元 组 的 地 址 ; 
while ( ps # null and pr # null ) do 


t.:= ps 所 指向 的 元 组 ; 

S= | et}; 

让 ps 指向 关系 ; 的 下 一 个 元 组 ; 

done := false; 

while ( not done and ps # null ) do 


4 := ps 所 指向 的 元 组 ; 
if ( t! [ JoinAttrs | =t,[ JoinAtirs | ) 
then begin 
S,:= S Ut ti}; 
ik ps 指向 关系 的 下 一 个 元 组 ; 
end 
else done := true; 
end 
t,:= pr 所 指向 的 元 组 ; 
while ( pr # null and t,[ JoinAtirs| < i,[ JoinAtirs| ) do 


让 pr 指向 关系 r 的 下 一 个 元 组 ; 
t,:= pr 所 指向 的 元 组 ; 
end 
while ( pr # null and t,[ JoinAtirs| =1,| JoinAtirs| ) do 


for each ż, in S, do 





t,he, 加 入 结果 中 ; 
end 
让 pr 指向 关系 7 的 下 一 个 元 组 ; 
t,:= pr 所 指向 的 元 组 ; 
end 
end 











图 12-7 归并 连接 [554] 
图 12-8 给 出 了 在 连接 属性 cl 上 排序 的 两 个 关系 。 利 用 图 12-7 PAAR BAR hE — i UP 
接 算法 是 很 有 启发 性 的 。 
图 12-7 所 示 的 归并 连接 算法 要 求 主 存 能 容纳 在 连接 属 xd 
性 上 有 相同 值 的 元 组 集 So MEXR s 很 大 ， 这 个 要 求 也 
通常 可 以 满足 。 如 果 对 于 某 些 连 接 属性 值 ，$, 大 于 可 用 内 
存 ， 则 可 以 在 集合 S, 与 关系 + 中 具有 相同 连接 属性 值 的 元 
组 之 间 采 用 块 赂 套 循环 连接 。 
如 果 任 意 一 个 输入 关系 r 或 s 未 按 连接 属性 排序 ， 那 么 
可 以 先 对 它们 进行 排序 ， 然 后 再 使 用 归并 连接 算法 。 归 并 连 
接 算法 也 可 以 很 容易 地 从 自然 连接 拓展 到 更 一 般 的 等 值 r 


连接 。 图 12-8 在 归并 连接 中 使 用 的 已 排序 关系 
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12. 5.4.2 代价 分 析 

一 旦 关系 已 排序 ， 在 连接 属性 上 有 相同 值 的 元 组 是 连续 存放 的 。 所 以 已 排序 的 每 一 元 组 只 须 读 一 
次 ， 因 而 每 一 块 也 只 须 读 一 次 。 由 于 两 个 文件 都 只 须 读 一 遍 ( 假 设 所 有 集合 S, 均 可 装 和 内存) ， 因 此 可 
知 归 并 连接 算法 是 高 效 的 。 所 需 磁 盘 块 传输 次 数 是 两 个 文件 块 数 之 和 : b, +b, 

假设 为 每 个 关系 分 配 久 个 缓冲 块 ， 那么 所 需 磁 盘 搜 索 次 数 为 [b,/ b, |+1b,/ b, | 。 由 于 磁盘 搜索 代 
价 远 比 数据 传输 高 ， 假 设 还 有 额外 的 内 存 ， 因 此 为 每 个 关系 分 配 多 个 缓冲 块 是 有 意义 的 。 例 如 ,假设 
对 于 每 个 4KB 的 块 ，t; =0. 1 毫秒 ,和 =4 毫秒 ， 缓 冲 区 大 小 为 400 块 (或 者 1.6 MB), ， 则 每 4 毫秒 的 磁 

盘 搜索 时 间 对 应 每 40 毫秒 的 传输 时 间 。 换 句 话 说， 磁盘 搜索 时 间 将 只 占 传输 时 间 的 10% 

如 果 任 意 一 个 输入 关系 r 或 * 未 按 连 接 属 性 排序 ， 那 么 必须 先 对 它们 进行 排序 ， 排 序 代 价 必须 加 在 
上 述 所 有 的 代价 上 。 假 如 一 些 集合 5; 不 能 装 人 人 内存， 代价 将 有 轻微 的 增加 。 

假设 将 归并 连接 算法 应 用 到 我 们 的 student M takes 例子 上 ， 连 接 属性 是 万。 假定 两 个 关系 已 按 连 接 
属性 ID 排序 。 在 这 种 情况 下 ， 归 并 连接 需要 400 + 100 =500 次 块 传输 。 如 果 我 们 假设 在 最 坏 情况 下 每 
个 输入 关系 仅 分 配 到 一 个 缓冲 块 ( 即 b, =1)， 则 总 共 也 需要 400 + 100 = 500 次 磁盘 搜索 。 实 际 上 4b, (A 
可 以 设 得 远 比 这 个 值 高 ， 因 为 我 们 仅 需 要 对 两 个 关系 进行 缓冲 ， 所 以 磁盘 搜索 的 代价 远 比 上 述 的 要 小 。 

假设 两 个 关系 未 排序 ， 内 存 大 小 也 属于 最 差 情形 : 只 有 3 块 。 代 价 计 算 如 下 所 示 : 

1. 使 用 我 们 在 12. 4 节 得 到 的 公式 对 takes 进行 排序 需要 | log, (400/3) | =8 趟 归并 。 则 对 takes X 
系 进行 排序 需要 400 * (2| log, (400/3) ] +1) =6800 次 块 传输 ， 再 加 上 将 结果 写 回 的 400 次 块 传输 。 
排序 所 需 磁 盘 搜 索 的 次 数 是 2* [ 400/3] +400 * (2 *8 -1) =6268 次 ， 加 上 写 回 结果 需要 400 次 磁盘 搜 
索 ， 总 共 是 6668 次 磁盘 搜索 ， 因 为 每 个 归并 段 只 能 分 配 到 一 个 缓冲 块 。 

2. 类 似 地 对 student 进行 排序 需要 | log,_,(100/3) ] =6 趟 归并 ， 即 100 * (2| log, ,(100/3) | +1) = 
1300 次 块 传输 ， 还 有 将 结果 写 回 的 100 次 块 传输 。 对 student 进行 排序 所 需 的 磁盘 搜索 次 数 为 
2 x [100/3] +100 « (2*6-1) =1164， 另 外 写 回 结果 需要 100 次 磁盘 搜索 ， 所 以 总 共 是 1264 次 搜索 。 

3. 最 后 ， 归 并 这 两 个 关系 需要 400 + 100 = 500 次 块 传输 和 500 次 磁盘 搜索 。 

因此 ， 在 关系 未 排序 ， 内 存 大 小 仅 能 容纳 3 块 的 情况 下 ， 总 共 需 要 9100 次 块 传输 和 8932 次 磁盘 搜索 

如 果 内 存 大 小 能 容纳 25 个 磁盘 块 ， 关 系 未 排序 ， 则 先 排序 然后 归并 连接 的 代价 如 下 所 示 : 

1. 对 关系 takes 的 排序 可 以 只 用 一 个 归并 步骤 完成 ， 总 共 花 费 400 * (2[ log, (400/25) | +1) = 1200 
次 磁盘 块 传输 。 类 似 地 ， 对 关系 student 的 排序 需要 300 次 磁盘 块 传输 。 把 排序 结果 写 回 磁盘 需要 400 
+100 =500 次 磁盘 块 传输 ， 并 且 归 并 步骤 还 需要 500 次 磁盘 块 传输 以 读 回 数据 。 把 所 有 这 些 代 价 加 起 
来 一 共 是 2500 次 磁盘 块 传输 。 

2. 如 果 我 们 假设 每 个 归并 段 仅 分 配 一 个 缓冲 块 ， 在 这 种 情况 下 对 takes 关系 进行 排序 以 及 把 排序 结 
果 写 回 磁盘 ， 所 需 的 磁盘 搜索 次 数 是 2 * | 400/25 | +400 +400 =832 次 。 类 似 地 ， 对 关系 studenit 来 说 需 
要 2 * [100/25 | +100 + 100 =208 次 磁盘 搜索 ， 再 加 上 归并 阶段 读 取 已 排序 数据 的 400 +100 次 磁盘 搜 

索 。 把 这 些 代 价 加 起 来 得 到 总 代价 为 1640 次 磁盘 搜索 。 

通过 为 每 个 归并 段 分 配 更 多 的 缓冲 块 ， 磁 盘 搜 索 的 次 数 能 够 显著 地 减少 。 例 如 ， 如 果 为 每 个 归并 段 
和 输出 结果 保留 5 个 缓冲 块 ， 则 归并 student 的 4 个 归并 段 的 代价 从 208 次 磁盘 搜索 降 到 2 * [100/25] + 
[100/5] +[ 100/5] = 48 次 磁盘 搜索 。 如 果 归 并 连接 阶段 为 take 和 student 保留 12 个 缓冲 块 ， 则 这 一 阶段 
的 磁盘 搜索 次 数 将 从 500 次 降 到 | 400/12 | +[ 100/12] =43 次 。 于 是 磁盘 搜索 的 总 次 数 是 251 。 

这 样 ， 如 果 关 系 未 排序 且 内 存 大 小 是 25 块 ， 总 代价 是 2500 次 磁盘 块 传输 加 上 251 次 磁盘 搜索 。 

12.5.4.3 混合 归并 连接 

当 两 个 关系 的 连接 属性 上 存在 辅助 索引 时 ， 可 以 对 未 排序 的 元 组 执行 归并 连接 运算 的 变种 。 该 算 
法 通过 索引 扫描 记录 ， 从 而 按 顺 序 检索 记录 。 但 这 种 变种 有 很 大 的 缺陷 ， 因 为 记录 可 能 分 散在 文件 的 
多 个 块 中 ， 从 而 每 个 元 组 的 存 取 都 可 能 导致 一 次 磁盘 访问 ， 代 价 很 大 。 

为 避免 这 种 代价 ， 我 们 可 以 使 用 一 种 混合 归并 - 连接 技术 ， 该 技术 把 索引 与 归并 连接 相 结合 。 

设 两 个 关系 中 有 一 个 排 了 序 ， 另 一 个 未 排序 ， 但 未 排序 的 关系 在 连接 属性 上 有 B’ 树 辅助 索引 。 混 合 归 
并 -连接 算法 (hybrid merge-join algorithm) 把 已 排序 关系 与 B“ 树 辅助 索引 叶 结 点 进行 归并 。 所 得 结果 文 
件 包含 了 已 排序 关系 的 元 组 及 未 排序 关系 的 元 组 地 址 。 然 后 ， 将 该 文件 按 未 排序 关系 元 组 的 地 址 进行 
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排序 ， 从 而 能 够 对 相关 元 组 按照 物理 存储 顺序 进行 有 效 的 检索 ， 最 终 完 成 连接 运算 。 扩 展 这 个 技术 用 
于 处 理 两 个 未 排序 关系 的 工作 留 作 练习 。 


12.5.5 散 列 连接 


类 似 于 归并 连接 算法 ， 散 列 连接 算法 可 用 于 实现 自然 连接 和 等 值 连接 。 在 散 列 连接 算法 中 ， 用 散 
列 函 数 h 来 划分 两 个 关系 的 元 组 。 此 算法 的 基本 思想 是 把 这 两 个 关系 的 元 组 划分 成 在 连接 属性 值 上 具 
有 相同 散 列 值 的 元 组 集合 。 
我 们 假设 : 
© hh 是 将 JoinAttrs 值 映射 到 |j0，1，… , n,} ASB RRB, ACH JoinAtrs 表示 自然 连接 中 与 s 的 公 
共 属 性 。 
O n, Thy Ta RRRA r 的 元 组 的 划分 ,一 开始 每 个 都 是 空 集 。 每 个 元 组 t; e r+ 被 放 人 划分 
中 ， 其 中 i=h(i,[ JoinAttrs] )。 
e so，s1，"….. sm 表示 关系 的 元 组 的 划分 ， 一 开始 每 个 都 是 空 集 。 每 个 元 组 ss 被 放 入 划分 s; 
H, H i =h(t,[ JoinAttrs ]) 。 557 
散 列 函数 应 当 具 有 在 第 11 章 讨论 过 的 “良好 ” 特 
性 一 一 随机 性 和 均匀 性 。 关 系 的 划分 如 图 12-9 所 示 。 
12.5.5.1 基本 思想 ; 
散 列 连接 算法 背后 的 思想 如 下 。 如 果 关 系 的 一 个 
元 组 与 关系 * 的 一 个 元 组 满足 连接 条 件 ， 那 么 它们 在 连 
接 属性 上 就 会 有 相同 的 值 。 若 该 值 经 散 列 函数 映射 到 i， 
则 关系 的 那个 元 组 必 在 r F, MRR s 的 那个 元 组 必 
Æ s 中 。 因 此 , r 中 的 元 组 r 只 需要 与 s; 中 的 元 组 相 
比较 ， 而 没有 必要 与 其 他 任何 划分 里 的 元 组 相 比 较 。 
例如 ， 如 果 d 是 student 中 的 一 个 元 组 ，c 是 takes 中 
的 一 个 元 组 , h 是 元 组 属性 ID 上 的 散 列 函数 ， 那 么 只 
有 在 h(c) =h(d) At d 5c FMR. A hle) #h(d), 
Wd 与 ec 在 属性 万 上 的 值 必 不 相等 。 然 而 ， 如 果 h(c) 








=h(d)， 我 们 必须 检查 d 与 c 在 连接 属性 上 的 值 是 否 相 的 划分 的 划分 
同 ， 因 为 可 能 4 与 < 有 不 同 的 1D 值 却 有 相同 的 散 列 值 。 图 12-9 ”关系 的 散 列 划分 
/* 对 关系 s 进行 划分 */ 


for each 元 组 t,in s do begin 
i: =h(1,[ JoinAttrs |) ; 
H, := H, Uft t; 
end 
/ x 对 关系 7 进行 划分 */ 
for each 元 组 t, in r do begin 
i:= h(t,[ JoinAttrs] ) ; 
H, := H, U ft,}; 
End 
/* 对 每 一 划分 进行 连接 * / 
for i:= 0 to n, do begin 
读 H,, ZEAFE PRBS; 
for each 元 组 ! in r, do begin 
检索 s 的 散 列 索引 ， 定 位 所 有 满足 i,[ JoinAnrs | =1,[ JoinAurs| 的 元 组 i, 
for each 匹配 的 元 组 t,in H,, do begin 
HD e, 加 入 结果 中 ; 
end 
end 
end 











K 12-10 ” 散 列 连接 
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12-10 显示 了 散 列 连接 (hash join) 算 法 计算 关系 7 与 关系 ;自然 连接 的 详细 过 程 。 和 归并 连接 算 
法 一 样 ，i,M i, 表示 元 组 i, t, 属性 的 拼接 ， 然 后 对 其 投影 除去 重复 属性 。 对 关系 进行 划分 后 ， 散 列 连 
接 算法 的 其 余部 分 对 各 个 划分 对 i(i=0, 1, … , 属 ) 进 行 单独 的 索引 艇 套 循环 连接 。 为 此 ， 该 算法 先 为 
每 个 s, 构造 (build) 散 列 索引 ， 然 后 用 六 中 的 元 组 进行 探查 ( probe) ( 即 在 s, 中 查找 ) 。 关 系 * 称 为 构造 
用 输入 (build input), HA r 称 为 探查 用 输入 (probe input) 。 
s 的 散 列 索 引 是 在 内 存 中 建立 的 ， 因 此 并 不 需要 访问 磁盘 以 检索 元 组 。 用 于 构造 此 索引 的 散 列 也 
数 与 前 面 使 用 的 散 列 函数 h 必须 是 不 同 的 ,但 仍 是 只 对 连接 属性 进行 散 列 映射 。 在 进行 索引 拨 套 循环 
连接 时 ， 系 统 使 用 该 索引 检索 那些 与 探查 用 输入 相 匹配 的 记录 。 
构造 阶段 与 探查 阶段 只 需要 对 构造 用 输入 与 探查 用 输入 作 一 次 扫描 。 将 散 列 连接 算法 推广 到 计算 
更 普遍 的 等 值 连接 是 很 容易 的 。 
应 选择 足够 大 的 n, 值 ， 以 使 对 于 任意 的 i， 内 存 中 可 以 容纳 构造 用 输入 关系 的 划分 % 中 的 元 组 以 
及 划分 上 的 散 列 索引 。 内 存 中 可 以 不 必 容 纳 探查 关系 的 划分 。 显 然 ， 我 们 最 好 用 较 小 的 输入 关系 作为 
构造 用 输入 关系 。 如 果 构 造 用 关系 有 b, 块 ， 那么 要 使 n 个 划分 中 每 一 个 划分 小 于 等 于 M, n, 值 至 少 
应 是 [ b,AM1。 更 准确 些 ， 我 们 还 应 当 考 虑 该 划分 上 散 列 索引 占用 的 内 存 空间 ， 因 此 n, 值 应 当 相 应 取 
大 一 点 。 简 单 起 见 ， 在 分 析 中 我 们 有 时 忽略 散 列 索引 所 需 的 内 存 空间 。 
12.5.5.2 递归 划分 
如 果 n, 的 值 大 于 或 等 于 内 存 块 数 ， 因 为 没有 足够 的 缓冲 块 ， 所 以 关系 的 划分 不 可 能 一 趟 完成 。 这 
558 | 时， 完成 关系 的 划分 需要 重复 多 趟 。 在 每 一 趟 中 ， 输 入 的 最 大 划分 数 不 超过 用 于 输出 的 缓冲 块 数 。 每 
一 趟 产生 的 存储 桶 在 下 一 趟 中 分 别 被 读 入 并 再 次 划分 ， 产 生 更 小 的 划分 。 当 然 ， 每 趟 划分 中 所 用 的 散 
列 函 数 与 上 一 趟 所 用 的 散 列 函数 是 不 同 的 。 系 统 不 断 重 复 输 入 的 分 裂 过 程 直到 构造 用 输入 关系 的 每 个 
划分 都 能 被 内 存 容纳 为 止 。 这 种 划分 方法 称 为 递归 划分 (recursive partitioning) 。 
在 用 > n+ 1, 或 等 价 地 ，M > (b/M) + 1 一 一 可 以 近似 简化 为 M > Wb, 时， 关系 不 需要 进行 递 
归 划 分 。 例 如 ， 考 虑 如 下 情形 : 内 存 大 小 是 12MB， 分 成 4KB 大 小 的 块 ， 则 共有 3K(3072 ) 个 块 。 我 们 
可 用 这 样 大 小 的 内 存 对 含有 大 至 3K* 3K( EI 36GB ) 的 关系 进行 划分 。 类 似 地 ， 为 避免 递归 划分 ，1CB 
大 小 的 关系 需 V256K 个 内 存 块 ， 约 2MB。 
12.5.5.3 溢出 处 理 
4s, 的 散 列 索引 大 于 主 存 时 ， 构 造 用 输入 关系 * 的 划分 i 发生 散 列 表 溢 出 (hash-table overflow), 。 如 
果 构 造 用 输入 关系 在 连接 属性 上 具有 相同 值 的 元 组 数 很 多 ， 或 所 选 散 列 函数 不 符合 随机 性 、 均 匀 性 ， 
则 会 发 生 散 列表 溢出 。 在 这 两 种 情况 下 ， 某 些 划分 所 含 元 组 数 多 于 平均 数 ， 而 另 一 些 划分 所 含 元 组 数 
比 平均 数 少 ; 这 种 划分 称 为 是 偏 斜 的 (skewed) 。 
少量 的 偏 斜 可 以 通过 增加 划分 个 数 ， 使 得 每 个 划分 的 期 望 大 小 (包括 该 划分 上 的 散 列 索引 在 内 ) 比 
内 存 容量 略 小 。 划 分 数 会 因此 有 少量 增加 ， 增 加 的 数目 称 为 避让 因子 (fudge factor) ， 这 个 因子 通常 大 
PEE 12. 5. 5 节 所 描述 的 方法 计算 出 的 散 列 划分 数 的 20% 左右 。 
即使 我 们 通过 用 避让 因子 ， 在 划分 的 大 小 上 采取 了 保守 的 态度 ， 散 列表 溢出 仍然 在 所 难免 。 散 列 
表 溢 出 可 以 通过 溢出 分 解 或 溢出 避免 的 方法 来 进行 处 理 。 如 果 在 构造 阶段 发 现 了 散 列 索引 溢出 ， 则 进 
行 溢出 分 解 (overflow resolution) 。 溢 出 分 解 过 程 如 下 。 任 给 i， 若 发 现 s, 太 大 ， 我们 就 用 男 一 个 散 列 函 
数 将 之 进一步 划分 成 更 小 的 划分 。 类 似 地 ，r; 也 使 用 新 的 散 列 函数 进行 同样 处 理 ， 而 只 有 相 匹 配 的 划 
分 中 的 元 组 才 需 要 连接 。 
与 溢出 分 解法 不 同 ， 溢 出 避免 (overflow avoidance) 法 进行 谨慎 的 划分 ,保证 构造 阶段 不 会 有 溢出 发 
生 。 在 溢出 避免 法 中 ， 首 先 将 构造 用 输入 关系 划分 成 许多 小 划分 ， 然 后 把 某 些 划分 组 合 在 一 起 ， 但 
要 确保 每 个 组 合 后 的 划分 都 能 被 内 存 容纳 。 探 查 用 关系 7 必须 按照 与 关系 s 上 的 组 合 划 分 相同 的 方式 进 
行 划 分 , (Ar, 的 大 小 无 关 紧 要 。 
WSR s 中 有 大 量 元 组 在 连接 属性 上 有 相同 的 值 ， 滋 出 分 解 与 溢出 避免 法 在 某 些 划分 上 可 能 会 失效 。 
在 这 种 情况 下 ， 我 们 并 不 采用 创建 内 存 散 列 索引 ， 然 后 用 内 套 循环 连接 算法 对 划分 进行 连接 的 方法 ， 
而 是 在 那些 划分 上 使 用 其 他 的 连接 技术 ， 如 块 柑 套 循环 连接 。 
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12.5.5.4 散 列 连接 的 代价 
下 面 我 们 考虑 散 列 连 接 的 代价 。 我 们 的 分 析 假 定 没 有 散 列 表 溢出 发 生 。 首 先 考虑 不 需要 递归 划分 
的 情形 。 
© 两 个 关系 r、s 的 划分 需要 对 这 两 个 关系 分 别 进 行 一 次 完整 的 读 和 与 写 回 ， 该 操作 需要 2(b, + 
4,) 次 块 传输 ， 这 里 部 和 4b, 分 别 代表 含有 关系 r 和 s 中 元 组 的 磁盘 块 数 。 在 构造 与 探查 阶段 每 个 
划分 读 入 一 次 ， 这 又 需要 b, +b, 次 块 传输 。 划 分 所 占用 的 块 数 可 能 比 b, +4b, 略 多 ， 因 为 有 的 块 
只 是 部 分 满 的 。 由 于 nm 个 划分 中 的 每 个 划分 都 可 能 有 一 个 部 分 满 的 块 ， 而 这 个 块 需 写 回 、 读 
人 各 一 次 ， 因 此 对 于 每 个 关系 而 言 存 取 这 些 部 分 满 的 块 至 多 增加 2 * n 次 的 开销 。 从 而 散 列 连 
接 的 代价 估计 需要 : 
3(b,+b,) +4n, 
次 块 传输 。 其 中 4n, 的 开销 与 b, +b, 相 比 是 很 小 的 ， 可 以 忽略 。 
。 假设 为 输入 缓冲 区 和 每 个 输出 缓冲 区 分 配 了 b, 个 块 ， 划 分 总 共 需 要 2(『b,/ b, | +1 b,/ b, | 次 磁 
盘 搜 索 。 在 构造 和 探查 阶段 ， 每 个 关系 中 n 个 划分 中 的 每 一 个 仅 需 一 次 磁盘 搜索 ， 因 为 每 个 
划分 都 可 以 顺序 地 读 取 。 这 样 ， 散 列 连接 需要 2[ 6b,/ b, | +D b b, | +2m 次 磁盘 搜索 ， 
现在 来 看 看 需要 递归 划分 的 情形 。 每 一 趟 预计 可 将 划分 的 大 小 减 小 为 原来 的 1/(MWM - 1) ; 不 断 重 
复 操作 直到 每 个 划分 最 多 占 M 块 为 止 。 则 划分 关系 s 所 需 的 趟 数 预 计 为 [logy_1(b,) -11 
。 由 于 在 每 一 趟 中 ， 需 要 对 关系 * 的 每 一 块 进 行 读 人 、 写 出 ， 因 此 划分 过 程 中 总 共 需 要 21.| logy, 
(b,) -11 次 块 传输 。 对 关系 7 进行 划分 所 需 趟 数 与 划分 关系 ; 是 一 样 的 ， 由 此 连接 代价 估计 


需要 : 
2(b, +6,){ logy_,(6,) -1] + b, +6, 
次 块 传输 。 
。 再 次 假设 为 每 个 划分 分 配 了 b, 个 块 用 于 缓冲 ， 忽 略 构造 和 探查 过 程 中 相对 少 的 磁盘 搜索 ， 用 递 
归 划 分 的 散 列 连接 需要 
2([ 6,7 b, 1 +f 6,7 6, |) logy_,(6,) -1] 
次 磁盘 搜索 。 


例如 ， 考 虑 连接 takes Mstudent。 内 存 有 20 块 ，student 划分 成 5 个 划分 ， 每 个 划分 占 20 块 ， 正 好 能 
装 和 内存 。 划 分 只 需 一 趟 。iakes 类 似 地 划分 成 5 个 划分 ， 每 个 划分 占 80 块 。 忽 略 写 回 部 分 满 的 块 的 代 
价 ， 共 需 3(100 +400) =1500 次 块 传输 。 在 划分 过 程 中 有 足够 的 内 存 分 配 3 个 输入 缓冲 区 和 5 个 输出 
缓冲 区 ， 结 果 是 2([ 100/ 3 | +| 400/3 |) 次 磁盘 搜索 。 

车主 存 较 大 ， 散 列 连接 性 能 可 以 得 到 提高 。 当 主 存 中 可 以 容纳 整个 构造 用 输入 关系 时 ,ni 可 置 为 
0; 此 时 ,不 管 探查 用 输入 的 大 小 如 何 ， 不必 将 关系 划分 成 临时 文件 ， 因 而 散 列 连接 算法 可 以 快速 执 
行 。 其 估计 代价 降 为 6, +b, 次 磁盘 块 传输 和 两 次 磁盘 搜索 。 

12.5.5.5 混合 散 列 连接 

混合 散 列 - 连接 (hybrid hash-join) 算 法 作 了 男 一 种 优化 。 当 内 存 相 对 较 大 ,但 还 不 足以 容纳 整个 构 
造 用 输入 关系 时 ,该 算法 是 很 有 用 的 。 在 划分 阶段 ， 散 列 连接 算法 需要 为 创建 的 每 一 划分 提供 一 个 内 
存 块 作为 缓冲 区 ， 另 需 一 个 内 存 块 作为 输入 缓冲 区 。 为 了 降低 搜索 的 影响 ， 大 的 块 数 用 作 缓 冲 区 ， 令 
b, 表示 用 作 输 入 和 每 个 划分 的 缓冲 区 的 块 数 。 因 此 划分 两 个 关系 共 需 n, + 1 个 内 存 块 。 如 果 内 存 大 于 
(ns +1) *b, SR, 我 们 可 以 用 剩余 的 内 存 块 (M 一 (n, +1) * b, 块 ) 作 为 构造 用 输入 关系 的 第 一 个 划分 
( 即 so) 的 缓冲 区 ， 从 而 避免 将 其 写 出 后 再 读 人 。 更 进一步 ,我 们 可 以 适当 设计 散 列 函 数 ， 使 得 s。 上 的 
散 列 索引 能 装 和 人 M- (n, +1) * b, 个 内 存 块 ; 这 样 ， 在 关系 s 划分 结束 后 ，s 完全 在 内 存 中 且 可 以 在 
s 上 建立 散 列 索引 。 

当 对 7 进行 划分 时 ，n 的 元 组 也 不 必 写 回 磁盘 ; 而 是 在 元 组 产生 时 ， 系 统 利用 它们 去 查找 驻 留 在 
内 存 中 的 s。 散 列 索引 ， 并 产生 连接 后 的 元 组 。m 的 元 组 使 用 后 就 可 以 抛弃 了 ， 因 此 7 划分 不 占 内 存 空 
间 。 这 样 ， 对 于 7 与 so 的 每 一 块 可 以 读 、 写 各 节省 一 次 。 其 他 划分 的 元 组 按 普通 方式 写 出 ， 以 后 再 连 
接 。 在 构造 用 输入 关系 只 是 略 大 于 内 存 时 ,混合 散 列 连接 算法 可 以 大 大 降低 代价 。 
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若 构 造 用 输入 关系 大 小 为 b,， 则 n, 近似 为 6./ Ms 因此， 混合 散 列 连接 算法 在 M> > (b,/ M) * b, 
或 M> > /b,*b, 时 非常 有 用 ,记号 > > 表示 远大 于 。 例 如 ， 设 块 大 小 为 4KB ， 构 造 用 输入 关系 大 小 为 
5GB, b, 是 20。 那 么 混合 连接 算法 在 内 存 远 大 于 20MB 时 是 很 有 用 的 ; 现今 计算 机 拥有 几 GB 或 更 多 的 内 


存 是 很 常见 的 。 假 如 我 们 用 1GB 来 做 连接 算法 ，so 接近 1CB， 混 合 散 列 索引 比 散 列 索 引 节 省 20% 。 
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12.5.5.6 复杂 连接 
嵌 套 循环 连接 与 块 嵌 套 循环 连接 可 在 任何 连接 条 件 下 使 用 。 其 他 的 连接 技术 比 艇 套 循环 连接 及 其 
变种 效率 更 高 ， 但 只 能 处 理 简单 的 连接 条 件 ， 如 自然 连接 或 等 值 连接 。 如 果 采 用 12. 3. 3 节 中 用 于 处 理 
复杂 选择 的 技术 ， 则 可 以 用 有 效 的 连接 技术 实现 具有 复杂 连接 条 件 的 连接 ， 如 合 取 式 和 析 取 式 。 
考虑 下 面 带 有 合 取 条 件 的 连接 : 
r Xo, AoA- Aa S 
前 面 所 述 的 一 种 或 多 种 连接 技术 可 以 用 于 单个 连接 条 件 的 计算 ， 如 r Xs. ras, ros 等 。 我 们 
可 以 通过 先 计算 这 些 较 简单 的 r Ms 连接 中 的 某 一 个 来 计算 整个 连接 ;每 个 中 间 结 果 中 的 元 组 对 由 了 中 
的 一 个 元 组 与 s 中 的 一 个 元 组 组 成 。 完 整 的 连接 结果 是 中 间 结 果 中 满足 以 下 剩余 条 件 的 那些 记录 : 
ON AND Aba NA° A6, 
这 些 条 件 可 在 产生 rX ,s 元 组 时 进行 测试 。 
有 具有 析 取 条 件 的 连接 可 按 如 下 方式 计算 。 考 虑 : 
r Dg vov- va.S 
该 连接 可 以 通过 对 单个 连接 ros 的 元 组 取 并 集 来 计算 : 
(r as) U(r Xes) U= U (r Xas) 
12.6 节 将 讲述 计算 关系 的 并 的 算法 。 


12.6 其 他 运算 


其 他 关系 运算 以 及 扩展 关系 运算 ， 如 去 除 重 复 、 投 影 、 集 合 运算 、 外 连接 、 聚 集 ， 可 以 按 从 
12. 6. 1 ~12.6.5 节 所 述 加 以 实现 。 
12.6.1 去除 重 复 

我 们 可 以 用 排序 方法 很 容易 地 实现 去 除 重复 。 排 序 时 等 值 元 组 相互 邻近 ， 删 除 其 他 副本 只 留 一 个 
元 组 副本 即 可 。 对 于 外 部 归并 排序 而 言 ， 创 建 归并 段 文件 时 就 可 以 发 现 重复 元 组 ， 可 在 将 归并 段 文件 写 
回 磁 盘 之 前 去 除 重 复元 组 ， 从 而 减少 块 传输 次 数 。 剩 余 的 重复 元 组 可 在 归并 时 去 除 ， 最 后 的 经 排序 的 归 
并 段 是 没有 重复 元 组 的 。 最 坏 情形 去 除 重 复 的 代价 估计 与 最 坏 情 形 对 该 关系 进行 排序 的 代价 估计 一 样 。 

我 们 也 可 使 用 散 列 来 实现 去 除 重复 ， 像 在 散 列 连接 算法 里 一 样 。 首 先 ， 基 于 整个 元 组 上 的 一 个 散 
列 函 数 对 整个 关系 进行 划分 。 接 下 来 每 个 划分 被 读 和 人 内存， 并 建立 内 存 散 列 索引 。 在 创建 散 列 索引 时 ， 
只 插入 不 在 索引 中 的 元 组 ; 否则 ， 元 组 就 被 抛弃 。 划 分 中 的 所 有 元 组 处 理 完 后 ， 散 列 索引 中 的 元 组 被 
写 到 结果 中 。 其 代价 估算 与 散 列 连接 中 构造 用 输入 关系 的 处 理 ( 划 分 以 及 读 入 每 个 划分 ) 的 代价 一 样 。 

由 于 去 除 重复 的 代价 相对 较 大 ， 因 此 SQL 查询 语言 要 求 用 户 显 式 指 明 需 要 去 除 重 复 ， 若 不 指明 则 
保留 重复 。 
12.6.2 投影 

我 们 可 以 通过 如 下 方式 比较 容易 地 实现 投影 。 首 先 对 每 个 元 组 作 投影 ， 所 得 结果 关系 可 能 有 重复 
记录 ， 然 后 去 除 重复 记录 。 去 除 重复 可 按 12. 6. 1 节 描 述 的 方法 去 进行 。 若 投影 列表 中 属性 含有 关系 的 
码 ， 则 结果 中 不 会 有 重复 元 组 ， 因 此 不 必 作 去 除 重 复 。 广 义 投 影 可 以 用 与 投影 一 样 的 方式 来 实现 。 
12. 6.3 集合 运算 

要 实现 集合 运算 并 、 交 、 差 ， 我 们 首先 对 两 个 关系 进行 排序 ， 然 后 对 每 个 已 排序 的 关系 扫描 一 次 ， 
产生 所 需 结果 。 在 rUs 中 ， 当 同时 对 两 个 文件 进行 扫描 发 现 相 同 的 元 组 时 ， 只 保留 其 中 一 个 。rmns 的 
结果 只 包含 在 两 个 关系 中 同时 出 现 的 元 组 。 类 似 地 ,通过 只 保留 r 中 那些 不 属于 s 的 元 组 ， 我 们 可 以 实 
现 集合 的 差 运算 (r - s)o 
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对 所 有 这 些 运算 ， 两 个 输入 关系 仅 须 扫描 一 次 ， 因 此 如 果 关 系 按 相 同 顺序 排序 ， 其 代价 为 六 + 
次 块 传输 。 假 设 最 坏 情况 下 每 个 关系 只 有 一 个 缓冲 块 ， 则 总 共 需 要 b, +b, 次 磁盘 搜索 加 上 b, +b, 次 块 
传输 。 分 配额 外 的 缓冲 块 可 以 减少 磁盘 搜索 的 次 数 。 

若 关系 一 开始 未 排序 ， 还 要 考虑 排序 的 代价 。 在 执行 集合 运算 时 ， 任 何 排序 顺序 均 可 ， 只 要 两 个 


输入 关系 都 有 相同 的 排序 顺序 。 

散 列 提供 了 实现 集合 运算 的 另 一 种 方法 。 对 于 每 种 运算 ， 首 先 用 相同 的 散 列 函数 对 两 个 关系 进行 
划分 ， 由 此 得 到 划分 mm ，…r 以 及 so。，s! ，…s,,。 然 后 根据 操作 的 不 同 ， 对 i=0，1 ，…， n, 的 每 
一 划分 执行 以 下 步骤: 

e rUs 


1. 对 六 建立 内 存 散 列 索引 。 
2. 把 s 中 的 元 组 加 入 以 上 散 列 索引 中 ， 条 件 是 该 元 组 不 在 散 列 索引 中 - 
3. 把 散 列 索引 中 的 元 组 加 入 结果 中 。 
© rns 
1. 对 六 建立 内 存 散 列 索引 。 
2. Ms, 中 的 每 个 元 组 ， 检 索 散 列 索引 ， 仅 当 它 出 现在 其 中 时 将 该 元 组 写 到 结果 中 。 
1. 对 7; 建立 内 存 散 列 索 引 。 
2. 对 s; 中 的 每 个 元 组 ， 检 索 散 列 索引 ， 若 它 出 现在 其 中 则 将 之 从 散 列 索引 中 删除 。 
3. 把 散 列 索引 中 剩余 的 元 组 加 入 结果 中 。 
12.6.4 外 连接 

回想 一 下 4. 1.2 节 所 描述 的 外 连接 操作 。 例 如 ， 自 然 左 外 连接 takes IX student 包含 takes 与 student 
的 连接 ; 此 外 ， 对 于 takes 中 每 一 个 在 student 中 没有 匹配 元 组 的 元 组 并 即 上 中 的 历 不 在 studem H), 把 
如 下 的 元 组 二 加 入 结果 中 : 对 于 takes 模式 中 的 全 部 属性 ,元 组 与 + 有 相同 的 值 ; t, 的 其 余 属 性 (来 
自 student 模式 ) 取 空 值 。 

外 连接 可 用 以 下 两 种 策略 之 一 来 实现 : 

1. 计算 相应 的 连接 ， 然 后 将 适当 的 元 组 加 入 连接 结果 中 以 得 到 外 连接 结果 。 考 虑 左 外 连接 运算 与 
两 个 关系 : r(R) 与 s(S) 。 为 计算 > 了 los， 首先 我 们 计算 rs， 将 结果 存 为 临时 关系 g,。 接 着 ,我 们 计 
Fr- ) 以 得 到 所 有 属于 但 未 参与 9 连接 的 元 组 。 我 们 可 以 采用 前 面 说 过 的 用 于 计算 连接 、 投 
影 、 集 合 差 的 任何 算法 来 计算 外 连接 。 我 们 用 空 值 填充 这 些 元 组 中 属于 关系 * 的 属性 ， 然 后 将 其 加 到 
q 中 ， 得 到 外 连接 的 结果 。 

右 外 连接 运算 r XE 等 价 于 s 了 be r， 因 此 可 以 用 与 左 外 连接 对 称 的 方法 实现 。 要 实现 全 外 连接 运 
算 r 了 C9,， 我 们 可 以 先 计 算 rMs， 然 后 和 前 面 一 样 将 左 、 右 外 连接 的 额外 元 组 加 入 。 

2. 对 连接 算法 加 以 修改 。 将 众 套 循环 连接 算法 扩展 为 计算 左 外 连接 的 算法 很 容易 ， 只 要 把 与 内 层 
关系 的 任何 元 组 都 不 匹配 的 外 层 关系 元 组 在 填充 空 值 后 写 到 结果 中 即 可 。 然 而 ， 要 将 嵌 套 循环 连接 扩 
展 为 计算 完全 外 连接 的 算法 是 很 困难 的 。 

自然 外 连接 与 具有 等 值 连接 条 件 的 外 连接 可 以 通过 扩展 归并 连接 与 散 列 连接 算法 来 计算 。 对 归并 
连接 加 以 扩展 ， 可 以 用 来 计算 完全 外 连接 ， 方 法 如 下 : 当 两 个 关系 的 归并 完成 后 ， 将 两 个 关系 中 那些 
与 另 一 个 关系 的 任何 元 组 都 不 匹配 的 元 组 填充 空 值 后 写 到 结果 中 。 类 似 地 ， 通 过 只 将 一 个 关系 中 不 匹 
配 的 元 组 (在 填充 空 值 后 ) 写 到 结果 中 ， 我 们 可 以 扩展 归并 连接 以 计算 左 、 右 外 连接 。 由 于 关系 是 排序 
的 ， 因 此 很 容易 判断 一 个 元 组 是 否 与 另 一 个 关系 的 元 组 相 匹 配 。 例 如 ， 当 takes 与 student 归并 连接 完成 
后 ， 元 组 按 ID 的 顺序 读 入 ， 对 于 每 个 元 组 很 容易 判断 在 男 一 个 关系 中 是 否 有 与 之 匹配 的 元 组 。 

使 用 归并 连接 算法 实现 外 连接 的 代价 估计 同 相应 连接 的 代价 估计 是 一 样 的。 唯一 差异 在 于 结果 的 大 
小 以 及 由 此 引起 的 写 出 结果 的 块 传输 次 数 ， 而 这 一 点 在 之 前 的 代价 估计 中 并 没有 考虑 。 

扩展 散 列 连接 算法 以 计算 外 连接 留 作 练习 (习题 12. 15 ) 。 
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12.6.5 聚集 
回忆 3. 7 BRE AYRE AR PR ELE). BAN, PRK 


select dept_name, avg( salary) 
from instructor 
group by dept_name 


计算 大 学 中 每 个 系 的 平均 工资 。 

聚集 运算 可 以 用 与 去 除 重 复 相 类 似 的 方法 来 实现 。 我 们 使 用 排序 或 散 列 ， 就 像 在 去 除 重 复 中 所 做 
的 ,不 同 的 是 这 里 基于 分 组 属性 进行 (上 面 的 例子 中 是 dept_name)。 但 是 ,我 们 不 是 去 除 在 分 组 属性 上 
有 相同 值 的 元 组 ， 而 是 将 之 聚集 成 组 ， 并 对 每 一 组 应 用 聚集 运算 以 获取 结果 。 

对 min, max, sum, count, avg 等 聚集 函数 而 言 ， 实 现 聚 集运 算 的 代价 估计 和 去 除 重 复 的 代价 估 
计 是 一 样 的 。 

我 们 不 必 等 到 所 有 元 组 聚集 成 组 后 再 进行 聚集 运算 ， 而 可 以 在 组 的 构造 过 程 中 就 实现 sum, min, 
max, count, avg 的 聚集 运算 。 对 于 sum, min 与 max， 当 在 同一 组 中 发 现 了 两 个 元 组 时 ， 系 统 用 包 
含 聚 集 列 上 的 sum, min 或 max 值 的 单个 元 组 替换 它们 。 对 于 count 运算 ， 系统 为 每 一 组 维护 一 个 已 

发 现 元 组 的 计数 值 。 最 后 ，avg 运算 可 以 实现 如 下 ,在 组 构造 过 程 中 ,我 们 计算 每 一 组 的 sum 及 
”count， 最 后 把 sum 除 以 count 即 获得 平均 值 。 

如 果 结 果 集 的 所 有 元 组 可 以 装 和 内存， 则 基于 排序 的 实现 方法 与 基于 散 列 的 实现 方法 不 必 将 元 组 
写 到 磁盘 上 。 当 元 组 读 人 时， 就 可 以 将 之 插入 到 一 个 有 序 的 树 结构 中 或 插入 到 一 个 散 列 索引 中 。 当 使 
用 以 上 聚集 技术 时 ， 对 于 每 一 个 组 只 需要 保存 一 个 元 组 ， 因 此 ， 内 存 中 将 可 容纳 有 序 树 结构 或 散 列 索 
S|, FRAT CE b, 次 块 传输 (和 1 次 磁盘 搜索 ) 中 完成 ， 而 用 其 他 方法 需要 3b, 次 块 传输 ( 和 最 坏 情 况 下 
2b, 次 磁盘 搜索 ) 。 


12.7 表达 式 计算 


目前 为 止 ， 我 们 只 研究 了 单个 关系 运算 如 何 执行 。 现 在 我 们 考虑 如 何 计算 包含 多 个 运算 的 表达 式 。 
一 种 显而易见 的 方法 是 以 适当 的 顺序 每 次 执行 一 个 操作 ; 每 次 计算 的 结果 被 物化 (materialized ) 到 一 个 
临时 关系 中 以 备 后 用 。 这 一 方法 的 缺点 是 需要 构造 临时 关系 ， 这 些 临 时 关系 必须 写 到 磁盘 上 ( 除非 很 
小 ) 。 另 一 种 方法 是 在 流水 线 (pipeline) 上 同时 计算 多 个 运算 ， 一 个 运算 的 结果 传递 给 下 一 个 ， 而 不 必 
保存 临时 关系 。 

12.7.1~12.7.2 节 将 介绍 物化 方法 与 流水 线 方 "lame 
法 。 我 们 将 会 看 到 这 两 种 方法 的 代价 相差 很 大 ， 并 且 
有 的 情况 下 只 能 用 物化 方法 。 


12.7.1 物化 


要 直观 地 理解 如 何 计算 一 个 表达 式 ， 最 容易 的 方 a kn 
法 是 看 一 看 以 运算 符 树 (operator tree) 对 表达 式 所 做 的 Ree 
图 形 化 表示 。 考 虑 图 12-11 所 示 表 达 式 : vp i Wasa UR 


Tame ( O building =*Wason* ( department ) WM instructor ) 


当 采 用 物化 方法 时 ， 我 们 从 表达 式 的 最 底层 的 运 
算 ( 在 树 的 底部 ) 开 始 。 在 该 例子 中 ， 只 有 一 个 底层 运 
W: department 上 的 选择 运算 。 底 层 运 算 的 输入 是 数据 图 12-11 一 个 表达 式 的 图 形 化 表示 
库 中 的 关系 。 我 们 用 前 面 研究 过 的 算法 执行 这 些 运算 ， 
并 将 结果 存储 在 临时 关系 中 。 在 树 的 高 一 层 中 ， 使 用 这 些 临时 关系 来 进行 计算 1; 这 时 的 输入 要 么 是 临 
时 关系 ， 要 么 是 来 自 数据 库 的 关系 。 在 该 例子 中 ， 连 接 运算 的 输入 是 instructor 关系 及 在 department X 
系 上 进行 选择 所 建立 的 临时 关系 。 接 着 可 以 进行 连接 运算 ， 建 立 起 另 一 个 临时 关系 。 

通过 重复 这 一 过 程 ， 最 终 可 以 计算 位 于 树 的 根 结 点 的 运算 ， 从 而 得 到 表达 式 的 最 终结 果 。 在 该 例 


department 
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子 中 ， 通 过 执行 根 结 点 的 投影 运算 ， 以 连接 运算 产生 的 临时 关系 作为 输入 执行 投影 ， 就 可 以 得 到 最 终 
的 结果 。 

上 述 计算 方法 称 为 物化 计算 ( materialized evaluation) ， 因 为 运算 的 每 个 中 间 结 果 被 创建 (物化 ) ， 然 
后 用 于 下 一 层 的 运算 。 

物化 计算 的 代价 不 仅仅 是 那些 所 涉及 的 运算 代价 的 总 和 。 当 估计 算法 的 代价 时 ， 我 们 忽略 了 将 运 
算 结 果 写 到 磁盘 上 的 代价 。 为 了 计算 按 如 上 所 述 执行 一 个 表达 式 的 代价 ， 我 们 必须 把 所 有 运算 的 代价 
相 加 ， 还 要 加 上 把 中 间 结 果 写 回 磁盘 的 代价 。 我 们 假设 结果 记录 在 缓冲 区 中 积累 ， 当 缓冲 区 写 满 时 ， 
把 它们 写 到 磁盘 上 。 写 出 块 数 b, 的 代价 可 按 n /f, RAR, Hen, 是 结果 关系 7 中 元 组 数 的 估计 ，,f 是 
结果 关系 的 块 因子 ， 即 每 块 可 容纳 的 关系 7 中 的 记录 数 。 除 了 磁盘 块 传输 时 间 ， 还 需要 加 上 磁盘 搜索 
的 时 间 ， 因 为 磁盘 头 在 连续 的 写 回 操作 之 间 可 能 会 移动 到 别处 。 磁 盘 搜 索 的 次 数 可 以 估算 为 | 5,/ b, |, 
其 中 b, 是 输出 缓冲 区 的 大 小 (以 块 数 计算 ) 。 

双 缓 冲 (double buffering) (即使 用 两 个 缓冲 区 ， 其 中 一 个 用 于 连续 执行 算法 ， 男 一 个 用 于 写 出 结 
果 ) 人 允许 CPU 活动 与 IO 活动 并 行 ， 从 而 提高 算法 执行 速度 。 通 过 为 输出 缓冲 区 分 配额 外 的 磁盘 块 以 
及 每 次 同时 写 出 多 个 块 ， 可 以 减少 磁盘 搜索 次 数 。 

12. 7.2 流水线 

通过 减少 查询 执行 中 产生 的 临时 文件 数 ， 可 以 提高 查询 执行 的 效率 。 减 少 临时 文件 数 是 通过 将 多 | 567 | 
个 关系 操作 组 合成 一 个 操作 的 流水 线 来 实现 的 ， 其 中 一 个 操作 的 结果 将 传送 到 下 一 个 操作 。 这 样 的 计 | 568 
算 叫 做 流水 线 计算 (pipelined evaluation) 。 

例如 ， 考 虑 表达 式 (了 TI, (CrMs) )。 如 果 采 用 物化 方法 ， 在 执行 中 将 创建 存放 连接 结果 的 临时 关 
系 ， 然 后 在 执行 投影 时 又 从 连接 结果 中 读 人 。 这 些 操作 可 按 如 下 方式 组 合 : 当 连 接 操作 产生 一 个 结果 
元 组 时 ， 该 元 组 马上 传送 给 投影 操作 去 处 理 。 通 过 将 连接 操作 与 投影 操作 组 合 起 来 ,我 们 可 以 避免 中 
间 结 果 的 创建 ， 从 而 直接 产生 最 终结 果 。 

创建 一 个 操作 的 流水 线 可 以 带 来 两 个 好 处 : 

1. 它 能 消除 读 和 写 临 时 关系 的 代价 ， 减 少 查询 计算 代价 。 

2. 如 果 一 个 查询 计算 计划 的 根 操作 符 及 其 输入 合并 到 流水 线 中 ， 那 么 可 以 迅速 开始 产生 查询 结 
KR, 一 旦 它们 生成 ， 如 果 把 结果 显示 给 用 户 ， 这 可 能 是 非常 有 用 的 ， 因 为 不 然 的 话 在 用 户 看 到 任何 查 
询 结 果 之 前 可 能 有 一 个 长 时 间 延 迟 。 

12.7.2.1 流水 线 的 实现 

通过 将 所 有 操作 组 合 起 来 构成 流水 线 ， 构 造 一 个 单独 的 复合 操作 ， 我 们 可 以 实现 流水 线 。 尽 管 对 
于 各 种 频繁 发 生 的 情况 ， 这 个 方法 是 可 行 的 ; 但 一 般 而 言 ， 希 望 在 构造 一 个 流水 线 时 能 重用 各 个 操作 
的 代码 。 

在 图 12-11 的 例子 中 ， 三 个 操作 均 可 放 入 一 条 流水 线 中 ; 其 中 ， 选 择 操作 的 结果 产生 后 传送 给 连 
接 操作 。 接 着 ， 连 接 操 作 的 结果 产生 后 又 传送 给 投影 操作 。 由 于 一 个 操作 的 结果 不 必 长 时 间 保 存 ， 因 
此 对 内 存 的 要 求 不 高 。 然 而 ， 由 于 采用 流水 线 ， 各 个 操作 并 非 总 是 能 立即 获得 输入 来 进行 处 理 。 

流水 线 可 按 以 下 两 种 方式 之 一 来 执行 : 

1. 在 一 条 需求 驱动 的 流水 线 ( demand-driven pipeline) 中 ， 系 统 不 停 地 向 位 于 流水 线 顶 端的 操作 发 
出 需要 元 组 的 请 求 。 每 当 一 个 操作 收 到 需要 元 组 的 请 求 ， 它 就 计算 下 一 个 (若干 个 ) 元 组 并 返回 。 如 果 
该 操作 的 输入 不 是 来 自流 水 线 ， 则 返回 的 下 一 个 (若干 个 ) 元 组 可 以 由 输入 关系 计算 得 到 ， 同 时 系统 记 
载 目 前 为 止 已 返回 了 哪些 元 组 。 如 果 该 操作 的 某 些 输入 来 自流 水 线 ， 那 么 该 操作 也 发 出 请 求 以 获得 来 
自流 水 线 输入 的 元 组 。 该 操作 使 用 来 自流 水 线 输入 的 元 组 ， 计 算 输 出 元 组 ， 然 后 把 它们 传 给 父 层 。 

2. 在 一 条 生产 者 驱动 的 流水 线 ( producer-driven pipeline) 中 ， 各 操作 并 不 等 待 元 组 请 求 ， 而 是 积极 
地 (eagerly) 产 生 元 组 。 生 产 者 驱动 的 流水 线 中 的 每 一 个 操作 作为 系统 中 一 个 单独 的 进程 或 线程 建 模 ，[569 
以 处 理 流水 线 输入 的 元 组 流 ， 并 产生 相应 的 输出 元 组 流 。 

我 们 接 下 来 会 描述 需求 驱动 的 流水 线 和 生产 者 驱动 的 流水 线 如 何 实 现 。 
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需求 驱动 的 流水 线 中 的 每 个 操作 可 以 用 选 代 算 子 (iterator ) 来 实现 ,该 迭代 算 子 提供 以 下 函数 : 
open( ) , next() 及 close( ) 。 调 用 open( ) 后 ， 对 next ( ) 的 每 次 调用 返回 该 操作 的 下 一 个 输出 元 组 。 该 操 
作为 了 获取 所 需 输入 元 组 ， 在 其 输入 上 按 次 序 调用 open( ) 和 next( ) . PRA close( ) 用 于 告知 迭代 算 子 不 
再 需要 元 组 了 。 和 迭代 算 子 维护 两 次 调用 之 间 的 执行 状态 ( state) ， 使 得 下 一 个 next( ) 调 用 请 求 可 以 获取 
下 面 的 结果 元 组 。 

例如 ， 对 一 个 采用 线性 搜索 实现 选择 操作 的 和 迭代 算 子 ，open( ) 操 作 开 始 一 次 文件 扫描 ， 和 迭代 算 子 
的 状态 记录 文件 中 已 扫描 到 的 位 置 。 当 调用 next( ) 函数 后 ， 文 件 扫描 从 前 次 记录 的 位 置 继续 执行 ;如 
果 通 过 扫描 文件 找到 了 满足 选择 条 件 的 下 一 个 元 组 ， 则 将 所 找到 元 组 的 位 置 存储 到 迭代 算 子 状态 中 后 
将 元 组 返回 。 一 个 归并 -连接 迭代 算 子 的 open( ) 操作 将 打开 其 输入 ， 若 输入 未 排序 则 还 将 对 它们 排 
序 。 当 调用 next( ) 时 ， 和 迭代 算 子 将 返回 下 一 个 匹配 的 元 组 对 。 和 迭代 算 子 的 状态 信息 包含 每 次 输入 曾 扫 
描 过 的 位 置 。 和 迭代 算 子 的 实现 细节 留 作 实践 练习 12. 7。 

而 生产 者 驱动 的 流水 线 以 不 同 的 方式 实现 。 对 在 生产 者 驱动 的 流水 线 中 每 一 对 相 邻 的 操作 ， 系 统 
会 创建 一 个 缓冲 区 来 保存 从 一 个 操作 传递 到 下 一 个 的 元 组 。 对 应 不 同 操作 的 进程 或 线程 会 并 发 执行 。 
流水 线 底部 的 每 个 操作 会 不 断 产 生 输 出 元 组 ， 并 将 它们 放 入 输出 缓冲 区 中 ， 直 到 缓冲 区 已 满 。 该 当 得 
到 来 自 更 底层 流水 线 的 输入 元 组 时 ,流水线 的 任何 其 他 层 操作 会 产生 输出 元 组 ， 直 到 输出 缓冲 区 已 满 。 
一 旦 操作 使 用 了 来 自流 水 线 输 入 的 元 组 ， 便 会 将 它 从 输入 缓冲 区 中 移 除 。 不 管 在 哪 种 情况 下 ， 一 旦 输 
出 缓冲 区 已 满 ， 该 操作 会 等 待 ， 直 到 它 的 父 操作 将 缓冲 区 中 元 组 移 除 ， 以 便 缓冲 区 中 有 空间 放 入 更 多 
的 元 组 。 此 时 ， 该 操作 会 产生 更 多 的 元 组 ， 直 到 缓冲 区 再 次 满 了 为 止 。 操 作 重 复 这 样 的 过 程 ， 直 到 生 
成 所 有 的 输出 元 组 。 

只 有 当 一 个 输出 缓冲 区 已 满 ， 或 一 个 输入 缓冲 区 已 空 ， 需 要 多 的 输入 元 组 用 于 产生 输出 元 组 时 ， 
系统 才 需 要 在 各 操作 之 间 切 换 。 在 一 个 并 行 处 理 系 统 中 ， 流 水 线 中 的 操作 可 在 不 同 的 处 理 器 上 并 发 执 
行 ( 见 第 18 章 ) 。 

使 用 生产 者 驱动 的 流水 线 方法 可 以 被 看 作 将 数据 从 一 棵 操作 树 的 底层 推 (push) 上 去 的 过 程 ; 而 使 
用 需求 驱动 的 流水 线 方法 可 被 看 成 是 从 树 顶 将 数据 拉 ( pull) 上 来 的 过 程 。 在 生产 者 驱动 的 流水 线 中 ， 
元 组 的 产生 是 积极 的 ， 而 在 需求 驱动 的 流水 线 中 ， 元 组 消极 地 ( lazily ) 按 需求 产生 。 需 求 驱动 的 流水 线 
比 生 产 者 驱动 的 流水 线 应 用 得 更 为 普遍 ， 因 为 它 更 容易 实现 。 但 是 ， 生 产 者 驱动 的 流水 线 在 并 行 处 理 
系统 中 非常 有 用 。 

12.7.2.2 流水 线 的 执行 算法 

有 些 操作 例如 排序 ， 其 本 质 上 是 阻塞 操作 (blocking operation) ， 也 就 是 说 ， 它 们 可 能 不 能 输出 任何 
结果 ， 直 到 所 有 的 输入 元 组 被 检查 为 止 =。 

其 他 操作 (例如 连接 ) 本 身 并 不 阻塞 ， 但 具体 的 计算 算法 可 能 会 阻塞 。 例 如 ， 散 列 连接 算法 是 一 个 
阻塞 操作 ， 因 为 在 输出 任何 元 组 之 前 ， 它 要 求 两 个 输入 都 被 完全 取 回 并 被 划分 。 而 索引 内 套 循环 连接 
算法 随 着 得 到 外 部 关系 的 元 组 就 可 以 输出 结果 元 组 。 因 此 ， 它 称 为 在 外 部 ( 左 侧 ) 关 系 上 的 流水 线 化 
(pipelined) ， 尽 管 因为 在 索引 内 套 循环 连接 算法 执行 之 前 ， 必 须 充分 构建 索引 所 以 导致 在 其 索引 ( 右 
边 ) 输 入 上 阻塞 。 

混合 散 列 连接 可 以 被 看 作 是 在 探查 关系 上 部 分 流水 线 的 ， 因 为 当 从 探查 关系 中 接收 到 元 组 时 ， 它 
可 以 输出 来 自 第 一 个 划分 中 的 元 组 。 然 而 ， 不 位 于 第 一 个 划分 中 的 元 组 只 有 在 接收 整个 流水 线 输入 关 
系 后 才能 输出 。 如 果 构 造 用 输入 可 以 全 部 存放 在 内 存 中 ， 则 混合 散 列 连接 可 以 在 探查 用 输入 上 提供 流 
水 线 计算 ,或 者 如 果 构 造 用 输入 可 以 大 部 分 存放 在 内 存 中 ， 则 混合 散 列 连接 可 以 在 探查 用 输入 上 提供 
近似 流水 线 计算 。 

如 果 两 个 输入 均 在 连接 属性 上 有 序 ， 并 且 连 接 条 件 是 等 值 连接 ， 则 可 以 使 用 归并 连接 ， 并 且 在 两 
个 输入 都 可 流水 线 化 。 





O ”如果 得 知 输入 满足 一 些 特殊 的 性 质 ， 例 如 已 经 排序 或 者 部 分 排序 ， 那 么 例如 排序 那样 的 阻塞 操作 就 可 能 能 够 较 
早 地 输出 元 组 。 然 而 ， 在 默认 这 种 信息 的 情况 下 ， 阻 塞 操作 便 不 能 较 早 地 输出 元 组 。 
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然而 ， 在 更 常见 的 情况 下 ， 我 们 希望 进行 流水 线 化 的 连接 的 两 个 输入 并 没有 排序 。 另 一 种 方法 是 


双流 水 线 连接 (double-pipelined join) 技 术 ， 如 图 12-12 所 示 。 该 算法 假定 输入 关系 "和 * 的 元 组 都 是 流 


水 线 化 的 。 两 个 关系 的 元 组 放 入 单个 队列 中 等 待 处 理 。 特 别 的 队列 项 ，End, 和 End,， 作 为 文件 结 


Ric, fer Als 的 所 有 元 组 (分 别 地 ) 都 产生 之 后 


done, := false; 
插入 到 队列 中 。 为 了 有 效 地 计算 ， 应 该 在 关系 Fil done, := false ; 
s 上 建立 适当 的 索引 。 当 元 组 添加 到 7 Ms 中 时 ， r:= 中 ; 

S := 中 ; 


相关 的 索引 也 必须 保持 更 新 。 当 在 > 和 s 上 使 用 散 
列 索引 时 ， 由 此 产生 的 算法 称 为 双流 水 线 散 列 连 





result := Q ; 
while not done, or not done, do 


接 ( double-pipeline hash-join ) 技术 。 

图 12-12 中 的 双流 水 线 连接 算法 假设 两 个 输入 
都 可 以 存放 在 内 存 中 。 如 果 两 个 输入 比 内 存 大 ， 
它 仍然 和 平常 情况 一 样 可 以 使 用 双流 水 线 连接 技 
术 ， 直 到 可 用 内 存 全 部 满 了 为 止 。 当 可 用 内 存 满 
了 ， 截 至 当前 的 + 和 s 的 元 组 可 以 各 自 当 做 处 于 划 
try Fl sy 中。 随后 到 来 的 r Al 的 元 组 被 各 自分 
派 给 划分 和 si ， 并 直接 写 人 磁盘 ， 而 不 会 添加 
到 内 存 索 引 中 。 但 是 ， 当 它们 写 和 人 到 磁盘 之 前 ， 
被 分 配给 7, 和 s, 的 元 组 会 分 别 用 来 探查 mm All soo 
因此 7 和 so 的 连接 以 及 s 和 六 的 连接 同样 以 流水 
线 方式 执行 。 当 r+ 和 s 全 部 处 理 以 后 ， 必 须 执行 7 
元 组 和 元 组 的 连接 ， 以 完成 连接 操作 。 我 们 先 
前 看 到 的 任何 连接 技术 都 可 以 用 来 连接 m Al s, 。 


12.8 





begin 
if 队列 空 then 等 待 ， 直 到 队列 非 空 ; 
t= 队列 中 的 头 一 项 ; 
if : = End, then done, := true 
else if t = End, then done, := true 
else if ¢ 属于 输入 关系 r then 
begin 
r= rUiti; 
result: = resultU(|\t|Xls); 
end 
else/ * 1 属于 输入 关系 s */ 
begin 
s= U jti 
result; = result U (rD|t} ); 
end 


end 








图 12-12 流水线 连接 算法 


总 结 


对 于 一 个 查询 ， 系 统 首 先 要 做 的 事 就 是 将 之 翻译 成 系统 内 部 表示 形式 。 对 于 关系 数据 库 系 统 而 言 ， 
内 部 形式 通常 是 基于 关系 代数 的 。 在 产生 查询 的 内 部 形式 过 程 中 ， 语 法 分 析 器 检查 用 户 查询 语句 的 
语法 ， 验 证 出 现在 查询 语句 中 的 关系 名 是 数据 库 中 的 关系 名 等 。 如 果 查 询 语句 是 用 视图 表达 的 ， 语 
法 分 析 器 把 所 有 对 视图 名 的 引用 替换 成 计算 该 视图 的 关系 代数 表达 式 。 

给 定 一 个 查询 ， 通 常 有 许多 计算 它 的 方法 。 将 用 户 输入 的 查询 语句 转换 成 等 价 的 、 执 行 效率 更 高 的 
查询 语句 ， 这 是 优化 器 的 责任 。 第 13 章 描 述 查询 优化 。 

对 于 包含 简单 选择 的 查询 语句 ， 可 以 通过 线性 扫描 或 利用 索引 来 处 理 。 通 过 计算 简单 选择 结果 的 并 
和 交 ， 可 以 处 理 复杂 选择 操作 。 

可 以 用 外 部 归并 排序 算法 对 大 于 内 存 的 关系 进行 排序 。 

涉及 自然 连接 的 查询 语句 可 以 有 多 种 处 理 方法 ， 如 何 处 理 取决 于 是 否 有 索引 可 用 以 及 关系 的 物理 存 

储 形式 。 

O 若 连 接 的 结果 大 小 几乎 与 两 个 关系 的 笛 卡 儿 积 相当 ， 则 采用 块 炭 套 循环 连接 策略 较 好 。 

口 若 存 在 索引 ， 则 可 用 索引 谋 套 循环 连接 。 

口 若 关系 已 排序 ， 则 归并 连接 比较 可 取 。 在 连接 计算 前 对 关系 排序 是 有 利 的 (为 了 能 使 用 归并 连接 算 
法 )。 

O 散 列 连接 算法 把 关系 划分 成 多 个 部 分 ， 使 每 个 部 分 都 能 被 内 存 所 容纳 。 划 分 过 程 是 通过 连接 属性 
上 的 散 列 函数 来 进行 的 ， 这 样 相应 的 划分 对 可 以 独立 地 进行 连接 。 

去 除 重复 、 投 影 、 集 合 操作 (并 、 交 、 差 )、 育 集 操作 都 可 以 用 排序 和 散 列 实现 。 

外 连接 操作 可 以 通过 对 连接 算法 的 简单 扩展 来 实现 。 

散 列 与 排序 在 某 种 意义 下 是 对 偶 的 。 因 为 任何 能 用 散 列 实现 的 操作 ( 如 去 除 重复 、 投 影 、 聚 集 、 连 

接 、 外 连接 ) 也 可 用 排序 来 实现 ， 反 之 亦 然 ; 即 任何 能 用 排序 来 实现 的 操作 也 能 用 散 列 实现 。 

可 以 采用 物化 方法 进行 表达 式 的 计算 。 系 统计 算 每 个 子 表达 式 的 结果 并 将 其 存 到 磁盘 上 ， 然 后 用 它 
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进行 父 表 达 式 的 计算 。 
。 流水 线 方法 在 子 表达 式 产 生 输 出 的 同时 就 在 父 表达 式 的 计算 中 使 用 其 输出 结果 ， 帮 助 我 们 避免 了 将 
许多 子 查询 的 结果 写 到 磁盘 的 操作 。 
































术语 回顾 
。 查询 处 理 。 外 排序 口 散 列表 溢出 
。 计算 原 语 。 外 部 排序 归并 mE Ei 
。 查询 执行 计划 。 归并 段 口 避让 因子 
。 查询 计算 计划 © NN 路 归并 口 溢出 分 解 
。 查询 执行 引擎 。 等 值 连接 口 溢出 避免 
。 查询 代价 度量 © REMEI © 混合 散 列 连 接 
。 顺序 YO © Shin SURE 。 运算 符 树 
e 随机 IO © Ka mE MER 。 物化 计算 
。 文件 扫描 。 归并 连接 © 双 缓 冲 
。 线性 搜索 。 排序 -归并 连接 。 流水 线 计算 
。 使 用 索引 的 选择 。 混合 归并 连接 口 需求 驱动 的 流水 线 
© 存 取 路 径 。 散 列 连接 (消极 ， 拉 的 方式 ) 
。 索引 扫描 口 构造 O 生产 者 驱动 的 流水 线 
。 合 取 选择 口 探查 (积极 ， 推 的 方式 ) 
© 析 取 选择 口 构造 用 输入 口 迭代 算 子 
。 复合 索引 口 探查 用 输入 © 双流 水 线 连接 
© 标识 符 的 交 口 递归 划分 
实践 习题 
12.1 (本 题 为 了 简单 起 见 ) 假 设 一 块 中 只 有 一 个 元 组 ， 内 存 最 多 容纳 3 块 。 当 使 用 排序 归并 算法 时 ， 给 出 


12.2 


12.3 


12.4 


12.5 


12.6 


对 下 列 元 组 按 第 一 个 属性 排序 各 趟 所 产生 的 归并 段 : (kangaroo, 17), (wallaby, 21), (emu, 1), 
(wombat, 13). (platypus, 3). (lion, 8)、 (warthog, 4)、 (zebra, 11). (meerkat, 6), (hyena, 
9). (hornbill, 2) (baboon, 12), 

考虑 图 12-13 中 银行 数据 库 的 例子 ， 其 中 主 码 以 下 划 线 标 出 。 考 虑 下 面 的 SQL 语句 ; 


select T. branch_name 
from branch T, branch S 
where T. assets > S. assets and S. branch_city = "Brooklyn" 


写 一 个 与 此 等 价 的 、 高 效 的 关系 代数 表达 式 ， 并 论证 你 的 选择 。 

WHA (A, B, C), n(C, D, E) 有 如 下 特性 : rn 有 20 000 个 元 组 ,， 有 45 000 个 元 组 ， 一 块 中 
可 容纳 25 个 7, 元 组 或 30 个 7 元 组 。 估 计 使 用 以 下 连接 策略 计算 7, Mr, 需要 几 次 块 传输 和 磁盘 搜索 : 
a. PREMIERE 

b. ERSTE EE 

c. 归并 连接 

d. 散 列 连接 

如 果 索 引 是 辅助 索引 并 且 在 连接 属性 上 多 个 元 组 有 相同 的 值 ， 则 12. 5. 3 THERA RS ik SAE 
算法 效率 不 高 。 为 什么 ? 找 出 一 种 利用 排序 减少 内 层 关系 元 组 检索 代价 的 方法 。 在 什么 条 件 下 该 算法 
比 混合 连接 算法 更 有 效 ? 

令 r、s 是 没有 索引 的 两 个 关系 ， 并且 假 设 两 个 关系 也 没有 排序 。 假 设 内 存 无 限 大 ， 计 算 r Ms 代价 最 
小 (就 IO 操作 而 言 ) 的 方法 是 什么 7 该 算法 需 多 大 内 存 ? 

考虑 图 12-13 的 银行 数据 库 ， 其 中 主 码 用 下 划 线 标 出 。 假 设 关系 branch 在 branch_city 属性 上 有 B 树 
索引 ， 此 外 别 无 其 他 索引 。 列 出 处 理 下 列 包含 取 反 运 算 的 选择 操作 的 不 同 的 方法 ? 

a. og—(branch_city < “Brooklyn” ) (branch) 
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b. o—( branch_city = “Brooklyn” ) (branch) 
c. ¢o( branch_city < “ Brooklyn” \ assets < 5000) (branch) 

12.7 写 出 实现 索引 嵌 套 循环 连接 的 迭代 算 子 的 伪 码 ， 其 中 外 层 关系 是 流水 线 的 。 要 求 伪 码 定义 标准 迭代 算 
子 的 函数 open( ) 、next( ) 和 close( ) 。 显 示 在 不 同 的 调用 之 间 和 迭代 算 子 需要 维护 的 状态 信息 。 





branch( branch_name , branch_city, assets ) 
customer ( customer_name , customer _street , customer_city ) 
loan( loan_number , branch_name , amount ) 


borrowerr( customer_name , loan_number ) 
account ( account_number , branch_name , balance) 
depositor( customer_name , account_number ) 


图 12-13 银行 数据 库 


12.8 设计 基于 排序 的 和 基于 散 列 的 算法 ， 用 于 计算 关系 的 除 运算 (有 关 除 运算 定义 请 参照 第 6 章 的 实 
践 练习 ) 。 
12.9 ”为 每 个 归并 段 增 加 缓冲 块 ， 而 用 于 缓冲 归并 段 的 总 可 用 内 存 保 持 不 变 ， 这 对 于 归并 这 些 段 的 代 
价 有 什么 影响 ? 
习题 
12.10 ”假设 需要 排序 40GB 的 关系 ， 使 用 4KB 大 小 的 块 以 及 40GB 大 小 的 内 存 。 假 设 一 次 搜索 代价 是 
5 毫秒 ， 磁 盘 传 输 速 率 是 每 秒 40MB 。 
a. XIF b, =1 Alb, = 100 的 情况 ,分 别 计算 排序 该 关系 的 代价 ( 以 秒 为 单位 ) 。 
b. 在 上 述 每 种 情况 下 ， 各 需要 多 少 遍 归并 ? 
c. 假设 用 一 个 闪存 设备 来 蔡 代 磁盘 ， 它 的 搜索 时 间 是 1 微妙 ， 传 输 速率 是 每 秒 40MB。 在 这 样 
的 设置 下 ， 对 于 b, =1 和 4b, =100 的 情况 ， 分 别 重新 计算 关系 排序 的 代价 (以 秘 为 单位 ) 。 
12. 11 考虑 如 下 关系 代数 运算 的 扩展 。 描 述 如 何 使 用 排序 和 散 列 实现 每 个 操作 。 
a. 半 连 接 ( semijoin) (xa); rX s MAT g(r Mos)， 其 中 R 是 模式 7 的 属性 集合 。 即 在 7 中 选 
择 如 下 的 元 组 r: 在 :中 存在 元 组 ;， 使 得 7 Ss, 能 满足 谓词 9。 
b. 反 半 连接 ( anti-semijoin) (xa): r Kos EXX r-k rS) ， 其 中 RR 是 模式 7 的 属性 集合 ; B 
在 r 中 选择 如 下 的 元 组 7;: 在 s 中 不 存在 元 组 s， 使 得 7; 与 ;; 能 满足 谓词 0。 
12. 12 ”为 什么 不 应 当 要 求 用户 显 式 地 选择 查询 处 理 计划 ? 是否 存 在 希望 用 户 知道 两 个 候选 的 查询 处 理 
计划 代价 的 情形 ? 请 做 出 解释 。 
12. 13 ”两 个 关系 都 在 物理 上 没 排序 ,但 各 自 都 有 在 连接 属性 上 排序 的 辅助 索引 ， 为 混合 归并 连接 算法 
设计 一 个 变 体 以 适应 这 种 情况 。 
12.14 ”估算 习题 12. 13 中 你 给 出 的 计算 r Mr, 的 解决 方案 所 需 磁盘 块 传输 和 磁盘 搜索 次 数 ， 其 中 7 、 
r 按照 实践 习题 12. 3 的 定义 。 
12. 15 12. 5.5 节 讲 述 的 散 列 连接 算法 用 于 计算 两 个 关系 的 自然 连接 。 说 明 如 何 扩展 散 列 连接 算法 ， 以 
计算 自然 左 外 连接 、 自 然 右 外 连接 和 自然 全 外 连接 。( 提示 : 在 散 列 索引 中 保存 每 个 元 组 的 额 
外 信息 ， 判 断 在 探查 用 关系 中 是 否 有 与 散 列 索引 中 元 组 相 匹 配 的 元 组 - ) 将 你 的 算法 用 到 关系 
takes 4j student 上 。 
12.16 ”流水线 用 于 避免 把 中 间 结 果 写 回 磁盘 。 假 设 你 需要 用 排序 归并 法 对 一 个 关系 7 排序， 并 且 用 归 
并 连接 法 把 结果 与 已 排序 的 关系 * 做 连接 操作 。 
a. 描述 关系 排序 的 输出 如 何 组 成 流水 线 以 避免 写 回 磁 盘 ? 
b. 即使 归并 连接 的 两 个 输入 都 来 自 排序 归并 操作 的 输出 ， 同 样 的 思想 还 是 适用 的 。 然 而 可 用 
的 内 存 必须 在 两 个 归并 操作 之 间 共 享 (归并 连接 算法 本 身 只 需要 很 少 的 内 存 ) 。 这样， 必须 
共享 内 存 对 每 个 排序 归并 操作 的 代价 有 什么 影响 ? 
12.17 ”用 伪 码 书写 实现 排序 归并 算法 的 一 个 版 本 的 迭代 算 子 ， 其 中 最 后 一 次 归并 的 结果 使 用 流水 线 传 








575 


576_ 


328 


i hy 
578 


第 三 部 分 “数据 存储 和 查询 


给 下 一 个 操作 。 要 求 伪 码 定义 标准 迭代 算 子 的 函数 open( ) 、next( ) 和 close( ) 。 显 示 在 不 同 的 
调用 之 间 和 迭代 算 子 需要 维护 的 状态 信息 。 

12. 18 ”假设 你 要 计算 , Game (r) Aly, pGoumcey (Tr)。 描 述 如 何 对 7 进行 一 次 排序 实现 对 这 两 个 表达 式 的 同 
时 计算 。 


文献 注解 


查询 处 理 器 必须 对 查询 语言 中 的 语句 做 语法 分 析 ， 并 且 必 须 将 它们 转换 成 某 种 内 部 表示 。 查 询 语 
言 的 语法 分 析 与 传统 编程 语言 的 语法 分 析 几 乎 没有 区 别 。 大 多 数 有 关 编 译 器 的 书 都 包含 主要 的 语法 分 
析 技 术 ， 并 从 编程 语言 的 角度 描述 了 优化 技术 。 

Graefe 和 McKenna[ 1993b ] 给 出 了 一 份 关于 查询 执行 技术 的 非常 优秀 的 调研 。 

Knuth[ 1973 ] 给 出 了 关于 外 排序 算法 (包括 其 优化 算法 ) 的 极 好 描述 ， 叫 做 替代 选择 。 这 个 算法 能 
创建 大 小 (平均 来 说 ) 为 内 存 大 小 两 倍 的 初始 归并 段 。Nyberg 等 [1995 ] 的 研究 显示 ， 由 于 低 效 的 处 理 器 
缓存 行为 ， 对 产生 归并 段 来 说 替代 选择 方法 性 能 比 内 存 中 的 快速 排序 性 能 要 差 ， 抵 消 了 产生 更 长 的 归 
并 段 带 来 的 好 处 。Nyberg 等 [1995 ] 提出 一 种 高 效 的 外 排序 算法 ， 这 种 算法 把 处 理 器 缓存 的 效应 考虑 在 
内 。 处 理 器 缓存 的 效应 考虑 在 内 的 查询 执行 算法 已 得 到 广泛 的 研究 。 作 为 例子 可 以 参考 Hariopoulos 和 
Ailamaki[ 2004 | 。 

根据 20 世纪 70 年 代 中 期 所 进行 的 性 能 研究 ， 当 时 的 数据 库 系 统 只 使 用 艇 套 循 环 连 接 和 归并 连接 ， 
包括 Blasgen 和 Eawaran [1976], ， 这 些 同 System R 的 开发 相 联系 的 研究 表明 ， 散 套 循 环 连接 或 归并 连接 
几乎 总 能 提供 最 佳 连接 方式 ， 因 此 ，System R 中 实现 的 连接 算法 只 有 这 两 种 。 然 而 ，Blasgen 和 
Eswaran [ 1976] 没 有 包括 对 散 列 连接 算法 的 分 析 。 现 在 ， 散 列 连接 被 认为 是 效率 很 高 的 并 得 到 广泛 的 
使 用 。 

散 列 连 接 算法 最 初 为 并 行 数据 库 系统 而 设计 。 散 列 连 接 技术 在 Shapiro[ 1986 | 中 描述 。Zeller 和 
Gray[ 1990] 以 及 Davison 和 Graefe[ 1994 ] 所 描述 的 散 列 连接 技术 ， 可 以 根据 可 用 内 存 作 调整 ， 而 这 一 点 
在 多 个 查询 可 同时 运行 的 系统 上 非常 重要 。Graefe 等 [ 1998 | 描述 了 散 列 连接 和 散 列 组 的 使 用 ， 他 们 采 
用 一 种 在 一 个 流水 线 序 列 中 对 所 有 的 散 列 连接 进行 相同 划分 的 方法 ， 在 Microsoft SQL Server 中 对 散 列 
连接 进行 流水 线 化 。 


| 第 13 章 | 


Database System Concepts, 6E 


查询 优化 


对 一 个 给 定 的 查询 ， 尤 其 是 复杂 查询 ， 通 常会 有 许多 种 可 能 的 策略 ， 查 询 优 化 (query optimization ) 
就 是 从 这 许多 策略 中 找 出 最 有 效 的 查询 执行 计划 的 一 种 处 理 过 程 。 我 们 不 期 望 用 户 能 够 写 出 一 个 能 高 
效 处 理 的 查询 ， 而 是 期 望 系统 能 够 构造 一 个 能 让 查询 执行 代价 最 小 化 的 查询 执行 计划 。 这 正 是 查询 优 
化 起 作用 的 地 方 。 

优化 一 方面 在 关系 代数 级 别 发 生 ， 即 系统 尝试 找 出 一 个 与 给 出 的 表达 式 等 价 但 执行 起 来 更 为 高 效 
的 表达 式 。 另 一 方面 是 为 处 理 查询 选择 一 个 详细 的 策略 ， 比 如 对 一 个 操作 的 执行 选择 所 用 的 算法 ， 选 
择 使 用 的 特定 索引 等 。 

一 个 好 的 查询 策略 和 一 个 差 的 查询 策略 在 代价 (执行 时 间 ) 上 通常 会 有 相当 大 的 区 别 ， 可 能 会 相差 
好 几 个 数量 级 。 因 此 ， 即 使 查询 只 执行 一 次 ， 系 统 为 处 理 查询 选择 一 个 好 的 策略 花费 一 定量 的 时 间 是 
完全 值得 的 。 


13.1 概述 
考虑 下 面 查 询 “ 找 出 Music 系 的 所 有 教师 名 字 以 及 每 个 教师 所 教授 课程 名 称 " 的 关系 表达 式 : 


T pame title ( O depr_name = "musie" ( instructor MA( teaches 多 Tleourse_id, title( course) ) ) ) 


注意 ，course 上 (course_id, title) 的 投影 是 必需 的 ， 因 为 course 和 instructor 有 一 个 公共 属性 dept _ 
name， 如 果 我 们 不 通过 投影 来 删 掉 这 个 属性 ， 则 上 面 自 然 连接 的 表达 式 会 仅 返 回 Music 系 的 课程 ， 尽 
管 Music 系 的 一 些 教师 可 能 教授 其 他 系 的 课程 。 

以 上 表达 式 需 产生 一 个 很 大 的 中 间 关 系 ，insiructor M teaches M Meourse_id, title( course), Am, FÈ 
们 只 对 这 个 关系 的 少数 元 组 感 兴趣 (那些 与 音乐 系 的 教师 有 关 的 ) ， 并 且 只 对 这 个 关系 的 10 个 属性 中 的 
两 个 感 兴趣 。 由 于 我 们 只 关心 instructor 关系 中 与 音乐 系 有 关 的 元 组 ， 我 们 没有 必要 考虑 不 满足 dept_ 
name =“Music" 条 件 的 元 组 。 通 过 减少 要 访问 的 instructor 关系 的 元 组 数 ， 也 就 减少 了 中 间 结果 的 大 小 。 
现在 将 查询 表示 为 如 下 的 关系 代数 表达 式 : 


Tiname, title( (Gam name =" mui" (instructor) ) DI ( teaches M Teourse_id, title( course) ) ) 


它 与 我 们 前 面 的 表达 式 等 价 ， 但 它 产 生 的 中 间 关 系 较 小 。 初 始 表达 式 以 及 变换 后 表达 式 如 图 13-1 所 示 。 


name, title 


O name, title 





| dept_name = Music 
x Fa i N 
instructor ur Xl S pees = Music Xx Ai 
teaches | course_id, title wat neler teaches Hoe title 
course course 
a) 初始 表达 式 树 b) 转化 后 的 表达 式 树 


图 13-1 等 价 表达 式 
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一 个 执行 计划 确切 地 定义 了 每 个 运算 应 使 用 的 算法 ， 以 及 运算 之 间 的 执行 应 该 如 何 协调 。 图 13-2 
表明 了 图 13-1b 的 表达 式 的 一 个 可 行 的 执行 计划 。 正 如 我 们 看 到 的 ， 每 个 关系 运算 可 以 有 几 种 不 同 的 
算法 ， 从 而 可 产生 其 他 的 执行 计划 。 在 图 13-2 中 ， 连 接 运算 中 的 一 个 选择 了 散 列 连接 ， 另 一 个 则 在 连 
接 的 ID 属性 上 将 关系 排序 后 ， 选 用 归并 连接 。 在 凡 被 标记 流水 线 的 边 上 ， 生 产 者 的 输出 直接 流向 消费 
者 ， 而 不 会 被 写 和 磁盘 。 

给 定 一 个 关系 代数 表达 式 ， 查 询 优化 器 的 任务 是 产生 一 个 查询 执行 计划 ， 该 计划 能 获得 与 原 关 系 
表达 式 相同 的 结果 ， 并 且 得 到 结果 集 的 执行 代价 最 小 (或 至 少 是 不 比 最 小 执行 代价 大 多 少 ) 

为 了 找到 代价 最 小 的 查询 执行 计划 ， [ (排序 以 消除 重复 ) 
查询 优化 器 需要 产生 一 些 能 和 给 定 表达 itame, tinle 
式 得 到 相同 结果 的 候选 计划 ， 并 选择 代 | 
价 最 小 的 一 个 。 查 询 执行 计划 的 产生 有 J (归并 连接 ) 


三 步 : (1) 产 生 膛 辑 上 与 给 定 表达 式 等 价 pipeline ok 

的 表达 式 ; (2) 对 所 产生 的 表达 式 以 不 同 Sorto 

方式 作 注释 ， 产 生 不 同 的 查询 计划 ; (3) | 

估计 每 个 执行 计划 的 代价 ， 选 择 估计 代 Sorto DI EINE) 
价 最 小 的 一 个 。 流水 线 Naira 





查询 优化 器 中 第 (1) ~ (3) 步 是 交叉 oO 
的 : 先 产 生 一 些 表达 式 并 加 以 注释 ， 注 
释 后 产生 执行 计划 ， 然 后 再 进一步 产生 / 
一 些 表 达 式 并 加 以 注释 ， 依 此 类 推 。 执 instructor teaches course 
行 计划 产生 后 ， 其 代价 通过 关系 的 统计 图 13-2 一 个 执行 计划 
信息 (如 关系 的 大 小 和 索引 的 深度 ) 来 
估计 。 

要 完成 第 一 步 ， 查 询 优化 器 需要 产生 与 给 定 表达 式 等 价 的 表达 式 ， 这 是 通过 等 价 规则 来 进行 的 ， 
等 价 规则 详细 说 明了 如 何 将 一 个 表达 式 转 换 成 逻辑 上 等 价 的 另 一 个 表达 式 ，13. 2 节 将 讲述 这 些 规则 

13. 3 节 描 述 了 如 何 估 计 一 个 查询 计划 中 每 个 操作 的 结果 的 统计 大 小 。 将 这 些 统计 结果 应 用 到 第 12 
章 中 的 代价 公式 就 可 以 估计 出 单个 操作 的 代价 。 把 这 些 单个 操作 的 代价 合 起 来 就 能 够 确定 出 执行 给 定 
关系 代数 表达 式 的 代价 估计 ， 就 像 此 前 12. 7 节 概 述 的 那样 。 

13.4 节 讲 述 如 何 选 择 一 个 查询 执行 计划 。 我 们 可 以 基于 执行 计划 的 代价 估计 来 进行 选择 。 由 于 代 
价 是 估计 值 ， 因 此 所 选 计划 未 必 是 代价 最 小 的 计划 ; 但 是 ， 只 要 估计 得 好 ， 该 计划 很 可 能 是 代价 最 小 
的 计划 ， 或 其 代价 不 比 最 小 值 大 多 少 。 

最 后 ， 物 化 视图 能 够 帮助 加 速 某 些 查 询 的 处 理 。13. 5 节 将 研究 如 何 “ 维护 ”物化 视图 ( 即 ， 使 它们 
保持 最 新 ) 以 及 如 何 利用 物化 视图 执行 查询 优化 。 


13.2 关系 表达 式 的 转换 


一 个 查询 可 以 表示 成 多 种 不 同 的 形式 ， 每 种 形式 具有 不 同 的 执行 代价 。 在 这 一 节 里 ， 我 们 不 是 仅 
仅 按 照 给 定 的 关系 表达 式 那 样 去 做 ， 而 是 考虑 其 他 可 选 的 等 价 表达 式 。 

如 果 两 个 关系 表达 式 在 每 一 个 有 效 数 据 库 实例 中 都 会 产生 相同 的 元 组 集 ， 则 我 们 称 它 们 是 等 价 的 
(equivalent) 。( 回忆 一 下 ， 一 个 有 效 的 数据 库 实例 是 指 满足 在 数据 库 模式 中 指定 的 所 有 完整 性 约束 的 
数据 库 实 例 。) 注 意 ， 元 组 的 顺序 是 无 关 紧要 的 ; 两 个 表达 式 可 能 以 不 同 的 顺序 产生 元 组 ， 但 只 要 元 组 
集 是 一 致 的 ， 就 认为 它们 是 等 价 的 。 

在 SQL 语言 中 ， 输 入 和 输出 都 是 元 组 的 多 重 集合 ， 关 系 代 数 的 多 重 集合 版 本 ( 在 本 节 的 示例 栏 中 
描述 ) 用 于 评估 SQL 查询 。 若 对 于 任意 有 效 的 数据 库 ， 两 个 表达 式 产生 相同 的 元 组 多 重 集合 ， 则 称 多 
重 集合 版 本 的 这 两 个 关系 代数 表达 式 是 等 价 的。 这 一 章 的 讨论 是 基于 关系 代数 的 。 我 们 将 关系 代数 的 
多 重 集合 版 本 的 扩充 留 给 读者 作为 练习 。 


dept_name = Music 


(使 用 索引 TD 


course_id, title 
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查看 查询 执行 计划 
许多 数据 库 系统 提供 一 种 方式 来 查看 执行 给 定 查询 所 选择 的 查询 执行 计划 。 通 常 最 好 的 方式 是 
用 数据 库 系 统 提供 的 图 形 用 户 界面 来 查看 执行 计划 。 然 而 ， 如 果 你 采用 命令 行 界 面 ， 许 多 数据 库 支 
持 一 条 命令 “explain < query > "的 变种 ， 来 显示 对 于 特定 查询 < query > 所 选择 的 执行 计划 。 不 同 的 
数据 库 采 用 不 同 的 严格 语法 : 
© PostgreSQL 采用 上 述 语法 。 
e Oracle 采用 语法 explain plan for。 但 是 ， 此 命令 将 结果 计划 存储 在 一 个 叫 plan_table HAP, 
而 不 是 直接 显示 它 。 查 询 “select“ from table( dbms_xplan. display) ;” 显 示 存 储 的 计划 。 
© DB2 采用 和 Oracle 类 似 的 方法 ， 但 是 要 求 执行 db2exfmt 程序 来 显示 存储 的 计划 。 
© SQL Server 要 求 提交 查询 前 执行 命令 set showplan_text on， 然 后 当 提 交 查 询 后 ， 显 示 查 询 计 
划 ， 而 不 显示 执行 查询 。 
为 计划 估计 的 代价 也 随 着 计划 显示 。 值 得 注意 的 是 ， 代 价 通常 没有 以 外 在 意义 的 (例如 秒 或 1/ 
0 操作) 单位 表示 ,而 以 优化 器 采用 的 代价 模型 的 单位 表示 。 有 些 优化 器 显示 两 个 估计 代价 数字 ， 
例如 PostgreSQL。 第 一 个 表示 对 第 一 个 输出 结果 估计 的 代价 ， 第 二 个 表示 对 所 有 输出 结果 估计 的 
代价 。 


13.2.1 等 价 规则 
等 价 规则 ( equivalence rule) 指 出 两 种 不 同形 式 的 表达 式 是 等 价 的 。 我 们 可 以 用 第 二 种 形式 的 表达 式 
代替 第 一 种 ,或 者 反之 一 一 可 以 用 第 一 种 形式 的 表达 式 代替 第 二 种 ， 这 是 因为 这 两 种 表达 式 在 任何 有 
效 的 数据 库 中 将 产生 相同 的 结果 集 。 优 化 器 利用 等 价 规则 将 表达 式 转 换 成 逻辑 上 等 价 的 其 他 表达 式 。 
下 面 列 出 关系 代数 表达 式 的 一 些 通用 等 价 规则 。 所 列 出 的 等 价 式 中 的 一 些 在 图 13-3 做 了 说 明 。 我 
们 用 0. 0,. 0, 等 表示 谓词 ，L, 、L, 、L SRNR, ME, E, E, 等 表示 关系 代数 表达 式 。 关 系 
名 r 是 关系 代数 表达 式 的 特例 ， 在 E 出 现 的 任何 地 方 它 都 可 以 出 现 。 





Ay 规则 5 XI, 
i fo 
E} E, E, El 

mw 规则 6.a 
ZON 7 X 
D4 E É, D 

eS > 
FE È, E, E, 

05 规则 7.a bd 

| WRO RAA EREHE Pi a 
x Og E, 
Z N | 

Ez P E 


1 
图 13-3 ”等 价 表 达 式 的 图 形 化 表示 
1. 合 取 选 择 运 算 可 分 解 为 单个 选择 运算 的 序列 。 该 变换 称 为 ex 的 级 联 : 
Tono, (E) =oeo(ae (下 ) ) 
2. 选择 运算 满足 交换 律 (commutative ) : 


331 


332 第 三 部 分 数据 存储 和 查询 


oo (ae (E)) =oe(ae( 开 )) 
3. 一 系列 投影 运算 中 只 有 最 后 一 个 运算 是 必需 的 ， 其 余 的 可 省 略 。 该 转换 也 可 称 为 开 的 级 联 : 
M, C, Ce, ZE) ) ++) ) = M(E) 
4. 选择 操作 可 与 笛 卡 儿 积 以 及 0 连接 相 结合 : 
a. T(E, x E,) =E,\ E0 
该 表达 式 就 是 0 连接 的 定义 。 
b. og (EW,E,)= E My ng Eo 
5.9 连接 运算 满足 交换 律 : 
EM E, = E,W ,bE 
事实 上 ， 左 端 和 右 端的 属性 顺序 不 同 ， 所 以 如 果 考 虑 属性 顺序 的 话 ， 等 式 不 成 立 。 可 以 对 等 价 规 
则 的 其 中 一 端 加 入 一 个 投影 操作 以 适当 重 排 属性 ， 但 为 了 简化 ,我们 省 略 了 该 投影 并 且 在 大 部 分 例子 
中 忽略 属性 顺序 。 
回忆 一 下 ， 自 然 连 接 是 9 连接 的 特例 ， 因 此 自然 连接 也 满足 交换 律 。 
6. a 自然 连接 运算 满足 结合 律 (associative ) : 
(EME,) KE, =E (EM E, ) 
b. 9 连接 具有 以 下 方式 的 结合 和 
(EM, EL) ene Bs = EM, no (ELM, Ez ) 
其 中 9, RPK E, FE; 的 属性 。 由 于 其 中 的 任意 一 个 条 件 都 可 为 空 ， 因 此 笛 卡 儿 积 ( x ) 运 算 也 满 
足 结 合 律 。 连 接 运 算 满足 结合 律 、 交 换 律 在 查询 优化 中 对 于 重 排 连接 顺序 是 很 重要 的 。 
7. 选择 运算 在 下 面 两 个 条 件 下 对 9 连接 运算 具有 分 配 律 : 
584 a. 当选 择 条 件 & 中 的 所 有 属性 只 涉及 参与 连接 运算 的 表达 式 之 一 (比如 E ) 时 ,满足 分 配 律 : 
T(E E) = (o4,(£,)) XE, 
b. 当选 择 条 件 9, 只 涉及 E, 的 属性 ， 选 择 条 件 9, 只 涉及 E, 的 属性 时 ， 满 足 分 配 律 ; 
Oano (EX E) = (0a (E,)) X,(0,,(E,)) 
8. 投影 运算 在 下 面条 件 下 对 9 连接 运算 具有 分 配 律 : 
a Q Lan L DARE. E, 的 属性 。 假 设 连接 条 件 9 只 涉及 LUL 中 的 属性 ， 则 : 
Miu, EM,E,)= CT, (E) ) pg 8C, (E) ) 
b. FIBRE EMK, Eo SL, L 分 别 代 表 E,、E, 的 属性 集 ; SL, Æ E 中 出 现在 连接 条 件 9 中 
但 不 在 LUL 中 的 属性 ; S L Æ E, 中 出 现在 连接 条 件 9 HERE L UL, 中 的 属性 。 那 么 : 
Iu, (EM E2) = IIL wz ( Mru, (E ) ) Mg Tez C2) )) 
9. 集合 的 并 与 交 满足 交换 律 。 
E VE, = E, UE, 
ENMBE,= E,NE, 
集合 的 差 运 算 不 满足 交换 律 。 
10. 集合 的 并 与 交 满足 结合 律 。 
(E UE) UE, = EU(E,UE,) 
(E, NE,) NE, = E,N(CE,NE;) 
11. 选择 运算 对 并 、 交 、 差 运算 具有 分 配 律 : 
op(E, -E,) =ap(E,) -op(Ek,) 
类 似 地 ， 上 述 等 价 规则 将 ”- " BHR A U BO RO. HEA: 
Tp (E, -E,) =F,(E,) - E, 
上 述 等 价 规则 将 ”- "替换 成 几时 也 成 立 ， 但 将 ”-“ 替 换 成 U 时 不 成 立 。 
12. 投影 运算 对 并 运算 具有 分 配 律 。 | 
585 I(E, UE) = (T1,(£, ) ) UCTI,(£;) ) 
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以 上 列 出 的 只 是 等 价 规则 的 一 部 分 。 涉 及 扩展 关系 代数 运算 符 ( 如 外 连接 和 聚集 ) 的 更 多 等 价 规则 
将 在 习题 中 讨论 。 
13. 2.2 转换 的 例子 

下 面 举 例 说 明 等 价 规则 的 用 法 。 我 们 用 大 学 这 个 例子 ， 其 关系 模式 如 下 : 


Instructor(ID, name, dept_name, salary) 
teaches( ID, course_id, sec_id, semester, year) 
course( course_id, title, dept_name, credits ) 


在 13. 1 节 的 例子 中 ， 表 达 式 : 
Tame tile ( O depi name = “musie” ( instructor DX (teaches DI Tcourse_id , title( course) ) ) ) 
转换 成 以 下 表达 式 : 
Imesiue ( ( O depi name = "Music" (instructor ) ) DX ( teaches XXI TIcourse_id, title( course) ) ) 

转换 后 表达 式 等 价 于 原始 关系 代数 表达 式 ， 但 产生 较 小 的 中 间 关 系 。 这 一 转换 可 用 规则 7. a 来 实 
现 。 记 住 ， 规 则 只 是 说 两 个 表达 式 等 价 ， 而 未 表明 熟 优 熟 劣 。 

针对 一 个 查询 或 查询 的 一 部 分 ， 可 以 连续 使 用 多 条 等 价 规则 。 作 为 一 个 例子 ， 假 设 我 们 对 原先 的 
查询 加 以 修改 ， 将 注意 力 限 制 在 2009 年 教授 一 门 课程 的 那些 教师 。 新 的 关系 代数 查询 可 写 为 : 


Eh side © dep_name =" Music” Nyear = 2009 (instructor DX ( teaches 办 也 


我 们 不 能 把 选择 谓词 直接 应 用 到 instructor 关系 上 ， 因 为 该 谓词 同时 牵涉 instructor 和 teaches 两 个 关系 的 
属性 。 然 而 ， 我 们 可 以 先 用 规则 6.a (自然 连接 的 结合 律 ) 把 连接 instructor 网 (teaches MT wm 
(course) ) 转换 成 (instructor DX teaches ) MII 
Tame tile ( O depi name = “Music” A year =2009 ( ( instructor D teaches) MK Turse id tite ( course ) ) ) 586 
然后 使 用 规则 7. a， 可 将 查询 改写 为 : 
Trame til ( (O depe name = “Music” Ayear =2009 ( instructor DI teaches ) ) DI Ts sa (Course) ) 


我 们 再 看 看 该 表达 式 的 选择 子 表达 式 。 利 用 规则 1， 可 以 把 选择 条 件 分 解 为 两 个 选择 条 件 ， 得 到 
以 下 子 表达 式 : 


(course) : 


course_id „title 





O dept name =" Musie" ( O year =2009 ( instructor D teaches) ) 


上 述 两 个 表达 式 均 选择 出 同时 满足 dept_name = “ Music” K year = 2009 条 件 的 元 组 。 但 后 一 表达 式 
形式 可 以 让 我 们 应 用 7. a “尽早 执行 选择 ”) 这 条 规则 ， 得 到 如 下 子 表 达 式 : 


© depi name = “Musie” (tnstructor ) DI O a -2009 ( teaches ) 


初始 表达 式 及 经 过 上 述 转换 后 的 最 终 表 达 式 的 图 形 化 表示 如 图 13-4 所 示 。 实 际 上 我 们 也 可 以 应 用 
规则 7. b 直接 得 到 最 后 的 表达 式 ， 而 不 必用 规则 1 将 选择 分 解 为 两 个 选择 。 事 实 上 ， 规 则 7.b 本 身 可 
由 规则 1 及 7.a 导 出 。 

若 一 组 等 价 规则 中 任意 一 条 规则 都 不 能 由 其 他 规则 联合 起 来 导出 ， 称 这 组 等 价 规则 集 为 最 小 的 
(minimal ) 等 价 规则 集 。 上 例 表明 13. 2. 1 节 中 的 等 价 规则 集 不 是 最 小 的 。 一 个 与 初始 表达 式 等 价 的 表 
达 式 可 以 用 不 同 的 方式 产生 。 若 不 使 用 等 价 规则 的 最 小 集 ， 则 产生 表达 式 的 不 同方 法 的 数量 也 会 增加 。 
因此 ， 查询 优化 器 使 用 等 价 规则 的 最 小 集 。 

对 上 述 例子 的 查询 ， 现 在 考虑 如 下 的 形式 : 


T pame ine ( ( O depi name ="Music” ( instructor) DX teaches) DA Mesure ia site ( course) ) 


当 计 算 子 表达 式 时 : 


(T depi name = Musie” ( instructor) DX teaches) 


得 到 具有 如 下 模式 的 关系 : 


(ID, name, dept_name, salary, course_id, sec_id, semester, year) 


通过 使 用 等 价 规则 8. a 及 8. b 先 做 投影 运算 ， 可 以 从 模式 中 去 除 几 个 属性 。 要 保留 的 属性 是 那些 
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name, title name, title 


dept_name = Music 
A year = 2009 
x we 1 course_id, title 


xX ‘a =Music year = 2009 
teaches I aes instructor teaches course 
| course_id, title 


q oa 





instructor 


course 


a) 初始 表达 式 树 b) 多 次 转换 后 的 表达 式 树 
图 13-4 多 次 转换 


出 现在 查询 结果 中 或 在 后 续 运 算 中 要 处 理 的 属性 。 通 过 去 除 不 必要 的 属性 ， 可 以 减少 中 间 结 果 的 列 数 ， 
从 而 减 小 中 间 结 果 的 大 小 。 在 该 例子 中 ， 从 instructor 与 teaches 的 连接 中 我 们 只 需 属 性 name 和 course_ 
id。 因 此 可 将 表达 式 修 改 为 : 
T pame, titte ( ( Iname course_id ( ( O dept name = “musie” ( instructor) ) DX teaches ) Pl TI ourse id rite ( course) ) 

投影 Trame, course a 减 小 了 中 间 连 接 结果 的 大 小 。 
13.2.3 连接 的 次 序 

一 个 好 的 连接 运算 次 序 对 于 减少 临时 结果 的 大 小 是 很 重要 的 ， 因 此 大 部 分 查询 优化 器 在 连接 次 序 
上 花 了 很 多 工夫 。 正 如 第 6 章 及 在 等 价 规则 6. a 提 到 的 ， 自 然 连接 运算 满足 结合 律 。 所 以 ， 对 任 给 关 
Arn mM, A 

(rr) Xr, = rD (rr, ) 


虽然 这 两 个 表达 式 等 价 ， 但 计算 它们 的 代价 可 能 不 同 。 再 次 考虑 表达 式 


Trame ie ( ( O depi name =" Musie" (instructor) ) DI teaches DX) Moore id site (Course ) ) 


我 们 可 以 选择 先 计算 teaches M TI iauu(course) ， 然 后 将 结果 与 


© depi name =" Music” (imstructor) 


相连 接 。 
不 过 ，teaches X Mesure id tiie (course) 可 能 是 一 个 很 大 的 关系 ， 因 为 每 门 课 均 对 应 一 个 元 组 。 与 此 
相反 ， 


O depi name = “musie” (instructor) ) DX teaches 


很 可 能 是 一 个 小 关系 。 为 说 明 这 一 点 ， 我 们 注意 到 因为 一 所 大 学 拥有 很 多 系 ， 很 可 能 只 有 一 小 部 分 大 
学 教师 和 音乐 系 相关 。 因 此 ， 上 述 表达 式 得 到 的 结果 对 于 音乐 系 的 每 个 教师 所 教授 的 每 门 课 有 一 个 元 
Ho R, 我们 需要 保存 的 临时 关系 比 先 计算 teaches MII, ia tiie (course) 连接 所 需 保存 的 关系 要 小 。 

执行 查询 还 需要 考虑 其 他 因素 。 我 们 不 关心 属性 在 连接 中 出 现 的 次 序 ， 因 为 在 显示 结果 前 改变 属 
性 的 顺序 是 很 容易 的 。 因 此 ， 对 于 任何 关系 7 、7,: 

nMr, =r,Mr, 

即 自然 连接 满足 交换 律 (等 价 规则 5) 。 

利用 自然 连接 满足 结合 律 与 交换 律 (规则 5 与 6) 的 性 质 ， 考 虑 如 下 关系 代数 表达 式 : 

(instructor MK Ts, ia riu ( Course) ) DX teaches 

请 注意 ， 因 为 Mouse jaw (course) 与 instructor 之 间 没 有 公共 属性 ， 所 以 以 上 连接 为 笛 卡 儿 积 。 若 

instructor 中 有 a NIH, Mesure ia site (Course) PA b AIH, EFRI E a * b 个 元 组 ， 结 果 集 中 的 
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每 个 元 组 均 为 instructor 的 一 个 元 组 与 course 的 一 个 元 组 所 可 能 形成 的 元 组 对 (该 计算 没有 考虑 教师 是 否 
教授 课程 )。 因 此 ， 该 笛 卡 儿 积 将 产生 较 大 的 临时 关系 。 然 而 ， 如 果 用 户 输入 以 上 表达 式 ， 我们 可 以 用 
自然 连接 的 结合 律 与 交换 律 把 这 个 表达 式 转换 成 前 面 我 们 所 用 的 更 有 效 的 表达 式 : 


(instructor XI teaches ) DM Mesure id ule ( course ) 


13.2.4 等 价 表 达 式 的 枚 举 

查询 优化 器 使 用 等 价 规则 系统 地 产生 与 给 定 表达 式 等 价 的 表达 式 。 在 概念 上 ， 该 流程 如 图 13-5 所 
描述 。 处 理 过 程 如 下 : 给 定 一 个 表达 式 EE， 等 价 表 达 式 集合 EQ 最 初 只 包含 。 现 在 ,将 EQ 中 的 每 条 
表达 式 与 每 条 等 价 规则 匹配 。 如 果 表 达 式 E, 中 有 任何 子 表 达 式 e 作为 特例 ， 可 能 就 是 E 本 身 ) 与 等 
价 规 则 的 某 一 边 相 匹配 ， 优 化 器 就 产生 一 个 新 的 表达 式 ， 其 中 子 表 达 式 e; 被 蔡 换 成 与 它 相 匹配 的 规则 
的 男 一 边 。 结 果 表 达 式 加 入 到 EQ 中 。 该 处 理 过 程 不 断 进行 下 去 ， 直 到 不 再 有 新 表达 式 产生 为 止 。 

上 述 处 理 方式 无 论 在 时 间 上 还 是 在 空间 上 代价 都 很 大 。 但 是 采用 两 种 关键 思想 ， 优 化 器 可 以 极 大 
地 减少 空间 和 时 间 上 的 开销 。 

1. 如 果 在 子 表达 式 e; 上 使 用 等 价 规则 把 表达 式 E, HPR E, WRT o KEH, E 与 已 有 相同 
的 子 表 达 式 。 而 且 e; 及 其 转换 通常 也 有 许多 相同 的 子 表达 式 。 可 以 采用 一 些 表 达 式 表示 技术 ,使 两 个 
表达 式 指向 共享 的 子 表达 式 ， 这 样 可 以 明显 减少 对 空间 的 需求 。 

2. 不 必 总 是 用 等 价 规则 产生 所 有 可 以 产生 的 表达 式 。 正 如 我 们 将 在 13. 4 节 中 看 到 的 那样 ， 如 果 考 
虑 估计 的 执行 代价 ， 优 化 器 可 以 避免 检查 某 些 表 达 式 。 使 用 这 些 技 术 ， 可 以 减少 优化 所 需 时 间 。 

我 们 将 会 在 13. 4. 2 节 再 次 讨论 这 些 问 题 。 





procedure genAllEquivalent( £) 
EQ=|E| 
repeat 
将 EQ 中 的 每 条 表达 式 E, 与 每 条 等 价 规则 R 进行 匹配 
WERE, 的 某 个 子 表 达 式 与 R 的 某 一 边 相 匹配 
生成 一 个 与 玉 EMKE, Hh e, 被 替换 成 R 的 另 一 边 
如 果 已 不 在 EQ 中 ， 则 将 其 添加 到 EQ 中 
until 不 再 有 新 的 表达 式 可 以 添加 到 EQ 中 


13-5 产生 所 有 等 价 表 达 式 的 过 程 


13.3 ”表达 式 结 果 集 统计 大 小 的 估计 


一 个 操作 的 代价 依赖 于 它 的 输入 的 大 小 和 其 他 统计 信息 。 给 定 一 个 表达 式 ， 如 aX(bMec)， 估计 a 
与 (b Mec) 的 连接 代价 ,我们 需要 有 一 些 统计 信 息 的 估计 ， 比 如 (5 Me) 的 大 小 。 

在 这 一 节 中 ， 首 先 列 出 一 些 有 关 存 储 在 数据 库 目 录 中 的 关于 数据 库 关 系 的 统计 信息 ， 然 后 指出 如 
何 使 用 这 些 统计 信息 估计 不 同 关 系 操作 运算 结果 的 统计 信息 。 

在 这 一 节 里 稍 后 可 以 看 出 ， 该 估计 并 不 十 分 精确 ， 因 为 估计 是 基于 一 个 不 严密 的 假设 。 因 此 ， 某 
个 具有 最 小 执行 代价 估计 的 查询 执行 计划 可 能 事实 上 并 不 具有 最 小 的 实际 执行 代价 。 然 而 ， 实 践 经 验 
告诉 我 们 ， 即 使 估计 并 不 精确 ， 具 有 最 小 代价 估计 的 计划 通常 等 于 或 接近 于 实际 最 小 执行 代价 。 

13. 3.1 目录 信息 

数据 库 系统 目录 存储 了 有 关 数 据 库 关系 的 下 列 统计 信息 : 

en, KAr 的 元 组 数 。 

。 6b,， 包 含 关系 7 中 元 组 的 磁盘 块 数 。 

。 1,， 关 系 r 中 每 个 元 组 的 字 节 数 。 

。 ,关系 7 的 块 因子 一 一 一 个 磁盘 块 能 容纳 关系 7 中 元 组 的 个 数 。 

。V(4, r)， 关 系 r 中 属性 4 中 出 现 的 非 重复 值 个 数 。 该 值 与 TL (7) 的 大 小 相同 。 如 果 4 是 关系 7 

WEH, MVA, 7) 等 于 nn,。 
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需要 的 话 ， 这 最 后 一 个 统计 值 V(4, r) 也 可 以 是 对 属性 集 维护 的 ， 而 不 是 仅仅 用 于 单独 的 属性 。 因 
此 对 于 给 定 的 属性 集 4，F(.4, r) RENA) 的 大 小 。 

如 果 我 们 假设 关系 7 的 元 组 在 物理 上 存储 于 一 个 文件 中 ， 则 下 面 的 等 式 成 立 : 

b= (FI 

关于 索引 的 统计 信息 ， 比 如 B ~ 树 索引 的 高 度 和 索引 中 叶 节 点 的 页 数 ， 也 保存 在 目录 中 。 

如 果 我 们 希望 维护 准确 的 统计 信息 ， 则 每 次 关系 修改 时 ， 必 须 同 时 更 新 这 些 统计 信息 。 这 样 更 新 
导致 了 一 定量 的 开销 。 因 此 ， 许 多 系统 并 不 是 每 次 修改 都 更 新 统计 信息 ， 而 是 当 系 统 处 于 轻 负载 时 进 
行 更 新 。 这 样 ， 用 于 选择 查询 处 理 策略 的 统计 信息 可 能 并 不 完全 精确 。 然 而 ， 如 果 在 统计 信息 更 新 的 
间隔 里 没有 发 生 太 多 的 更 新 ， 那 么 统计 信息 用 以 对 不 同 计划 的 相对 代价 进行 较 好 的 估计 时 将 足够 精确 。 

这 里 讲 到 的 统计 信息 是 简化 过 的 。 现 实 中 的 优化 器 经 常 维 护 更 深入 的 统计 信息 用 以 提高 对 执行 计 
划 的 代价 估计 的 精确 度 。 例 如 ， 大 多 数 数 据 库 将 每 个 属性 的 取 值 分 布 男 存 为 一 张 直方 图 ( histogram ) : 
在 直方 图 中 ， 每 个 属性 的 取 值 分 成 若干 个 区 间 ， 对 于 每 个 区 间 ， 直 方 图 将 属性 值 落 在 该 区 间 中 的 元 组 
个 数 与 该 区 间 相 关联 。 图 13-6 给 出 了 一 个 范围 在 1 ~ 25 之 间 的 整数 数值 型 属性 的 直方 图 的 示例 。 

在 关系 数据 库 中 使 用 的 直方 图 除了 记录 属性 落 入 每 
个 区 间 的 元 组 个 数 以 外 ， 通 常 也 记录 每 个 区 间 内 不 同 的 
属性 取 值 个 数 。 40 

举 一 个 直方 图 的 例子 来 说 ， 一 个 关系 person 的 属性 $ 30 
age 的 取 值 范围 可 分 成 0~9, 10 ~19, … , 90 ~99( 假 设 $ 
最 大 年 龄 值 是 99 ) 。 对 每 个 区 间 ， 我 们 记录 那些 age 值 落 | 
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在 该 区 间 的 person 元 组 个 数 ， 以 及 落 入 该 区 间 的 不 同年 
龄 取 值 的 个 数 。 如 果 没 有 这 样 的 直方 图 信息 ， 优 化 器 将 oe pe peace oie 
不 得 不 假设 属性 值 的 分 布 是 均匀 的 ， 即 每 个 区 间 具 有 同 as NOFS 
样 的 计数 值 。 

一 个 直方 图 只 占用 很 少 的 空间 ， 因 此 不 同属 性 上 的 See BN 
直方 图 可 以 存储 在 系统 目录 里 。 数 据 库 系 统 中 使 用 的 直方 图 有 几 种 。 例 如 ， 等 宽 直 方 图 ( equi_width 
histogram ) 把 取 值 范围 分 成 相等 大 小 的 区 间 ， 而 等 深 直方 图 (equi_depth histogram ) 则 调整 区 间 的 分 界 以 
使 落 入 每 个 区 间 的 取 值 个 数 相同 。 
13. 3.2 选择 运算 结果 大 小 的 估计 

对 一 个 选择 运算 结果 大 小 的 估计 依赖 于 选择 谓词 。 我 们 首先 考虑 一 个 单独 的 等 值 谓 词 ， 其 次 考虑 
一 个 单独 的 比较 谓词 ， 最 后 考虑 谓词 联合 。 

© oil-s(r) : 如 果 我 们 假设 取 值 是 均匀 分 布 的 ( 即 ， 每 个 值 以 同样 的 概率 出 现 ) ， 并 假设 关系 7 的 
一 些 记录 的 属性 4 中 的 取 值 为 a， 则 可 估计 选择 结果 有 n/V, r) 个 元 组 。 这 里 选择 操作 中 的 
值 a 在 一 些 记录 中 出 现 的 假设 通常 是 成 立 的 ， 而且 代 价 估计 总 是 默认 这 一 假设 。 然 而 ,假设 每 
个 值 以 同样 的 概率 出 现 通常 是 不 现实 的 ， 关 系 takes 的 属性 course_id 就 是 一 个 假设 不 成 立 的 例 
子 。 我 们 有 理由 预期 受 欢迎 的 本 科 课 程 比 小 的 专业 的 研究 生 课程 有 更 多 学 生 。 因 此 ,一些 
course_id 值 出 现 的 可 能 性 要 比 其 他 的 大 。 尽 管 平均 分 布 假设 通常 不 成 立 ,但 在 许多 情况 下 它 是 
对 现实 的 合理 近似 ， 并 且 能 使 我 们 的 阐述 相对 简单 。 

如 果 属 性 4 上 有 一 个 直方 图 ， 我们 可 以 定位 值 a 所 在 的 区 间 ， 然 后 修改 上 述 估算 式 n/V 
(4, r) ， 用 该 区 间 的 频 度 计数 代替 n,， 用 该 区 间 中 出 现 的 不 同属 性 值 的 个 数 代 苦 VOA, r)a 
One. (7): 考虑 形 如 064.,(7) 的 选择 操作 。 如 果 在 进行 代价 估计 时 ， 用 于 比较 操作 的 值 (v) 已 知 ， 
则 可 做 更 精确 的 估计 。 属 性 A 的 最 小 值 min(4，r) 和 最 大 值 max( 4, 7) 可 存储 到 目录 中 。 假设 
值 是 平均 分 布 的 ， 我 们 可 以 对 满足 条 件 4<w 的 记录 数 进行 下 列 估计 : 车 v < min(4，r) ， 则 为 
0; @veSmax(A, r), WA n; AM, 为: 
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v — min(A,r) 





re, max(A,r) — min( A,r) 

如 果 属 性 4 上 存在 直方 图 ， 我 们 就 可 以 得 到 更 精确 的 估计 ， 我 们 将 细节 作为 练习 留 给 读者 
来 完成 。 在 某 些 情况 下 ， 比 如 查询 是 存储 过 程 的 一 部 分 ， 查 询 优化 时 无 法 得 到 "的 值 。 在 这 样 
的 情况 下 ， 我 们 假设 大 约 有 一 半 的 记录 将 满足 比较 条 件 。 也 就 是 说 ， 我 们 假设 结果 集 包 含 n,/2 
个 元 组 ， 这 个 估计 可 能 非常 不 精确 ， 但 这 是 在 没有 任何 进一步 信息 的 条 件 下 所 能 采取 的 最 好 的 
办 法 了 。 


计算 及 维护 统计 数据 
从 概念 上 讲 ， 关 系 上 的 统计 数据 可 以 理解 为 物化 视图 ， 该 统计 数据 当 关 系 修改 时 应 该 自动 维护 。 
遗憾 的 是 ， 对 于 数据 的 每 一 次 插入 、 删 除 和 更 新 保持 最 新 的 统计 数据 开销 是 非常 大 的 。 另 一 方面 ， 
优化 器 一 般 不 需要 准确 的 统计 数据 : 百 分 之 几 的 错误 可 能 导致 一 个 不 是 最 优 的 计划 被 选择 ， 但 是 这 
个 选择 的 计划 可 能 比 最 优 计 划 的 代价 仅 高 百 分 之 几 。 因 此 ， 近 似 的 统计 数据 是 可 以 接受 的 。 
利用 统计 数据 可 以 近似 的 事实 ， 数 据 库 系统 通过 以 下 方式 减少 生成 和 维护 统计 数据 的 开销 。 
© 统计 数据 通常 基于 基础 数据 的 样本 来 计算 ， 而 不 用 检查 整个 数据 集合 。 倒 如 ， 一 个 相当 准确 
的 直方 图 可 以 通过 几 千 个 元 组 计算 出 来 ， 尽 管 一 个 关系 包含 百 万 或 亿 万 的 记录 。 然 而 ， 使 用 
的 样本 必须 是 随机 抽样 的 样本 (random sample)。 一 个 不 是 随机 抽样 的 样本 可 能 过 度 表现 关系 
的 一 部 分 ， 从 而 误导 结果 。 例 如 ， 如 果 我 们 采用 教师 的 样本 来 计算 工资 的 直方 图 ， 如 果 抽 样 
过 于 表示 低 工资 的 教师 ， 则 直方 图 会 导致 错误 的 估计 。 目 前 数据 库 系统 经 常 使 用 随机 抽样 来 
生成 统计 数据 。 抽 样 的 相关 研究 请 参见 文献 注解 。 
© 不 是 对 于 每 个 数据 库 更 新 都 维护 统计 数据 。 事 实 上 ， 一 些 数据 库 系 统 从 不 自动 更 新 统计 数 
据 。 它 们 依靠 数据 库 管 理 员 定 期 运行 一 条 命令 来 更 新 统计 数据 。Oracle 和 PostgreSQL 提供 
一 条 称 为 analyze 的 数据 库 命令 产生 指定 关系 或 者 所 有 关系 上 的 统计 数据 。IBM DB2 提供 
一 个 等 价 的 称 为 runstats 的 命令 。 更 多 细节 请 查看 系统 手册 。 你 应 该 意识 到 ， 由 于 不 准确 
的 统计 数据 ， 优 化 器 有 时 选择 非常 糟糕 的 计划 。 许 多 数据 库 系统 (例如 IBM DB2, Oracle 和 
SQL Server) 会 在 某 些 时 间 点 自动 地 更 新 统计 数据 。 例 如 ， 系 统 可 以 近似 跟踪 一 个 关系 中 有 
多 少 元 组 ， 并 且 当 元 组 数量 显著 变化 时 重新 计算 统计 数据 。 另 一 种 方法 是 比较 一 个 关系 扫 
描 估 计 的 基数 和 执行 一 个 查询 时 真正 的 基数 ， 如 果 它 们 差异 显著 ， 则 对 该 关系 启动 统计 数 
据 的 更 新 。 


。 复杂 选择 : 
O 合 取 一 一 合 取 选 择 是 形式 如 下 的 选择 操作 : 
Toana N r) 
我 们 按 如 下 方式 估计 该 选择 的 结果 集 的 大 小 : 对 每 个 9， 我 们 按照 以 前 描述 的 那样 估计 选择 
o,(r) 的 大 小 ， 记 为 %。 因 此 ， 关 系 中 的 一 个 元 组 满足 选择 条 件 0, 的 概率 为 s/n 。 
上 述 概率 称 为 选择 co (r) 的 中选 率 ( selectivity) 。 假 设 各 条 件 相互 独 立 ， 则 某 个 元 组 满足 全 部 
条 件 的 概率 是 全 体 概率 的 乘积 。 因 此 ， 我 们 可 以 估计 满足 全 部 选择 条 件 的 元 组 数量 为 ; 
E Sy Esg 5° S, 
析 取 一 一 析 取 选择 是 形式 如 下 的 选择 操作 
Tovev--ve,(7) 
所 有 满足 单个 条 件 0; 的 记录 的 并 满足 析 取 条 件 。 
如 前 所 述 ，s;/n, 代表 某 元 组 满足 条 件 9, 的 概率 。 元 组 满足 整个 析 取 式 的 概率 为 1 减 去 元 组 
不 满足 任何 一 个 条 件 的 概率 ， 即 : 


n 
n, 
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将 该 值 乘 以 n, 即 得 到 满足 该 选择 条 件 的 元 组 数 的 估计 。 


593 口 取 反 一 一 在 无 空 值 的 情况 下， 选择 olr) 的 结果 集 就 是 不 在 olr) 中 的 关系 7 的 元 组 集 。 我 
504 们 已 知 如 何 估计 os(r) 的 元 组 数 ， 因 此 oy (r) 的 元 组 数 的 估计 为 n 减 去 olr) 的 估计 元 
组 数 。 


如 果 考 虑 空 值 ， 我 们 可 以 估计 对 条 件 9 的 取 值 为 未 知 的 元 组 数目 ， 然 后 从 上 面 忽略 空 值 的 估 
计 中 减 去 该 数目 。 对 该 数目 的 估计 需要 在 目录 中 维护 附加 的 统计 信息 。 
13. 3.3 连接 运算 结果 大 小 的 估计 
在 本 节 中 ， 我 们 考虑 如 何 估计 连接 运算 结果 集 的 大 小 。 
第 卡 儿 积 r xs 包含 n, *n, 个 元 组 。r xs 中 的 每 个 元 组 占用 1, +1, 个 字 节 ， 由 此 我 们 可 以 计算 出 笛 卡 
儿 积 的 大 小 。 

估计 自然 连接 的 大 小 比 估计 选择 或 笛 卡 儿 积 的 大 小 要 更 复杂 一 些 。 令 r(R) 和 s(5) 为 两 个 关系 。 

e RNAS =0 一 一 两 个 关系 没有 共同 的 属性 一 一 则 rs 与 xs 结果 一 样 ， 我 们 可 用 估算 笛 卡 儿 
积 结果 集 大 小 的 方法 进行 估计 。 

。 车 RNMS 是 R 的 码 ， 则 我 们 可 知 s 的 一 个 元 组 至 多 与 7 的 一 个 元 组 相连 接 。 因 此 ,，r Xs 中 的 元 组 
数 不 会 超过 中 元 组 的 数目 。RMS 是 S 的 码 的 情形 同上 面 的 情形 相对 称 。 若 RNS 构成 了 5 中 
参照 R 的 外 码 ， 则 r Ms 中 的 元 组 数 正好 与 s 中 元 组 数 相等 。 

。 最 难 的 情形 是 ROS 既 不 是 R 的 码 也 不 是 5 的 码 。 在 这 种 情况 下 ， 与 进行 选择 运算 的 情况 一 样 ， 
我 们 假定 每 个 值 等 概率 出 现 。 考 虑 7 的 元 组 +， 假定 RNS = | A 。 我 们 估计 元 组 1 在 r%Xs 中 








产生 : 5 
WA.s) 
个 元 组 ， 因 为 该 值 就 是 关系 * 中 在 属性 4 上 具有 给 定 值 的 平均 元 组 数目 。 考 虑 r 中 的 所 有 元 组 ， 
我 们 估计 在 rs 中 有 : 
n, * n, 
V(A,s) 
个 元 组 。 注 意 ， 如 果 将 Ss 的 角色 颠倒 ， 那 么 我 们 估计 在 rMs PA: 
n, * Nn, 
V(A,r) 


个 元 组 。 在 V4,s) = V(A,r) 时 ， 这 两 个 估计 是 不 同 的 。 若 发 生 这 种 情况 ， 就 可 能 有 未 参加 连 
接 的 悬挂 元 组 存在 。 因 此 这 两 个 估计 值 中 较 小 者 可 能 比较 准确 。 
当 r 中 属性 4 的 V(4, 7) 个 值 与 ;中 属性 4 的 V(A，s) 个 值 相 等 的 情况 很 少时 ， 上 述 连接 结 
果 集 大 小 估计 值 可 能 太 高 。 然 而 ， 实 际 中 这 种 情形 很 少 发 生 ， 因 为 在 大 部 分 现实 关系 中 悬挂 元 
组 要 么 不 存在 要 么 只 占 总 元 组 数 的 一 小 部 分 。 
更 重要 的 是 ， 前 面 的 估计 是 在 各 个 值 等 概率 出 现 这 一 假设 前 提 下 做 出 的 。 若 这 个 假设 不 成 
立 ， 则 必须 用 更 复杂 的 估算 方法 。 例 如 ， 如 果 我 们 在 两 个 关系 的 连接 属性 上 有 直方 图 ， 并 且 两 
个 直方 图 都 有 相同 的 区 间 ， 我 们 就 可 以 在 每 个 区 间 中 使 用 上 述 估 计 方 法 ， 用 值 落 入 该 区 间 的 行 
数 来 代替 和 n,， 用 该 区 间 的 不 同 取 值 个 数 代 替 V( 4, 7r) 或 V(4，s)。 然 后 我 们 把 得 到 的 每 个 
区 间 大 小 估计 值 加 起 来 就 得 到 总 的 大 小 估计 值 。 我 们 把 两 个 关系 在 连接 属性 上 都 有 直方 图 ， 但 
直方 图 的 区 间 不 一 样 的 情况 留 给 读者 作为 练习 。 
对 于 9 连接 rss， 我 们 可 以 把 它 重 写成 ro(r xs) 的 形式 ， 利 用 笛 卡 儿 积 的 大 小 估计 和 13.3.2 节 
讲 到 的 选择 操作 的 大 小 估计 相 结 合 的 方法 得 到 它 的 估计 。 
举例 说 明 对 连接 运算 结果 集 大 小 的 估计 方法 ， 考 虑 表达 式 
student X takes 
假设 有 关 这 两 个 关系 的 目录 信息 如 下 : 
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© Nerden = 5000 
© faden = 50， 意 味 着 buw = 5000/50 = 100 
© Nis, = 10 000 
© fun. = 25, 意味 着 be = 10 000/25 = 400 
e V(ID, takes) =2500， 意 味 着 只 有 一 半 的 学 生 选 课 (这 是 不 现实 的 ， 但 是 我 们 用 它 来 表明 在 这 个 
例子 中 我 们 的 大 小 估计 是 正确 的 ) ， 并 且 在 平均 情况 下 ， 选 课 的 学 生 每 人 选 4 门 课 。 
depositortake 的 属性 ID 是 参照 student 的 外 码 ， 而 且 take. ID 上 没有 空 值 ， 因 为 ID 是 take 主 码 中 的 
一 部 分 。 因 此 student M takes 的 大 小 恰好 是 mm = 10 000。 
下 面 我 们 在 不 使 用 外 码 信息 情况 下 计算 student X takes 的 大 小 估计 值 。 根 据 VOID, takes) =2500， 以 
K V(ID, student) =5000, 我们 得 到 两 个 估计 值 : 5000 * 10 000/2500 = 20 000 及 5000 * 10 000/5000 = 
10 000， 我 们 取 较 小 者 。 在 这 里 ， 估 计 值 较 小 者 与 我 们 早先 用 外 码 信息 计算 所 得 结果 相同 。 
13.3.4 其 他 运算 的 结果 集 大 小 的 估计 
我 们 下 面 大 略 描述 了 估计 其 他 关系 代数 运算 的 结果 集 大 小 的 方法 。 
。 投影 : 形 如 IL,(7) 的 投影 的 计算 结果 大 小 (元 组 数 或 记录 数 ) 估 计 为 V(4, r) ， 因 为 投影 去 除了 
重复 元 组 。 
© 聚集 :,9;(7) 的 大 小 是 V(r) ， 因 为 对 4 的 任意 一 个 不 同 取 值 在 ,9:(7) 中 有 一 个 元 组 与 其 对 应 。 
。 集合 运算 : 如 果 一 个 集合 运算 的 两 个 输入 是 对 同一 个 关系 的 选择 ， 我 们 可 以 将 该 运算 重 写成 析 
取 、 合 取 或 取 反 。 例如 , os (r) U os (r) 可 以 重 写成 oo vo(r) 。 同 理 ， 只 要 参与 集合 运算 的 两 
个 关系 是 对 同一 个 关系 的 选择 ,我 们 可 以 把 交集 重 写成 合 取 式 ， 差 集 重 写成 取 反 。 这 样 我 们 就 
可 以 使 用 在 13. 3. 2 节 中 的 对 涉及 合 取 、 析 取 和 取 反 操作 的 选择 的 估计 。 
如 果 输 入 不 是 对 同一 个 关系 的 选择 运算 ， 我 们 可 以 按 下 面 的 方法 进行 估计 : 对 rUs 大 小 的 估计 为 
r 与 大 小 之 和 ; 对 rns 大 小 的 估计 为 > 与 大 小 之 差 ; 对 r-s* 大 小 的 估计 为 > 的 大 小 。 以 上 三 
种 估计 可 能 不 精确 ， 但 提供 了 结果 集 大 小 的 上 界 。 
© 外 连接 : rs 的 大 小 估计 为 rs 的 大 小 加 上 关系 7 的 大 小 ; 对 rKCs 的 估计 与 对 rs 的 估计 
是 对 称 的 ， 而 > 了 Cs 的 估计 为 "Ms 的 大 小 加 上 关系 上 "和 关系 s 的 大 小 。 以 上 三 种 估计 可 能 不 精 
确 , 但 提供 了 结果 集 大 小 的 上 界 。 
13. 3.5 不 同 取 值 个 数 的 估计 
对 于 选择 操作 来 说 ， 其 选择 结果 集中 的 某 个 属性 (或 属性 集 )4 上 的 不 同 取 值 个 数 Y(4，cro(r) ) 可 
以 按 如 下 方式 进行 估计 : 
© 若 选 择 条 件 9 令 4 取 一 个 特定 值 (例如 A=3), 则 V(4 ，co(r)) =1。 
。 若 0 令 4 取 一 个 指定 值 的 集合 (例如 A=1VA=3VA=4)， 则 V(4 ，cv(r) ) 即 为 这 些 指定 值 的 
个 数 。 
© 若 选 择 条 件 9 为 4 opr 的 形式 ， 其 中 op 为 一 个 比较 运算 符 ， 则 V(4， oro(7r) ) 估 计 为 V(4 ©) * 
s， 这 里 s 是 该 选择 操作 的 中 选 率 。 
© 对 于 选择 操作 的 其 他 情况 ， 我 们 假设 属性 4 值 的 分 布 独立 于 选择 条 件 给 出 的 值 的 分 布 ， 则 可 以 
得 到 大 约 为 min( VA, r), no.) 的 估计 值 。 对 此 种 情况 ， 可 以 使 用 概率 理论 推导 出 更 精确 的 
估计 ， 但 上 述 粗略 估计 已 经 很 好 了 。 
对 于 连接 操作 ， 其 连接 结果 集中 的 某 个 属性 (或 属性 集 )4 上 的 不 同 取 值 个 数 V(4 , r Ms) 可 以 按 如 
下 方式 进行 估计 : 
。 若 4 中 所 有 的 属性 全 来 自 r， 则 Y(4 , rMs) 可 估计 为 min( V(A, r), n pa); 类 似 地 ， 若 4 中 
所 有 的 属性 全 来 自 *， 则 的 4 ,，r Ms) 可 估计 为 min( V(A, s), n yy) 
© 若 4 包含 来 自 r 的 属性 41 MKA s 的 属性 42， 则 VCA , r Ms) 估计 为 : 
min( V(Al, r) * V(A2 -Al, s), V(Al =A2, r) * V(A,, s), ny.) 
注意 到 可 能 有 些 属性 既 在 Al 中 又 在 42 中 , 令 41 -42 和 42 -A 分别 代表 只 来 自 r 和 只 来 自 s 
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的 4 中 的 属性 。 同 上 ， 此 种 情况 可 以 使 用 概率 理论 推导 出 更 精确 的 估计 ， 但 上 述 粗略 估计 已 经 
很 好 了 。 
不 同 取 值 的 数目 估计 对 于 投影 来 说 非常 直截了当 : 在 II,(r) 中 和 在 ~ 中 的 估计 值 是 一 样 的 。 这 
一 点 在 聚集 操作 的 分 组 属性 上 也 同样 成 立 。 为 简便 起 见 ， 对 于 sum, count 和 average 的 结果 ， 
我 们 可 以 假设 所 有 的 聚集 值 是 各 不 相同 的 。 对 于 min(4) 和 max(4) ， 不 同 取 值 的 个 数 可 估计 为 
min( V(A , r), V(G, r)), REH G 代表 分 组 属性 。 我 们 略 去 对 其 他 操作 的 不 同 取 值 数 估计 的 
详细 介绍 。 
13.4 执行 计划 选择 
由 于 表达 式 中 的 每 个 运算 可 用 不 同 的 算法 实现 ， 因 此 产生 表达 式 仅仅 是 查询 优化 过 程 的 一 部 分 。 
因此 一 个 执行 计划 需要 准确 定义 每 个 运算 应 使 用 什么 算法 以 及 如 何 协调 各 运算 的 执行 。 
利用 13. 3 节 的 有 关 技 术 所 估计 的 统计 信息 和 第 12 章 描述 的 对 不 同 算 法 和 计算 方法 的 代价 估计 ， 
我 们 可 以 对 给 定 的 执行 计划 进行 代价 估计 。 
基于 代价 的 优化 器 (cost-based optimizer) 从 给 定 查询 等 价 的 所 有 查询 执行 计划 空间 中 进行 搜索 ， 并 
选择 估计 代价 最 小 的 一 个 。 我 们 已 经 看 到 如 何 使 用 等 价 规则 来 产生 等 价 计 划 。 采 用 随意 等 价 规则 并 且 
基于 代价 的 优化 器 是 相当 复杂 的 。 首 先 13. 4. 1 节 介 绍 一 个 简单 版 本 的 基于 代价 的 优化 器 ， 其 中 仅 涉及 
连接 顺序 和 连接 算法 选择 。 然 后 ，13. 4. 2 节 将 简单 描述 如 何 创建 一 个 基于 等 价 规则 的 通用 优化 器 ， 而 
不 过 多 深入 细节 。 
对 于 复杂 查询 来 说 ， 搜 索 整个 可 能 的 计划 空间 代价 太 高 。 许 多 优化 器 采用 启发 式 方法 来 降低 查询 
优化 的 代价 ， 同 时 承担 找 不 到 最 优 计 划 的 潜在 风险 。13. 4. 3 节 介 绍 一 些 启发 式 方法 
13. 4. 1 ”基于 代价 的 连接 顺序 选择 
SQL 中 最 常见 的 查询 是 由 连接 谓词 以 及 where 子 句 指定 的 选择 所 构成 的 几 个 关系 的 连接 。 在 本 节 
中 ,我们 考虑 如 何 为 这 类 查询 选择 最 优 的 连接 顺序 的 问题 。 
对 于 一 个 复杂 的 查询 ， 等 价 于 给 定 查询 计划 的 不 同 查询 计划 可 能 很 多 。 为 了 说 明 这 一 点 ， 考 虑 表 
达 式 : 
r DX r DI-M r, 
其 中 连接 运算 没有 指定 任何 顺序 。 当 =3 时 ， 有 12 种 不 同 的 连接 顺序 : 
rX (rX r) rnM(rMr) (rAr) Mr (Xr) Mr, 
rmA(rMr) rX (r, Mr, ) (ripara) Ar (rnMr) Mr, 
raD (rX r) X (rAr) (Xr) Mr, (rX r) Mr, 
一 般 而 言 ， 对 于 nn 个 关系 ， 有 (2(n -1))! /A(n -1)! 个 不 同 的 连接 顺序 。( 我 们 将 该 式 的 计算 留 
作 练 习 13.10)。 对 于 涉及 少量 关系 的 连接 而 言 ， 该 数目 还 是 可 以 接受 的 。 例 如 n=5， 此 数 是 1680。 然 
而 ， 当 增加 时 ， 这 个 数字 迅速 增长 。 对 于 n=7， 此 数 变 为 665 280; 当 = 10， 此 数 大 于 176 亿 ! 
幸运 的 是 ， 我 们 不 必 产 生 与 给 定 表达 式 等 价 的 所 有 表达 式 。 例 如 ， 假 设 我 们 想 找到 以 下 表达 式 的 
最 佳 连接 顺序 : 
(riMrMr) Xr rs 
该 表达 式 表 示 r, 、r,、7 首先 进行 连接 ( 以 某 种 顺序 ) ， 其 结果 再 与 r,、rs 进行 连接 (以 某 种 顺序 ) 
计算 rM%rX rs 有 12 种 不 同 的 连接 次 序 ， 其 结果 再 与 7,、rs 进行 连接 时 又 有 12 种 顺序 。 因 此 ， 似 乎 我 
们 需要 检查 144 种 连接 顺序 。 然 而 ， 一 旦 我 们 给 关系 子 集 |r, ，r,，r;| 找到 了 最 佳 连接 顺序 我们 可 以 
用 此 顺序 进一步 与 7,、r; 进行 连接 ,舍弃 r,MXr,Mr, 中 其 他 代价 较 大 的 连接 顺序 。 这 样 ， 我 们 不 必 一 一 
检查 144 种 连接 顺序 ， 而 只 须 检查 12 + 12 种 顺序 。 
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procedure FindBestPlan( S) 
if (bestplan[ S]. cost (%) /» bestpian[S] 已 经 计算 好 了 */ 
return bestplan| S | 
if (S 只 包含 一 个 关系 ) 
根据 访问 S 的 最 佳 方式 设置 bestplan[ S]. plan 和 bestplan[ S]. cost 
else for each S 的 非 空子 集 S1， 且 SIS 
P1 =FindBestPlan(S1) 
P2 = FindBestPlan( § - S1) 
A = 连接 Pl 和 P2 的 结果 的 最 佳 算法 
cost = P1. cost + P2. cost + A 的 代价 
if cost < bestplan| S]. cost 
bestplan[ S]. cost = cost 
bestplan[ S]. plan =“ 执 行 P1. plan; 执行 P2. plan; 
利用 4 连接 Pl 和 P2 的 结果 ” 
return bestplan[ S | 


图 13-7 连接 顺序 优化 的 动态 规划 算法 


利用 这 种 想法 ， 我 们 可 以 设计 一 个 动态 规划 算法 来 寻找 最 佳 连接 顺序 。 动 态 规划 算法 存储 计算 结 
果 并 将 其 重用 ， 这 个 过 程 能 大 大 缩短 执行 时 间 。 

图 13-7 是 对 动态 规划 算法 的 一 个 递归 程序 实现 。 该 程序 尽早 地 在 访问 单个 关系 时 就 使 用 选择 。 很 
容易 理解 程序 假设 所 有 连接 都 是 自然 连接 ， 尽 管 使 用 其 他 连接 条 件 时 过 程 也 没有 改变 。 采 用 任意 连接 
条 件 ， 两 个 子 表达 式 的 连接 可 以 理解 为 包含 所 有 与 两 个 子 表达 式 属性 相关 的 连接 条 件 。 

此 过 程 将 它 计 算出 的 执行 计划 存储 在 一 个 以 关系 集 做 索引 的 关联 数组 bestplan 中 。 该 关联 数组 的 每 
个 项 包含 两 部 分 : 5 的 最 佳 计划 的 代价 和 该 计划 本 身 。bestplan[ S]. cost 的 值 在 未 计算 前 初始 化 为 。 

该 过 程 首先 检查 是 否 已 算出 对 给 定 关系 集 S 计算 连接 的 最 佳 执行 计划 (并 将 其 存储 在 联合 数组 
bestplan 中 ) : 若是 ， 则 返回 计算 出 的 执行 计划 。 

如 果 S 只 包括 一 个 关系 ,访问 S(S 上 的 选择 操作 也 考虑 在 内 ， 如 果 有 的 话 ) 的 最 佳 方法 记录 在 
bestplan 中 。 这 个 过 程 可 能 涉及 用 一 个 索引 来 定位 元 组 ， 然 后 取出 元 组 ( 通常 称 为 索引 扫描 ) ， 或 者 扫描 
整个 关系 表 ( 通 常 称 为 关系 表 扫描 ) 。。 如 果 除了 通过 索引 扫描 的 选择 条 件 ，S 上 还 有 其 他 选择 条 件 ， 
则 添加 一 个 选择 运算 到 计划 中 以 保证 满足 $ 上 的 所 有 选择 。 

和 否则， 如果 $ 包括 多 个 关系 ， 该 过 程 尝试 每 一 种 将 S 分 成 两 个 不 相交 子 集 的 方法 。 对 每 一 种 划分 ， 该 
过 程 对 两 个 子 集中 的 每 个 子 集 递归 地 找 出 最 佳 执行 计划 ， 然 后 用 该 划分 计算 出 整个 执行 计划 的 代价 。 该 
过 程 从 将 5 分 成 两 个 子 集 的 所 有 可 选 方案 中 找 出 最 佳 方案 ， 最 佳 方案 及 其 代价 存在 数组 bestplan 中 ， 然 
后 由 该 过 程 返回 。 该 过 程 的 时 间 复 杂 度 可 证 明 为 0(3") ( 见 实践 练习 13. 11) 。 

实际 上 ， 由 关系 集 的 连接 生成 的 元 组 的 顺序 对 于 找到 总 体 上 最 佳 的 连接 顺序 也 是 很 重要 的 ， 因 为 
它 可 以 影响 下 一 步 连接 的 代价 (如 使 用 归并 连接 时 ) 。 若 某 个 具体 的 元 组 排序 顺序 对 后 面 的 运算 可 能 有 
用 的 话 ， 我 们 称 该 特定 的 顺序 是 一 个 感 兴趣 的 排序 顺序 (interesting sort order) 。 例 如 ， 连 接 r, r,r, 所 
产生 的 结果 对 在 7, BR rs 的 公共 属性 上 进行 排序 可 能 是 有 用 的 ;而 若 结果 在 仅仅 是 n 5 r 的 公共 属性 
上 进行 排序 ， 就 没有 什么 用 处 。 在 计算 mnM radar, 时 ， 使 用 归并 连接 可 能 比 使 用 其 他 连接 技术 代价 大 ， 
但 其 输出 结果 可 能 是 感 兴趣 的 排序 顺序 。 

因此 ， 仅 为 有 个 给 定 关系 的 关系 集合 的 每 个 子 集 找 出 最 佳 连接 顺序 是 不 够 的 。 我 们 应 当 为 每 个 
子 集 ， 为 该 子 集 连接 结果 的 每 个 感 兴趣 的 排序 顺序 找 出 最 佳 连接 顺序 。n 个 关系 的 子 集 总 数 是 2"， 但 
感 兴趣 的 排序 顺序 数目 一 般 不 大 。 因 此 ， 约 有 2" 个 连接 表达 式 需要 存储 。 用 于 寻找 最 佳 连接 顺序 的 动 














O ”如果 一 个 索引 包括 用 于 查询 的 一 个 关系 上 的 所 有 属性 ， 则 可 以 进行 一 次 仅 限 索 引 的 扫描 ， 该 过 程 仅 从 索引 中 检 
索 所 需 的 属性 ， 而 不 必 取 出 实际 的 元 组 。 

加 ”请 注意 ,连接 Pl 和 PMNS RARER, MR P2 只 有 一 个 关系 r*， 而 且 r 的 连接 属性 上 有 索引 ， 则 将 
P2 作为 内 层 关系 。 基 于 上 上 的 选择 条 件 ， 计 划 P2 可 能 包含 -的 索引 访问 。 为 了 使 用 索引 徐 套 循环 连接 ，P 中 不 
采用 在 r+ 上 使 用 选择 条 件 进 行 索引 查找 ， 而 是 在 r 的 连接 属性 索引 返回 的 元 组 集 上 再 检查 选择 条 件 。 
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态 规划 算法 可 以 很 容易 加 以 扩展 ， 以 处 理 排序 顺序 。 扩 展 的 算法 的 代价 依赖 于 关系 集 的 每 一 个 子 集 的 
感 兴趣 的 排序 顺序 的 数目 ， 由 于 实际 上 这 个 数目 并 不 大 ， 因 此 该 算法 的 时 间 代 价 仍 为 0(3")。 当 n=10 
时 ， 该 数 约 为 59 000， 比 之 于 176 亿 个 不 同 的 连接 顺序 好 多 了 。 更 重要 的 是 ， 所 需 存储 比 原先 少 得 多 ， 
因为 对 于 7,，…，rio 的 1024 个 子 集 的 每 一 个 感 兴趣 的 排序 顺序 ， 我们 只 需要 保存 一 次 连接 顺序 。 虽 然 
这 两 个 数 仍 随 n 迅速 增长 ， 但 是 通常 参与 连接 的 关系 数 少 于 10， 因 而 可 以 很 容易 地 处 理 

13.4.2 ”采用 等 价 规 则 的 基于 代价 的 优化 器 

我 们 刚才 看 到 的 连接 顺序 优化 可 以 处 理 最 常见 的 查询 ， 并 执行 关系 集合 的 内 连接 。 然 而 ， 显 然 许 
多 查询 使 用 其 他 的 功能 ， 例 如 聚集 、 外 连接 、 髓 套 查询 ， 这 些 是 无 法 通过 连接 顺序 选择 解决 的 。 

许多 优化 器 采用 基于 启发 式 转换 的 方法 处 理 连接 以 外 的 结构 ， 并 且 采 用 基于 代价 的 连接 顺序 选择 
算法 处 理 仅 包含 连接 和 选择 的 子 表达 式 。 我 们 不 涉及 大 部 分 与 具体 优化 器 相关 的 启发 式 方法 的 细节 ， 
然而 ， 启 发 式 转换 广泛 地 应 用 于 处 理 柑 套 查 询 中 ，13. 4. 4 节 将 介绍 更 多 细节 。 

然而 ， 本 节 概 述 如 何 创建 一 个 采用 等 价 规则 的 基于 代价 的 通用 优化 器 ， 这 种 优化 器 可 以 处 理 各 种 
各 样 的 查询 结构 。 

采用 等 价 规则 的 好 处 是 它 易于 扩展 新 的 规则 到 优化 器 中 来 处 理 不 同 的 查询 结构 。 例 如 ， 骸 套 查询 
可 以 使 用 扩展 的 关系 代数 结构 来 表示 ， 而 且 可 以 使 用 等 价 规则 表示 内 套 查询 的 转换 。 还 可 以 为 聚集 和 
外 连接 操作 定义 等 价 规则 ， 就 像 实 践 习 题 13. 1 和 习题 13. 2 描述 的 那样 。 

在 13.2. 4 节 中 ， 我 们 看 到 了 一 个 优化 器 如 何 系统 地 产生 与 给 定 查询 等 价 的 所 有 表达 式 。 产 生 等 价 
表达 式 的 过 程 可 以 按 如 下 方式 修改 为 产生 所 有 可 能 的 执行 计划 : 添加 一 类 新 的 称 为 物理 等 价 规则 
(physical equivalence rule) 的 等 价 规则 ， 人 允许 将 例如 连接 这 样 的 逻辑 操作 转换 成 像 散 列 连 接 或 嵌 套 循环 
连接 这 样 的 物理 操作 。 通 过 将 这 类 规则 添加 到 原来 的 等 价 规则 中 ， 程 序 可 以 产生 所 有 可 能 的 执行 计划 。 
前 面 我 们 看 到 的 代价 估计 技术 可 以 用 来 选择 最 优 的 ( 即 代价 最 低 的 ) 计 划 。 

然而 ， 即 使 我 们 不 考虑 产生 执行 计划 ，13. 2. 4 节 介 绍 的 程序 代价 也 非常 高 。 为 了 使 该 方法 高 效 需 
要 以 下 技术 : 

1. 一 种 节省 空间 的 表达 式 表 示 形 式 ， 来 避免 应 用 等 价 规 则 时 创建 相同 子 表达 式 的 多 个 副本 。 

2. 检测 相同 表达 式 重复 推导 的 有 效 技术 。 

3. 一 种 基于 缓存 ( memoization ) 的 动态 规划 形式 ， 当 第 一 次 优化 子 表达 式 时 ， 该 缓存 存储 最 优 的 查 
询 执行 计划 ;， 后续 优化 相同 子 表达 式 的 请 求 通过 返回 已 经 缓存 的 计划 进行 处 理 。 

4. 通过 维护 到 任何 时 刻 为 止 为 任何 子 表达 式 产生 的 代价 最 低 的 计划 ， 并 且 对 其 他 任何 比 当 前 该 子 
表达 式 代价 最 低 计 划 的 代价 高 的 计划 进行 剪 枝 ， 避 免 产 生 所 有 可 能 的 执行 计划 的 技术 。 

具体 细节 要 更 复杂 。 这 个 方法 由 Volcano 研究 项 目 率先 提出 JE SQL Server 的 查询 优化 器 也 是 基 
于 该 技术 。 更 多 资料 请 参见 文献 注解 。 

13.4.3 启发 式 优化 

基于 代价 优化 的 一 个 缺点 是 优化 本 身 的 代价 。 虽 然 查 询 优 化 的 代价 可 以 通过 巧妙 的 算法 来 减少 ， 
但 一 个 查询 的 不 同 执行 计划 数 仍 可 能 很 大 ， 在 这 个 集合 里 找到 最 优 计 划 仍 需要 很 多 计算 代价 。 因 此 ， 
查询 优化 器 使 用 启发 式 方法 (heuristics ) 来 减少 优化 代价 。 

下 面 是 启发 式 规则 的 一 个 例子 。 此 规则 用 于 对 关系 代数 查询 进行 转换 : 

。 尽早 执行 选择 运算 。 

一 个 启发 式 优化 器 不 验证 采用 本 规则 转换 后 代价 是 否 减少 ， 而 是 直接 加 以 使 用 。 在 13. 2 节 的 第 一 
个 转换 例子 里 ， 选 择 运 算 被 推进 连接 之 中 。 

我 们 说 以 上 规则 是 启发 式 的 ， 因 为 这 条 规则 通常 会 ， 但 不 总 是 有 助 于 减少 代价 。 我 们 来 看 一 个 使 
用 以 上 规则 将 导致 代价 增加 的 例子 ， 考 虑 表达 式 o,(r Ms)， 其 中 8 只 引用 ;的 属性 。 选 择 的 确 可 以 先 
于 连接 计算 。 然 而 ,车 r 相对 于 s 非常 小 ， 并 且 在 s 的 连接 属性 上 有 索引 ， 但 在 9 所 引用 的 属性 上 无 索 
引 ， 先 做 选择 很 可 能 不 是 个 好 主意 。 先 做 选择 运算 意味 着 直接 对 * 进行 选择 ， 这 需要 对 s 全 体 元 组 进行 
一 次 扫描 。 就 本 例子 而 言 ， 先 用 索引 计算 连接 ， 然 后 去 除 不 满足 选择 条 件 的 元 组 ， 代 价 可 能 更 小 。 
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投影 运算 像 选择 运算 一 样 可 以 减少 关系 的 大 小 。 因 此 ， 每 当 我 们 要 产生 临时 关系 时 ， 只 要 有 可 能 
就 立即 执行 投影 是 有 好 处 的 。 该 好 处 提示 我 们 ， 伴随 前 面 的 “尽早 执行 选择 运算 ”而 来 的 还 有 一 条 
规则 : 

。 尽早 执行 投影 运算 。 

通常 选择 运算 优先 于 投影 运算 执行 比较 好 ， 因 为 选择 运算 可 能 会 大 大 减 小 关系 ; 并 且 选 择 运算 可 
以 利用 索引 存 取 元 组 。 我 们 可 以 用 类 似 于 启发 式 选择 规则 中 使 用 的 例子 来 说 明 该 启发 式 规 则 不 总 是 有 
助 于 减少 代价 。 

多 数 现实 的 查询 优化 器 有 更 多 的 启发 式 规则 来 减少 优化 的 代价 。 例如， 许多 查询 优化 器 ( 如 System 
R 优化 器 O ) 并 不 考虑 所 有 的 连接 顺序 ， 而 是 只 对 特殊 类 型 的 连接 次 序 进行 搜索 。System R 优化 器 仅 考 
虑 右 操 作对 象 是 原始 关系 r, ，r,，…,r, 之 一 的 那些 连接 顺序 。 这 种 连接 顺序 称 为 左 深 连接 顺序 (left- 
deep join order) 。 左 深 连接 顺序 用 于 流水 线 计算 特别 方便 ， 因 为 右 操作 对 象 是 一 个 已 存储 的 关系 ， 每 个 
连接 只 有 一 个 输入 来 自流 水 线 。 

图 13-8 说 明了 左 深 连接 树 与 非 左 深 连 接 树 的 区 别 。 考 虑 全 体 左 深 连接 顺序 所 需 时 间 代 价 是 
O(nl) ， 比 考虑 所 有 连接 顺序 少 得 多 。 使 用 动态 规划 的 优化 技术 ，System R 优化 器 可 以 用 近似 0(n2") 
的 时 间 找 到 最 佳 连接 顺序 。 读 者 可 以 把 这 一 代价 同 找 出 总 体 上 最 佳 的 连接 顺序 所 需 时 间 OO ( 3" ) 相 比较 ， 
System R 优化 器 使 用 启发 式 规则 在 查询 树 中 将 选择 与 投影 运算 往 下 推 。 
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a) 左 深 连 接 树 b) 非 左 深 连接 树 


图 13-8 左 深 连接 树 


某 些 版 本 的 Oracle 系统 最 初 采用 一 种 减少 连接 顺序 选择 代价 的 启发 式 优化 方法 ， 该 方法 大 体 上 是 
这 样 进行 的 : 对 于 一 个 n 路 连接 ， 它 考虑 nn 个 评估 计划 。 每 个 计划 使 用 一 个 左 深 连接 顺序 ， 各 个 计划 
从 一 个 不 同 的 关系 开始 进行 。 通 过 基于 可 用 的 存 取 路 径 的 排序 反复 选择 参加 下 一 个 连接 的 “最 佳 " 关 
系 ， 启 发 式 方法 分 别 为 n 个 执行 计划 构造 连接 顺序 。 基 于 可 用 的 存 取 路 径 ， 每 一 个 连接 或 选择 舱 套 循 
环 连接 算法 ， 或 选择 排序 归并 连接 算法 。 最 后 ， 基 于 使 在 内 层 关系 上 没有 索引 的 拣 套 循环 连接 的 个 数 
最 小 以 及 使 排序 归并 连接 的 个 数 最 小 的 原则 ， 用 启发 式 方法 从 个 执行 计划 中 选 一 个 。 

一 些 系统 采用 将 启发 式 计 划 选 择 与 生成 候选 存 取 计划 集成 在 一 起 的 查询 优化 方法 。System R 及 其 
后 续 的 Starburst 项 目 采 用 基于 SQL 髓 套 块 概念 的 一 个 层次 化 过 程 。 这 里 描述 的 基于 代价 的 优化 技术 独 
立地 应 用 到 每 个 查询 块 上 。 一 些 数据 库 产品 的 优化 器 ， 如 IBM DB2 和 Oracle， 就 是 基于 上 述 方法 并 进 
行 了 扩展 以 处 理 其 他 操作 (如 聚集 操作 ) 。 对 于 复合 SQL 查询 语句 (使 用 m、U、- 运算 ) ， 优 化 器 
对 每 个 成 分 分 别 进行 处 理 ， 然 后 所 有 执行 计划 结合 在 一 起 形成 总 的 执行 计划 。 

许多 优化 器 允许 为 查询 优化 指定 一 个 成 本 预算 。 当 超过 优化 成 本 预算 ( optimization cost budget) 时 停 
止 搜 索 最 优 计划 ,返回 当前 找到 的 最 优 计划 。 预 算 本 身 可 能 动态 设置 例如 ， 如 果 一 个 查询 找到 一 个 
低 开销 的 计划 ， 则 降低 预算 ,使 得 当前 找到 的 最 优 计划 开销 已 经 很 低 的 时 候 ， 不 会 再 花 更 多 时 间 去 优 
化 查询 。 另 一 方面 ， 如 果 当 前 找到 的 最 优 计划 比较 昂贵 ， 则 容易 理解 需要 更 多 时 间 去 优化 ， 这 会 带 来 
执行 时 间 的 明显 减少 。 为 了 更 好 地 利用 这 一 思想 ,优化 器 通常 先 采 用 低 价 的 启发 式 找到 一 个 计划 ， 然 





© System R 是 SQL 最 早 实现 之 一 ， 而 且 它 的 优化 器 开创 了 基于 代价 的 连接 顺序 优化 。 
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后 在 已 选 计划 的 预算 下 ,采用 完整 的 基于 代价 的 优化 。 

许多 应 用 都 会 反复 执行 同样 的 查询 ， 不 过 查询 中 的 常数 值 不 一 样 。 例 如 ， 一 个 大 学 的 应 用 可 能 反 
复 执 行 一 个 查询 来 查找 某 个 学 生 的 课程 注册 情况 ， 不 过 每 次 对 不 同 的 学 生 使 用 不 同 的 加 。 作 为 一 个 启 
发 式 优化 方法 ,许多 查询 优化 器 只 对 查询 进行 一 次 优化 并 缓存 该 查询 执行 计划 ， 无 论 该 查询 最 初 提交 
的 时 候 使 用 了 什么 常数 值 。 每 当 该 查询 再 一 次 执行 ， 尽 管 可 能 这 次 使 用 新 的 常数 值 ， 缓 存 的 查询 执行 
计划 还 是 会 被 重用 ( 当然 是 使 用 新 的 数值 ) 。 对 于 新 的 常数 值 该 查询 的 最 优 计 划 可 能 不 同 于 由 初始 值 确 
定 的 最 优 计划 ,但 是 作为 启发 式 优化 方法 ,该 缓存 的 计划 仍 被 重用 。 “缓存 和 重用 查询 计划 称 为 计划 
缓存 (plan caching) 。 

即使 使 用 启发 式 方法 ， 基 于 代价 的 查询 优化 仍 给 查询 处 理 带 来 不 少 开 销 。 然 而 ， 增 加 的 开销 通常 
小 于 查询 执行 时 间 的 节省 ， 查 询 执行 时 间 主 要 花 在 慢 速 的 磁盘 存 取 上 。 好 的 计划 与 差 的 计划 在 查询 执 
行 时 间 上 差别 可 能 很 大 ， 因 此 查询 优化 非常 重要 。 如 果 应 用 中 有 许多 经 常 运行 的 操作 ， 那 么 其 中 的 查 
询 可 以 只 优化 一 次 ， 选 中 的 查询 计划 在 以 后 每 一 次 运行 时 使 用 ， 在 这 样 的 应 用 中 查询 优化 所 能 带 来 的 
代价 节省 更 为 明显 。 因 此 ， 大 部 分 商品 化 系统 都 包含 了 相对 复杂 的 优化 器 。 文 献 注 解 给 出 了 对 实际 数 
据 库 系统 查询 优化 器 进行 讲解 的 参考 资料 。 

13.4.4 九 套 子 查询 的 优化 ” 

SQL 从 概念 上 将 位 于 where 子 句 中 的 峙 套子 查询 处 理 成 传人 参数 并 且 返 回 一 个 单独 值 或 一 个 值 的 
集合 (可 能 为 空 集 ) 的 函数 。 参 数 是 戏 套 子 查询 中 用 到 的 外 层 查询 的 变量 (这 些 变量 称 作 相 关 变 量 
(correlation variable) ) 。 例 如 ， 假 设 我 们 有 下 面 的 查询 ， 查 找 在 2007 年 教授 一 门 课程 的 所 有 教师 的 
AF: 

select name 
from instructor 
where exists ( select ` 


from teaches 
where instructor. ID = teaches. ID and teaches. year = 2007 ) ; 


在 概念 上 ， 该 子 查询 可 视 为 一 个 函数 ， 它 获得 一 个 参数 (这 里 是 instructor. 万 ) ， 并 返回 (具有 同一 

甩 的 ) 教 师 2007 年 教授 的 所 有 课程 的 集合 。 

SQL( 在 概念 上 ) 按 以 下 方式 执行 整个 查询 : 首先 计算 位 于 外 层 查询 的 from 子 句 中 的 关系 的 笛 卡 儿 
积 ， 然 后 对 结果 中 的 每 个 元 组 用 where 子 句 中 的 谓词 进行 测试 。 在 上 述 的 例子 中 ， 就 是 测试 子 查询 运 
算 结 果 是 否 为 空 。 

这 种 执行 具有 艇 套子 查询 的 查询 的 技术 称 为 相关 执行 (correlated evaluation) 。 相 关 执 行 效率 不 高 ， 
因为 子 查询 对 外 层 查 询 的 每 一 个 元 组 都 进行 单独 的 运算 ， 从 而 可 能 导致 大 量 的 随机 磁盘 IO 操作 。 

因此 ，SQL 优化 器 尽 可 能 地 试图 将 众 套 子 查询 转换 成 连接 的 形式 。 有 效 的 连接 算法 有 助 于 避免 昂 
贵 的 随机 IO。 在 没有 可 能 进行 转换 的 情况 下 ， 优 化 器 将 子 查询 当 作 一 个 单独 的 表达 式 ， 单 独 优化 它 
们 ， 然 后 再 进行 相关 执行 。 

作为 将 艇 套子 查询 转换 为 连接 的 例子 ， 上 述 例子 的 查询 可 以 重 写成 : 


select name 
from instructor, teaches 
where instructor. ID = teaches. ID and teaches. year = 2007 


(为 了 正确 地 反映 SQL 语义 ， 该 查询 引出 的 重复 元 组 数 不 能 因 重 写 而 改变 ， 稍 后 我 们 可 以 看 到 ， 
可 以 修改 这 个 重 写 的 查询 以 保持 这 个 性 质 , ) 

在 这 个 例子 中 ， 藤 套子 查询 非常 简单 。 而 一 般 情 况 下 ， 都 不 能 将 嵌 套 子 查 询 关 系 直接 移 人 外 层 查 
询 的 from 子 句 里。 取而代之 ,我 们 先 建 立 一 个 包含 嵌 套 查询 的 结果 ,但 没有 用 取 自 外 层 查 询 的 相关 变 
量 进行 选择 操作 的 临时 关系 ， 然 后 将 这 个 临时 表 与 外 层 查 询 进 行 连接 。 例 如 ， 下 面 形式 的 查询 : 





加 ”对 于 学 生 注册 查询 ， 任 何 学 生 ID 的 查询 计划 几乎 是 相同 的 。 但 是 如 果 一 个 查询 涉及 一 个 范围 内 的 学 生 ID ， 并 且 
返回 这 个 范围 内 所 有 学 生 DD 的 注册 情况 ， 则 与 范围 大 的 情况 相 比较 ， 范 围 小 的 情况 可 能 有 不 同 的 最 优 计划 
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Select … 
from L, 


where P, and exists ( select” 
from L, 
where P, ) 
其 中 P, 是 一 些 较 简单 谓词 的 合 取 ， 可 以 重 写 为 
create table ¢, as 
select distinct V 
from L, 
where P, 
select … 
form L, , t, 
where P, and P} 
这 里 的 P; 包含 P, 中 的 不 涉及 相关 变量 选择 的 谓词 ， 而 P; 又 重新 引入 涉及 相关 变量 选择 的 谓词 ( 谓词 
中 引用 的 关系 相应 地 重 命 名 ) 。 这 里 的 V 包 含 腐 套子 查询 的 相关 变量 选择 中 使 用 到 的 所 有 属性 。 
在 该 例子 里 ,初始 的 查询 可 以 转换 成 : 


create table 1, as 
select distinct /D 
from teaches 
where year = 2007 ; 
select name 
from instructor, t, 
where t,. ID = instructor. ID; 
如 果 我 们 不 在 乎 每 个 元 组 有 多 少 个 重复 的 话 ， 我 们 为 描述 临时 关系 的 建立 而 重 写 的 这 个 查询 可 以 
通过 简化 上 述 转换 产生 的 查询 得 到 。 
这 种 用 一 个 具有 连接 的 查询 (可 能 使 用 临时 关系 ) 去 蔡 代 嵌 套 查询 的 过 程 称 为 去 除 相关 
( decorrelation ) 。 
RET ERK, RS YRETAANARAFS AMA, RESET AW SBA 
的 关联 条 件 是 not exists 时 ， 去 除 相关 操作 会 更 复杂 。 我 们 并 不 试图 给 出 通用 的 算法 ， 而 是 在 文献 注解 
里 给 出 相关 的 条 目 。 
从 上 述 讨 论 可 知 ， 复 杂 艇 套子 查询 的 优化 是 一 个 困难 的 工作 ， 许 多 优化 器 仅 做 少量 的 去 除 相关 工 
作 。 只 要 有 可 能 ， 最 好 避免 使 用 复杂 艇 套子 查询 ， 因 为 我 们 不 能 确信 查询 优化 器 能 够 成 功 地 将 它们 转 
换 成 一 种 能 够 有 效 运 算 的 形式 。 


13.5 物化 视图 


当 定义 一 个 视图 的 时 候 ， 一 般 来 说 数据 库 只 存储 定义 该 视图 的 查询 语句 。 与 此 相反 ， 物 化 视图 
(materialized view) 是 一 个 其 内 容 已 计算 并 存储 的 视图 。 物 化 视图 带 来 了 元 余数 据 ， 因 为 其 内 容 可 以 通 
过 视图 的 定义 和 数据 库 中 其 他 数据 得 到 。 然 而 ， 在 许多 情况 下 ， 读 一 个 物化 视图 的 内 容 比 通过 执行 定 
义 该 视图 的 查询 得 到 该 视图 的 内 容 代 价 要 低 得 多 。 

在 一 些 应 用 中 ， 物 化 视图 在 提高 性 能 方面 起 到 很 大 的 作用 。 考 虑 下 面 这 个 视图 ， 它 得 到 每 个 系 的 
薪水 总 额 : 


create view department_total_salary( dept_name, total_salary) as 
select dept_name, sum( salary) 

from instructor 

group by dept_name; 


假设 要 频繁 地 查询 某 个 系 薪水 总 额 。 计 算 这 个 视图 需要 读 取 每 一 个 属于 该 系 的 instructor 元 组 ， 然 
后 累加 薪水 ， 这 是 一 个 耗 时 的 工作 。 相 比较 而 言 ， 如 果 薪 水 总 额 的 视图 定义 物化 了 ， 则 只 要 在 物化 视 
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图 中 查找 一 个 元 组 就 可 以 得 到 某 个 系 的 薪水 总 额 = 。 
13. 5.1 视图 维护 

物化 视图 带 来 一 个 问题 ， 就 是 它们 必须 能 够 在 视图 定义 所 使 用 的 数据 变化 时 保持 更 新 。 例 如 ， 一 
个 教师 的 salary 值 更 新 了 ， 物 化 视图 中 数据 将 与 原始 数据 不 一 致 ， 它 必须 进行 更 新 。 这 种 保持 物化 视 
图 与 原始 数据 同步 更 新 的 任务 称 作 视图 维护 ( view maintenance) 。 

视图 可 以 通过 人 工 书 写 的 代码 进行 维护 : 即 更 新 一 个 salary 值 的 代码 也 同时 对 相应 系 的 薪水 总 额 
进行 更 新 。 然 而 ， 这 种 方法 比较 容易 出 错 ， 因 为 很 容易 遗漏 某 些 更 新 salary 的 地 方 ， 导 致 物化 视图 和 
原始 数据 不 匹配 。 

另 一 个 维护 物化 视图 的 选择 是 对 视图 定义 中 每 个 关系 的 插入 、 删 除 和 更 新 操作 定义 触发 器 。 触 发 
器 必须 根据 导致 触发 器 触发 的 变化 对 物化 视图 的 内 容 进行 修改 。 实 现 这 个 目的 的 一 个 简单 方法 就 是 每 
次 更 新 时 ， 对 该 物化 视图 全 部 重新 进行 计算 。 

一 个 更 好 的 方法 是 只 对 物化 视图 的 受 影响 部 分 进行 修改 ， 称 为 增 量 的 视图 维护 ( incremental view 
maintenance) 。13. 5. 2 节 将 描述 如 何 进行 增 量 的 视图 维护 。 

现代 数据 库 系统 对 增 量 的 视图 维护 提供 了 更 直接 的 支持 。 数 据 库 系统 编 序 员 不 再 需要 为 视图 维护 
定义 触发 器 。 取 而 代 之 的 是 ， 一 旦 一 个 视图 声明 为 物化 视图 ， 数 据 库 系统 计算 该 视图 的 内 容 并 在 原始 
数据 变化 时 对 其 进行 增 量 更 新 。 

大 多 数 数据 库 系 统 执行 立即 的 视图 维护 (immediate view maintenance) ， 即 当 更 新 发 生 时 ， 增 量 的 视 
图 维护 作为 更 新 事务 的 一 部 分 立即 执行 。 一 些 数据 库 系统 还 提供 延迟 的 视图 维护 deferred view 
maintenance) ， 即 视图 维护 延迟 到 更 晚 一 些 执 行 。 例 如 ， 可 能 在 白天 收集 更 新 ， 在 晚上 进行 物化 视图 更 
新 。 这 个 方法 减少 了 更 新 事务 的 开销 。 但 是 ,使 用 延迟 视图 维护 的 物化 视图 可 能 与 定义 它们 所 使 用 的 

基本 关系 不 一 致 。 

13.5.2 增 量 的 视图 维护 

为 了 理解 如 何 增 量 地 维护 物化 视图 ， 我们 从 考虑 单独 的 操作 开始 ， 然 后 看 一 下 如 何 处 理 一 个 完整 
的 表达 式 。 

导致 一 个 物化 视图 过 时 的 关系 的 改变 操作 包括 插入 、 删 除 和 更 新 。 为 了 描述 方便 ， 我 们 将 更 新 一 
个 元 组 的 操作 替换 为 删除 该 元 组 ， 紧 跟着 插入 一 个 更 新 后 的 元 组 的 操作 ， 这 样 我 们 就 只 需要 考虑 插入 
和 删除 。 对 一 个 关系 或 表达 式 的 改变 (插入 和 删除 ) 称 作 它 的 差异 ( diffrerential ) 。 

13. 5.2.1 连接 操作 

考虑 物化 视图 vw = > 多 s。 假 设 对 关系 > 作 插 和 人 一 个 元 组 集 ( 记 为 立 ) 的 改变 。 如 果 r 的 原 值 记 为 王 ， 
r RERA r", WA r| =r Ui, WE, POURRA v” 由 r” s 给 出 ， 新 值 w“ 由 “WY; 给 出 。 
我 们 可 以 将 rxs 重 写 为 (+r”Ui,)M ss， 再 重 写 为 (1*M s) U (i,MXs)。 也 就 是 : 

v™ = v UCIM s) 

因此 ， 为 了 更 新 物化 视图 v， 我 们 仅 需 要 将 元 组 iX s 加 入 到 物化 视图 的 原 内 容 中 。 对 * 的 插入 完 
全 按 对 7 的 插入 对 称 的 方式 进行 。 

现在 ,假设 对 7 的 改变 是 删除 一 个 元 组 集 ( 记 为 d,)。 由 上 面 所 述 同样 的 理由 ， 我 们 得 到 : 

v™ = yp“ - (dMs) 

Xt s 的 删除 操作 与 对 7 完全 对 称 的 方式 进行 。 

13. 5.2.2 选择 和 投影 操作 

考虑 一 个 视图 vw =o,(r)。 如 果 我 们 对 关系 7 做 改变 ,插入 一 个 元 组 集 ( 记 为 i )， 则 vw 的 新 值 可 以 
如 下 计算 : 





加 ”对 于 一 个 中 型 大 学 这 种 差距 并 不 总 是 很 大 ， 但 是 在 某 些 其 他 情况 下 差别 可 能 非常 大 。 例 如 ， 如 果 物 化 视图 从 一 
个 包含 数 百 万 元 组 的 销售 关系 中 计算 每 种 产品 的 销售 总 额 ， 则 从 基础 数据 计算 聚集 值 和 查询 物化 视图 之 间 的 差 
别 可 能 是 几 个 数量 级 的 。 
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ve =p Ua,(i,) 
类 似 地 ， 如 果 我 们 对 关系 + 做 改变 ， 删 除 一 个 元 组 集 ( 记 为 d,)， 则 w 的 新 值 如 下 计算 : 
poa soe -0,(d,) 
投影 是 一 个 处 理 起 来 更 困难 的 操作 。 考 虑 一 个 物化 视图 v = IL (7r)。 假 设 关 系 r 建立 在 模式 
R=(4,，B) 的 基础 上 ， 它 包含 两 个 元 组 (a, 2) 和 (a，3)， 则 IL(7) 仅 包含 一 个 元 组 (a) 。 如 果 我 们 从 > 
中 删除 元 组 (a, 2) ,我 们 不 能 从 TL, (r) 中 删除 元 组 (a): 如 果 我 们 这 样 做 ， 则 结果 将 是 一 个 空 关系 ， 
而 事实 上 ，IL.(7) 仍 有 一 个 单独 的 元 组 (a)。 这 是 因为 同一 个 元 组 (a) 可 由 两 条 途径 得 到 ， 从 中 删除 一 
个 元 组 只 是 去 除了 得 到 元 组 (a) 的 一 条 途径 ， 另 一 条 仍然 存在 。 
这 个 理由 也 给 出 了 一 种 直观 的 解决 办 法 : 对 投影 (例如 I(r) ) 中 的 每 个 元 组 ， 我 们 将 保留 一 个 计 
数 ， 记 录 该 元 组 由 几 条 途径 得 到 。 
当 从 关系 7 中 删除 一 个 元 组 集 d, 时 ， 对 d, 中 的 每 个 元 组 上， 我 们 做 以 下 操作 : 4 i. 4 表示 1 在 属性 
A 上 的 投影 。 我 们 在 物化 视图 中 找到 (1. 4) ， 然 后 对 其 中 存储 的 计数 减 1; 如 果 计 数 变 为 0， 则 从 物化 
视图 中 删除 (1. 4A)。 
处 理 插入 操作 相对 较 直 接 。 当 把 元 组 集 i, 插入 到 关系 +r 中 时 ， 对 i 中 的 每 个 元 组 :， 我 们 做 以 下 操 
fe: 如 果 ( 4) 已 经 在 物化 视图 中 存在 ， 我 们 对 其 中 存储 的 计数 加 1; 如 果 没 有 ， 我 们 将 (1.4) 加 入 到 
物化 视图 中 去 ， 同 时 令 其 计数 值 为 1。 
13.5.2.3 聚集 操作 
聚集 操作 的 处 理 过 程 在 某 种 程度 上 与 投影 操作 类 似 。 在 SQL 中 的 聚集 操作 有 count, avg, min 
和 max, 
© count: 考虑 一 个 物化 视图 ”= Goum (7) ， 它 按 属性 4 对 7 进行 分 组 然后 对 属性 B 计数 。 
当 把 元 组 集 i, 插入 到 关系 7 PN, Mi, 中 的 每 个 元 组 ;+， 我们 做 以 下 操作 : 我 们 在 物化 视 
图 中 查找 组 上 4， 如 果 查 找 不 到 ， 则 将 ( t. 4, 1 ) 加 入 到 物化 视图 中 ; 如 果 存 在 组 i. 4， 我 们 对 
该 组 的 计数 加 1。 
当 从 关系 + 中 删除 一 个 元 组 集 d, 时 ， 对 d, 中 的 每 个 元 组 :， 我 们 做 以 下 操作 : 我 们 在 物化 
视图 中 找到 组 上 4， 然 后 对 该 组 的 计数 值 减 1; 如 果 计 数 变 为 0， 则 从 物化 视图 中 删除 组 上 4。 
® sum; 考虑 一 个 物化 视图 v= a (Fia 
当 把 元 组 集 i, 插入 到 关系 7 PIN, Xt i 中 的 每 个 元 组 上， 我 们 做 以 下 操作 : 我 们 在 物化 视 
图 中 查找 组 i. 4， 如 果 查 找 不 到 ， 则 将 ( 4.4, t. B ) 加 入 到 物化 视图 中 ， 另 外 ， 与 我 们 在 投影 中 
所 做 的 处 理 类 似 ， 我们 存储 一 个 计数 值 1 与 ( ti. 4, tB ) 相 关联 ; 如 果 存 在 组 t. 4， RIK t B 
的 值 加 到 该 组 的 聚集 值 上 ， 并 对 该 组 的 计数 加 1。 
“SWRA r 中 删除 一 个 元 组 集 d, it, Xd, 中 的 每 个 元 组 ;+， 我 们 做 以 下 操作 : 我们 在 物化 
视图 中 找到 组 上 4， 然后 将 该 组 的 聚集 值 减 去 上 B 的 值 ， 同 时 也 要 对 该 组 的 计数 减 1， 如 果 计 数 
变 为 0， 则 从 物化 视图 中 删除 组 t. A 
如 果 不 保留 附加 的 计数 值 ， 我 们 就 无 法 区 分 一 个 组 的 求 和 数 为 0 还 是 该 组 的 所 有 元 组 都 已 
经 删除 了 。 
© avg: 考虑 一 个 物化 视图 ”= J (r) 。 
当 插入 和 删除 时 直接 更 新 一 个 视图 的 平均 值 是 不 可 能 的 ， 因 为 这 不 仅 依 赖 于 原 值 和 插 和 人/ 
删除 的 元 组 ， 而 且 还 依赖 于 该 组 的 元 组 数 。 
对 于 avg 这 种 情况 的 处 理 ， 可 以 采用 另外 的 方法 : 我 们 用 以 前 所 述 的 方法 维护 sum 和 
count 聚集 值 ， 然 后 用 总 和 除 以 计数 来 得 到 平均 值 。 
。 min, max; 考虑 一 个 物化 视图 v = Gnn (7)。(max 的 情形 完全 类 似 。) 
对 关系 r+ 上 的 插入 操作 的 处 理 是 直截了当 的 ， 但 对 关系 + 上 的 删除 操作 ， 维 护 聚 集 值 min 
和 max 要 更 复杂 一 些 。 例 如 ， 如 果 从 关系 7 中 删除 了 某 个 组 的 对 应 最 小 值 的 那个 元 组 ， 我 们 就 
必须 查看 关系 > 中 同 组 的 其 他 元 组 ， 从 而 找到 新 的 最 小 值 。 
13.5.2.4 其 他 操作 
对 集合 操作 交 的 维护 如 下 : 对 于 给 定 的 物化 视图 > = rns， 当 插入 一 个 元 组 到 关系 > 中 时 ， 我 们 检 
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查 它 是 否 在 关系 中 ， 如 果 在 ， 则 将 它 加 入 到 * 中。 从 关系 7 中 删除 一 个 元 组 时 ， 如 果 它 在 交集 合 中 存 
在 ， 我 们 就 将 其 从 交集 中 删除 。 其 他 集合 操作 ， 并 和 集合 差 ， 可 采用 相似 的 方法 进行 处 理 ， 其 处 理 的 
细节 留 给 读者 。 
外 连接 的 处 理 与 连接 的 处 理 几乎 完全 一 致 ， 除 了 要 做 几 个 额外 的 工作 外 。 对 于 在 关系 上 上 的 删除 ， 
我 们 必须 处 理 s 中 不 再 同 > 中 任何 元 组 相 匹配 的 元 组 ; 对 于 在 关系 > 上 的 插入 ， 我 们 必须 处 理 * 中 原先 
不 与 r 中 任何 元 组 相 匹 配 的 元 组 ， 其 处 理 的 细节 再 次 留 给 读者 。 
13.5.2.5 表达 式 的 处 理 
到 目前 为 止 ， 我 们 已 经 明白 了 如 何 对 一 个 单独 的 操作 的 结果 进行 增 量 更 新 。 对 于 一 个 完整 表达 式 
的 处 理 ， 我 们 可 以 从 最 小 的 子 表达 式 开始 ， 推 导出 用 于 计算 每 一 个 子 表达 式 结果 的 增 量 变化 的 表达 式 
例如 ， 当 一 个 元 组 集 i, 插入 到 关系 + 中 时 ， 我们 想 要 增 量 更 新 物化 视图 EME, BERR r 只 在 
E, 中 使 用 ， 并 假设 要 插入 到 E, 中 的 元 组 集 由 表达 式 D, 给 出 ， 则 表达 式 DMA E, 给 出 了 要 插入 到 EX 
E, 中 的 元 组 集 。 
对 于 表达 式 有 关 的 增 量 视图 维护 的 更 进一步 讨论 可 参见 文献 注解 。 
13.5.3 查询 优化 和 物化 视图 
可 以 将 物化 视图 看 作 普 通 的 关系 那样 执行 查询 优化 。 然 而 ， 物 化 视图 为 优化 提供 了 更 有 利 的 机 会 。 
。 重 写 查 询 以 利用 物化 视图 : 
假设 有 物化 视图 ”= r Xs 可用， 而 且 用 户 提 交 了 一 个 查询 r Ms Mt。 与 直接 优化 用 户 所 提 
交 的 查询 相 比 ， 将 该 查询 重 写 为 v Xi 可 以 提供 比 直接 优化 更 有 效 的 查询 计划 。 因 此 ， 查 询 优 
化 器 的 工作 应 该 包括 知道 何 时 可 利用 物化 视图 来 提高 查询 处 理 速度 。 
© 将 使 用 物化 视图 的 地 方 替换 成 它 的 定义 : 
假设 有 物化 视图 ”= r Ms 可用, 但 其 上 没有 任何 索引 ， 而 用 户 提交 了 一 个 查询 o4_10(v)。 
假设 关系 :在 公共 属性 B LARS), 关系 7 在 属性 4 上 有 索引 。 该 查询 最 好 的 执行 计划 可 能 是 
将 "替换 成 > 内， 运行 执行 计划 ow(7r)MX s， 这样 通 过 分 别 使 用 7. 4 和 s. B 上 的 索引 可 以 使 选 
择 和 连接 操作 得 到 高 效 的 执行 。 比 较 而 言 ， 直 接 在 vw 上 执行 选择 操作 可 能 需要 对 vw 执行 一 次 完 
全 扫描 ， 执 行 代价 可 能 会 更 高 。 
文献 注解 给 出 了 有 关 如 何 利用 物化 视图 进行 有 效 的 查询 优化 的 研究 著作 。 
13.5.4 ”物化 视图 和 索引 选择 
另外 一 个 相关 的 优化 问题 是 物化 视图 选择 (materialized view selection) ， 顾 名 思 义 ， 就 是 “物化 哪些 
视图 集 是 最 佳 方案 ?” 这 个 视图 集 的 选择 必须 基于 系统 的 工作 负载 ( workload) ， 即 反映 系统 通常 负载 的 
一 系列 查询 和 更 新 操作 。 一 个 简单 的 标准 是 ， 选 择 的 物化 视图 集 应 能 够 使 系统 完成 查询 和 更 新 的 工作 
负载 所 耗费 的 总 执行 时 间 ( 包括 维护 物化 视图 所 用 的 时 间 ) 最 短 。 考 虑 到 不 同 查询 和 更 新 的 重要 性 不 
Fl, 数据库 管理 员 通 常会 修改 这 个 标准 : 有 些 查 询 和 更 新 需要 有 快速 反应 速度 ， 而 其 余 的 可 接受 慢 的 
反应 速度 。 
索引 在 一 定 意义 上 与 物化 视图 类 似 ， 它 们 也 是 衍生 的 数据 ， 它 们 能 够 提高 查询 速度 ， 也 可 能 减 慢 
更 新 速度 。 因 此 ， 索 引 选 择 (index selection) 的 问题 虽然 更 简单 一 些 ， 但 它 与 物化 视图 选择 的 问题 的 关 
系 也 很 密切 。24. 1. 6 ~ 24. 1.7 节 会 对 这 些 问 题 做 详细 讨论 。 
许多 数据 库 系 统 提供 了 一 些 帮 助 数 据 库 管理 人 员 进 行 索 引 和 物化 视图 选择 的 工具 。 这 些 工具 检查 
查询 和 更 新 的 历史 纪录 ， 并 建议 可 进行 物化 的 索引 和 视图 。Microsoft SQL Server Database Tuning 
Assistant, IBM DB2 Design Advisor 和 Oracle SQL Tuning Wizard 等 都 是 这 种 类 型 的 工具 。 


13.6 查询 优化 中 的 高 级 话题 


除了 我 们 已 经 介绍 过 的 方法 ， 还 有 许多 优化 查询 的 方法 。 本 节 介 绍 其 中 的 一 些 。 
13. 6.1 top-K 优化 
许多 查询 都 要 求 返回 在 某 些 属性 上 排 了 序 的 结果 ， 并 且 对 于 某 特定 K 值 ， 只 取 结 果 中 的 前 天 个 。 
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有 时 范围 天 是 显 式 指 定 的 。 例 如 ， 一 些 数据 库 支 持 limit K 子 句 ， 它 导致 从 查询 结果 中 只 返回 前 上 个 结 
果 。 其 他 数据 库 支 持 另 一 些 方式 的 类 似 限 制 。 在 其 他 情况 下 ， 查 询 不 指定 一 个 限制 ， 但 优化 器 会 允许 
指定 一 个 提示 ， 表 明 尽 管 查 询 可 能 会 产生 更 多 结果 ， 但 是 只 有 前 天 个 结果 可 能 会 被 检索 。 

当天 值 很 小 时 ， 如 果 一 个 查询 优化 计划 先 产 生 整 个 结果 集 ， 然 后 排序 并 产生 前 天 个 结果 ， 这 样 做 
效率 会 非常 低 ， 因 为 绝 大 部 分 计算 出 来 的 中 间 结 果 都 要 舍弃 。 人 们 提出 了 一 些 技术 来 优化 这 类 top -K 
查询 。 一 种 方法 是 使 用 能 够 产生 有 序 的 结果 的 流水 线 查 询 计 划 。 另 一 种 方法 是 估计 将 会 出 现在 前 天 个 
输出 中 的 排序 属性 上 最 大 的 值 是 什么 ， 然 后 引入 选择 谓词 删除 较 大 的 值 。 如 果 在 前 天 个 值 以 外 产生 了 
多 余 的 元 组 则 舍弃 掉 ， 如 果 产 生 的 元 组 过 少 则 改变 选择 条 件 并 重新 执行 选择 操作 。top -天 优化 的 相关 
研究 请 参见 文献 注解 。 
13. 6.2 连接 极 小 化 

当 查 询 通 过 视图 产生 时 ， 有 时 实际 进行 连接 的 关系 数 比 计算 该 查询 所 必须 进行 连接 的 关系 数 要 大 。 
例如 ， 一 个 视图 vw 可 能 包含 instructor 和 department 的 连接 ,但 是 v 的 一 个 使 用 可 能 只 涉及 instructor 的 属 
ME, instructor 的 连接 属性 dept_name 是 指向 department 的 外 键 。 假 设 instructor. dept_name 声明 为 非 空 ， 
则 与 department 的 连接 可 以 去 掉 ， 对 于 查询 没有 任何 影响 。 因 为 在 上 述 假设 下 ， 与 department 的 连接 既 
没有 删除 instructor 中 的 任何 元 组 ， 也 没有 产生 instructor 元 组 的 额外 拷贝 。 

上 述 从 连接 中 去 掉 一 个 关系 就 是 连接 极 小 化 的 一 个 例子 。 事 实 上 ， 连 接 极 小 化 也 可 以 用 到 其 他 情 
况 。 连 接 极 小 化 的 相关 研究 请 参见 文献 注解 。 
13. 6. 3 更 新 的 优化 

更 新 查询 通常 在 set 和 where 子 句 中 涉及 子 查询 ， 这 些 也 都 要 在 更 新 优化 时 考虑 在 内 。 涉 及 在 一 个 
更 新 列 上 的 选择 操作 的 更 新 (例如 给 所 有 工资 大 于 等 于 $100 000 的 职员 加 薪 10% ) 必须 小 心 处 理 。 如 
果 更 新 是 在 选择 操作 扫描 索引 的 执行 过 程 中 完成 ， 一 个 更 新 的 元 组 可 能 会 在 扫描 之 前 和 扫描 之 后 重复 
插入 索引 两 次 ; 同一 个 职员 的 元 组 可 能 不 正确 地 更 新 多 次 (在 这 种 情况 下 可 能 是 无 限 次 ) 。 涉 及 结果 更 
新 的 子 查询 也 同样 会 有 相似 的 问题 。 

更 新 操作 本 身 可 能 影响 自己 执行 的 问题 称 为 万 圣 节 问 题 ( Halloween problem, 在 IBM 发 现 这 个 问题 
时 以 当天 的 节日 命名 ) 。 这 个 问题 可 以 通过 执行 这 样 的 查询 实现 : 首先 定义 更 新 ， 创 建 受到 影响 的 元 组 
列表 ， 并 在 最 后 更 新 元 组 和 索引 。 然 而 ， 把 执行 计划 以 这 种 方式 分 割 会 增加 执行 代价 。 更 新 计划 可 以 
通过 先 检查 万 圣 节 问 题 会 否 发 生来 进行 优化 ， 如 果 没 有 出 现 ， 则 更 新 可 以 在 查询 执行 的 时 候 完成 ， 从 
而 减少 更 新 开销 。 例 如 ， 如 果 更 新 不 影响 索引 属性 ， 则 万 圣 节 问题 不 会 发 生 。 即 使 影响 索引 属性 ， 如 
果 更 新 减 小 该 值 ， 而 索引 扫描 以 升序 执行 ， 更 新 过 的 元 组 在 扫描 时 不 会 再 次 遇 到 。 在 这 种 情况 下 ， 查 
询 执行 的 同时 可 以 更 新 索引 ， 从 而 降低 总 体 成 本 。 

导致 大 量 更 新 的 更 新 查询 可 能 通过 将 更 新 批量 收集 ， 然 后 分 别 将 批量 的 更 新 在 其 影响 的 索引 上 执 
行 来 优化 。 当 将 批量 更 新 应 用 到 一 个 索引 上 时 ， 批 数据 先 按 索引 序 排序 ， 这 样 的 排序 可 以 大 大 减少 更 
新 索引 需要 的 随机 IO 次 数 。 

这 种 优化 方式 在 许多 数据 库 系 统 中 都 有 实现 。 更 新 优化 的 相关 研究 请 参见 文献 注解 。 
13.6.4 多 查询 优化 和 共享 式 扫描 

当 一 批 查询 一 起 提交 时 ， 一 个 查询 优化 器 可 能 发 现 不 同 查询 之 间 共 同 的 子 表达 式 ， 仅 执行 它们 一 
次 并 且 在 需要 的 时 候 重用 。 复 杂 的 查询 可 能 在 查询 的 不 同 部 分 有 重复 的 子 表达 式 ， 可 以 采用 同样 的 方 
法 降低 查询 执行 代价 。 这 种 优化 称 为 多 查询 优化 (multi-query optimization ) 。 

公共 子 表达 式 消 除 (common subexpression elimination ) 通过 计算 并 存储 结果 ， 优 化 程序 中 不 同 表 达 
式 之 间 共 享 的 子 表达 式 ， 在 子 表 达 式 出 现 的 地 方 重用 结果 。 公 共 子 表达 式 消 除 是 编程 语言 编译 器 中 优 
化 算术 表达 式 的 一 个 标准 优化 方法 。 发 现 一 批 查 询 中 为 每 个 查询 选择 的 执行 计划 中 的 公共 子 表 达 式 在 
数据 库 查 询 优 化 中 是 非常 有 用 的 ， 并 且 在 一 些 数 据 库 中 都 有 实现 。 然 而 ， 多 查询 优化 在 某 些 情况 下 可 
以 做 得 更 好 : 一 个 查询 通常 有 一 个 以 上 的 执行 计划 ， 相 比较 于 为 每 个 查询 选择 代价 最 小 的 执行 计划 ， 
明智 地 选择 一 个 执行 计划 集合 可 能 会 带 来 更 多 的 共享 和 更 少 的 代价 。 更 多 查询 优化 的 相关 研究 请 参见 


613 





350 ”第 三 部 分 ”数据 存储 和 查询 


文献 注解 。 

共享 查询 之 间 的 关系 扫描 是 一 些 数据 库 中 实现 的 另 一 种 有 限 形式 的 多 查询 优化 。 共 享 式 扫描 
( shared-scan) 优化 的 工作 方式 如 下 : 不 是 对 于 需要 扫描 一 个 关系 的 每 一 个 查询 ， 都 从 磁盘 上 重复 地 读 
取 该 关系 ， 而 是 从 磁盘 上 读 取 一 次 数据 ， 然 后 流水 线 地 传递 给 每 一 个 查询 。 共 享 式 扫描 在 多 个 查询 都 


扫描 一 个 大 表 (“ 事 实 表 ”作为 一 个 典型 ) 时 非常 有 用 。 


615 


13.6.5 参数 化 查询 优化 

正如 我 们 此 前 在 13.4.3 节 中 看 到 的 ， 计划 缓 存 是 许多 数据 库 中 采用 的 启发 式 方法 。 回 想 一 下 ， 在 
计划 缓存 的 情况 下 ， 如 果 一 个 查询 涉及 一 些 常 数 ， 则 优化 器 选择 的 计划 被 缓存 ， 并 且 当 查询 再 次 被 提 
交 时 重用 ， 即 使 查询 中 的 常数 不 同 。 例 如 ， 假 设 一 个 查询 将 系 的 名 称 作 为 参数 ， 并 检索 该 系 中 的 所 有 
课程 。 采 用 计划 缓存 方法 ， 当 查询 第 一 次 执行 时 (例如 对 音乐 系 进行 查询 ) 选 中 一 个 计划 ， 如 果 再 对 其 
他 任何 系 进 行 查询 ， 该 计划 被 重用 。 

如 果 最 优 计 划 受 查询 中 的 常数 值 影响 不 大 ， 则 通过 计划 缓存 重用 计划 是 合理 的 。 然 而 ， 如 果 计 划 
受 常数 的 影响 ， 则 可 以 使 用 参数 化 查询 优化 作为 替代 。 

在 参数 化 查询 优化 ( parametric query optimization) 中 ， 不 提供 具体 参数 值 ， 例 如 前 面 例子 中 的 dept_ 
name， 而 对 查询 进行 优化 。 然 后 ， 优 化 器 提供 几 个 计划 ， 分 别 对 于 不 同 参数 值 是 最 优 的 。 一 个 计划 只 
有 在 对 一 些 可 能 的 参数 值 是 最 优 的 情况 下 才 会 被 优化 器 输出 。 优 化 器 输出 的 备 选 计划 集合 被 存储 。 当 
提交 一 个 带 具体 参数 值 的 查询 时 ， 使 用 此 前 计算 的 计划 集合 中 的 最 低 价 的 计划 ， 而 不 用 执行 一 个 完整 
的 优化 。 找 到 这 个 最 低 价 的 计划 所 需 的 时 间 要 远 远 短 于 重新 优化 的 时 间 。 参 数 化 查询 优化 的 相关 研究 
参见 文献 注解 。 


13.7 BE 


。 给 定 一 个 查询 ， 一 般 有 多 种 方法 可 以 计算 结果 。 系 统 负责 将 用 户 输入 的 查询 转换 成 能 够 更 有 效 执行 
的 等 价 查询 。 为 处 理 查询 找 出 一 个 好 的 策略 的 过 程 称 为 查询 优化 。 

。 复杂 查询 的 执行 涉及 多 次 存 取 磁盘 的 操作 。 由 于 从 磁盘 中 传输 数据 相对 于 主 存 速 度 和 计算 机 系统 的 

CPU 速度 要 慢 ， 因 此 进行 一 定量 的 处 理 以 选择 一 个 能 够 最 小 化 磁盘 存 取 的 方法 是 完全 值得 的 。 

有 很 多 等 价 规则 供 我 们 用 于 将 一 个 表达 式 转化 成 等 价 表达 式 。 我 们 使 用 这 些 规 则 系统 地 产生 与 所 给 

查询 等 价 的 所 有 表达 式 。 

每 个 关系 代数 表达 式 都 表示 某 个 特定 的 操作 序列 。 选 择 查询 处 理 策略 的 第 一 步 就 是 找到 一 个 关系 代 

数 表达 式 ， 使 它 与 所 给 的 表达 式 等 价 并 且 据 估计 有 更 小 的 执行 代价 。 

。 数据 库 系 统 为 执行 一 个 操作 所 选择 的 策略 依赖 于 每 个 关系 的 大 小 和 列 值 的 分 布 情况 。 数据 库 系 统 可 

以 为 每 个 关系 上 存储 统计 信息 ， 从 而 能 够 基于 这 些 可 靠 信息 选择 合适 的 策略 。 这 些 统计 信息 包括 

O 关系 7 中 的 元 组 数 。 

O XR r 中 的 一 个 记录 (元 组 ) 的 大 小 ( 按 字 节 计数 )。 

O 关系 7 中 的 某 个 特定 属性 中 出 现 的 不 同 取 值 的 数目 。 

许多 数据 库 系 统 使 用 直方 图 来 存储 一 个 属性 在 每 个 区 间 上 的 取 值 个 数 。 直 方 图 通常 采用 取样 来 计算 。 

这 些 统计 信息 使 得 我 们 可 以 估计 各 种 操作 的 结果 集 的 大 小 和 执行 操作 的 代价 。 当 处 理 一 个 查询 的 过 

程 中 有 多 个 索引 可 用 于 辅助 的 时 候 ， 关 系 的 统计 信息 特别 有 用 ， 这 些 信息 对 查询 处 理 策略 的 选择 有 

很 大 的 影响 。 

对 每 个 表达 式 ， 我 们 可 以 用 一 些 等 价 规则 产生 多 个 可 选 的 执行 计划 ,然后 从 中 选择 代价 最 小 的 执行 

计划 。 不 少 优化 技术 可 以 减少 需要 产生 的 可 选 表达 式 和 执行 计划 的 数量 。 

我 们 使 用 启发 式 方法 来 减少 需要 考虑 的 执行 计划 的 数量 ， 从 而 减少 优化 的 代价 。 用 于 关系 代数 查询 

转换 的 启发 式 规则 包括 "尽早 执行 选择 操作 ”、“ 尽 早 执行 投影 操作 ”和 “避免 笛 卡 儿 积 操作 ”。 

物化 视图 可 以 用 来 加 速 查询 处 理 。 当 原 关系 发 生 修改 时 ， 需 要 用 增 量 的 视图 维护 来 高 效 地 更 新 物化 

视图 。 利 用 包含 一 个 操作 的 输入 的 变化 量 的 代数 表达 式 ， 能 够 完成 对 该 操作 的 变化 量 的 计算 。 其 他 

与 物化 视图 相关 的 问题 还 包括 如 何 借助 物化 视图 进行 查询 优化 和 如 何 选择 需要 待 物化 的 视图 。 

© 提出 了 一 些 先进 的 优化 技术 ， 包 括 top-K 优化 、 连 接 极 小 化 、 更 新 优化 、 多 查询 优化 和 参数 化 查询 优化 。 
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术语 回顾 
。 查询 优化 。 不 同 取 值 数 的 估计 。 物化 视图 
。 表达 式 转换 © 随机 抽样 的 样本 。 物化 视图 的 维护 
。 表达 式 的 等 价 。 执行 计划 的 选择 口 重新 计算 
o 等 价 规则 。 执行 技术 的 相互 作用 口 增 量 维护 
口 连接 的 交换 律 。 基于 代价 的 优化 口 iA 
口 连接 的 结合 律 。 连接 顺序 的 优化 口 删除 
。 等 价 规则 的 最 小 集 口 动态 规划 算法 口 更 新 
。 等 价 表达 式 的 枚 举 口 左 深 连接 顺序 。 使 用 物化 视图 的 查询 优化 
。 统计 信息 的 估计 口 感 兴趣 的 排列 顺序 。 索引 选择 
。 目录 信息 。 启发 式 优化 。 物化 视图 选择 
。 大 小 估计 。 计划 缓存 © top-K 优化 
口 选择 。 存 取 计划 选择 。 连接 极 小 化 
口 中 选 率 © 相关 执行 。 万 圣 节 问 题 
口 连接 。 去 除 相关 。 多 查询 优化 
。 直方 图 
实践 习题 


13;1 


13:2 


13.3 


13.4 


13:7 


证 明 以 下 等 价 式 成 立 。 解 释 如 何 用 它们 提高 某 些 查询 的 效率 : 

a. E, 6 6( E,—E,) =( E, KUE, —E, QE, ) 

b. oo(a Gr(E)) =.Gr(o,(E)), 其 中 9 仅 使 用 4 的 属性 。 

c.o,(E, MAE,) = oo(E,)JMAE,， 其 中 09 仅 使 用 E, 的 属性 。 

对 于 下 面 每 对 表达 式 ， 给 出 关系 实例 说 明 表 达 式 不 等 价 : 

a. T],(R - S)5IL(R) - ICS) 

b. O44 Grassy as BCR) ) 51 Grace) aS BC og .,(R) ) 

c. 在 上 述 的 表达 式 中 ， 若 max SHH min， 表 达 式 依旧 等 价 吗 ? 

d. (RAS)JMAT 与 RX(S XT), 换言之 ,自然 左 外 连接 不 满足 结合 律 。( 提示 : 假设 三 个 关系 的 
模式 分 别 为 R(a, bi), S(a, b,), T(a, b;)。) 

e o,(E,E,) 5 E, Mo, (E), 其 中 9 仪 使 用 E, 的 属性 。 

SQL 语言 允许 关系 有 重复 元 组 ( 见 第 3 章 ) 。 

a. 对 基本 关系 代数 运算 oo、 代 、x、%X、 一 、U 和 由, 给 出 它们 在 允许 有 重复 元 组 出 现 情况 下 的 定 
义 ， 定 义 的 方式 应 与 SQL 一 致 。 

b. 检查 等 价 规则 1 ~7. b 中 哪 一 些 满足 a 部 分 中 定义 的 重复 集 版 本 的 关系 代数 运算 。 

考虑 关系 r,(4, B, C), n(C, D, E)Mr,(E, FF)， 它 们 的 主 码 分 别 为 4、C、E。 itr 有 1000 个 元 

组 , n 有 1500 个 元 组 ，m 有 750 个 元 组 。 估 计 m Mr, Mr 的 大 小 ， 给 出 一 个 有 效 地 计算 这 个 连接 的 

策略 。 

考虑 习题 13. 4 PKA (A, B, C), n(C, D, E)K r (E, F), 假设 除了 整个 模式 外 没有 主 码 。 

4 V(C, r,) 8900, V(C, r,)H 1100, VE, r,)ž 50, V(E, r,)ž 100, 假设 r, A 1000 个 元 组 , r, 

有 1500 个 元 组 ， 有 750 AWHA., fhit r Mr, Mr 的 大 小 ， 给 出 一 个 有 效 地 计算 这 个 连接 的 策略 。 

假设 关系 department 在 building 属性 上 有 B' 树 索 引 ， 此 外 别 无 其 他 索引 。 处 理 下 列 包含 否定 条 件 的 选 

择 操作 的 最 佳 方法 是 什么 ? 

a. GT 一 (building < “Watson” ) ( department ) 

b. w= (building = “Watson” ) ( department ) 

C. GT 一 (building < “Watson” V budget < 50000) ( department ) 
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13.8 


13.9 


13.10 


13. 11 


13. 14 


select ` 
from r , s 
where upper(r. A) =upper(s. A) ; 
其 中 "upper "是 个 函数 ， 该 函数 返回 输入 参数 中 所 有 小 写字 母 蔡 换 成 相应 大 写字 母后 的 结果 。 
a. 找 出 你 使 用 的 数据 库 系统 中 为 这 个 查询 产生 的 计划 。 
b. 有 些 数 据 库 系 统 对 这 个 查询 会 采用 非常 低 效 的 ( 块 ) 嵌 套 循环 连接 。 简 单 解释 对 于 该 查询 ， 如 何 使 
用 散 列 连接 或 者 归并 连接 。 
给 出 下 列表 达 式 等 价 的 条 件 : 
PE EPN (E, E, ) and (Ce (E) ) E, 
其 中 agg 表示 任何 聚合 操作 。 如 果 agg 是 min 或 max 中 的 一 个 ， 上 述 条 件 可 以 放宽 成 什么 ? 
考虑 优化 中 感 兴趣 的 排列 顺序 问题 。 假 设 给 你 一 个 查询 ， 计 算 一 个 关系 集合 S 的 自然 连接 。S1 是 5 
的 一 个 子 集 ，51 的 感 兴趣 的 排列 顺序 是 什么 ? 
请 说 明 n 个 关系 可 以 构成 (2(n -1))! /A(n -1)! 个 不 同 的 连接 顺序 。 
提示 : 一 棵 完全 二 叉 树 (complete binary tree) 的 每 个 内 部 结 点 都 正好 有 两 个 子 结 点 。 利 用 以 下 事实 : 
拥有 个 叶 结 点 的 不 同 完 全 二 又 树 的 个 数 为 : 
=" - a 
nN Crk) 
如 果 你 愿意 的 话 ， 你 也 可 以 从 个 叶 结 点 的 不 同 二 叉 树 的 个 数 公 式 推 导出 n 个 叶 结 点 的 不 同 完全 二 
叉 树 的 个 数 。n 个 叶 结 点 的 不 同 二 又 树 的 个 数 为 : 
1 rr 
Ty 
这 个 数字 就 是 卡特 兰 数 ( Catalan number) ， 它 的 衍生 式 可 以 在 任何 一 本 数据 结构 或 算法 的 标准 教材 中 
找到 。 
证 明 计算 连接 次 序 的 最 小 时 间 代价 是 0(3" ) 。 假 设 存 储 和 查看 关系 集合 的 有 关 信 息 (如 该 集合 的 最 
佳 连接 次 序 以 及 该 连接 次 序 的 代价 ) 所 需 时 间 是 常量 。( 如 果 你 感觉 做 本 题 有 困难 ， 至 少 证 明 更 宽松 
的 时 间 界 限 0(2”) 。) 
如 果 像 System R 优化 器 那样 只 考虑 左 深 连接 树 ， 证 明和 寻找 最 有 效 连 接 次 序 的 时 间 大 约 为 n2"。 假 定 
只 有 一 个 感 兴趣 的 排序 次 序 。 
考虑 图 13-9 中 的 银行 数据 库 ， 主 码 用 下 划 线 标识 。 为 这 个 关系 数据 库 构 建 以 下 SQL 查询 。 
对 关系 account 写 一 个 嵌 套 查询 ， 从 每 一 个 名 称 以 B 打头 的 分 行 中 找 出 具有 最 大 余额 的 所 有 账户 。 


. 不 使 用 嵌 套 子 查询 重 写 前 面 的 查询 ， 换 言 之 ， 去 除 查 询 的 相关 性 。 
. 对 去 除 此 类 查询 相关 性 给 出 一 个 处 理 过 程 ( 类 似 于 13. 4. 4 节 描 述 的 那样 ) 。 


branch( branch_name, branch_city, assets) 
customer (customer_name, customer_street , customer_city) 


loan (loan_number, branch_name, amount ) 


borrower (customer_name , loan_number ) 
account (account_number, branch_name, balance) 
depositor ( customer_name, account_number ) 


13-9 JH 13.13 的 银行 数据 库 
半 连 接 操作 的 集合 定义 如 下 : 





r Xos = IIg(r DA as) 
其 中 RR 是 模式 的 属性 集合 。 多 集合 版 本 的 半 连 接 操作 返回 相同 的 元 组 集合 ， 不 过 每 个 元 组 的 
拷贝 数量 和 其 在 7r 中 的 相同 。 
考虑 我 们 在 13. 4. 4 节 中 看 到 的 嵌 套 查询 : 找 出 在 2007 年 教授 一 门 课程 的 所 有 教师 名 字 。 使 用 
多 集合 版 本 的 半 连 接 操作 符 写 出 查询 的 关系 表达 式 ， 确 保 每 个 名 字 的 重复 数量 和 SQL 查询 中 相同 。 
〈 半 连接 操作 符 在 艇 套 查询 去 除 相 关中 广泛 应 用 。) 
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13.15 ”假设 关系 department 在 (dept_name, building) RYE LA B' 树 索 引 。 处 理 下 列 选择 操作 的 最 佳 方法 是 
什么 ? 


© | building <" Watson”) A (budget <55000) A ( dept_name = “Music” ) ( department ) 


13.16 使 用 13.2. 1 节 中 的 等 价 规则 ， 证 明 如 何 通过 一 系列 转换 导出 下 列 等 价 式 : 
a. Tanong E) = Oal Ta (0a (E))) 620 
b. Tano, (Eip, E2) =O, (Em0 (oo.(E,))), 其 中 0, 仅 使 用 E, 的 属性 

13.17 考虑 下 面 两 个 表达 式 T(E, ME,) 和 oo,(E, ME,), 
a. 通过 举例 说 明 两 个 表达 式 一 般 是 不 等 价 的 。 
b. 给 出 一 个 谓词 9 上 的 简单 条 件 ， 使 得 满足 条 件 时 两 个 表达 式 是 等 价 的 。 

13.18 ”我 们 说 一 个 等 价 规则 集 是 完备 的 ， 如 果 对 于 任意 两 个 等 价 的 表达 式 ， 都 可 以 使 用 一 系列 等 价 规则 从 其 
中 一 个 表达 式 推导 出 另 一 个 。13. 2. 1 节 讲 述 的 等 价 规则 集 是 完备 的 吗 ? 提示 : 考虑 等 式 ci-*(r) =| |。 

13.19 请 解释 如 何 用 直方 图 来 估算 形 如 o, <v(7) 的 选择 操作 的 大 小 。 

13.20 ”假设 两 个 关系 r 和 ;在 属性 7.4 和 s. 4 上 分 别 有 直 方 图 ， 但 是 所 取 区 间 不 同 。 请 给 出 如 何 用 直方 图 估 
计 rMs 的 大 小 。 提 示 : 进一步 细 分 每 个 直方 图 的 区 间 。 

13.21 考虑 查询 


select A, B 
from r 
where r. B < some (select B 
from s 
where s. A= r. A) 


说 明 如 何 使 用 练习 13.14 中 定义 的 多 集合 版 本 半 连 接 操作 符 去 除 上 述 查询 中 的 相关 性 。 
13. 22 ”从 插 人 和 删除 两 方面 描述 如 何 增 量 维护 下 面 操作 的 结果 集 : 
a. 并 和 集合 差 
b. 左 外 连接 
13.23 给 出 一 个 定义 物化 视图 的 表达 式 的 例子 和 两 种 情况 (有 关 输 入 关系 的 统计 信息 集合 与 关系 数据 
的 变化 量 ) 。 其 中 一 种 情况 下 ， 增 量 视图 维护 优 于 重新 计算 ; 另 一 种 情况 下 ， 重 新 计算 更 优 。 
13.24 ”假设 你 想得到 rs 在 r 的 一 个 属性 上 排序 的 结果 ， 并 且 只 想 要 前 天 个 结果 ， 这 里 的 天 比较 小 。 
请 给 出 执行 查询 的 较 好 方案 。 
a 当 在 + 上 的 指向 s 的 外 码 属性 上 进行 连接 时 ， 外 码 属 性 声明 为 非 空 。 
b. 当 不 是 在 外 码 上 进行 连接 时 。 621 
13.25 ZERA r(A, B, C), 在 属性 4 上 有 索引 。 给 出 一 个 查询 的 例子 ， 其 结果 仅 用 索引 就 可 得 到 ， 
而 不 用 查看 关系 表 中 的 元 组 。( 仅 用 索引 而 不 必 访 问 实际 关系 表 的 查询 计划 称 为 仅 用 索引 的 
计划 。) 
13. 26 ”假定 你 有 一 个 更 新 查询 U。 给 出 一 个 U 上 的 简单 充分 条 件 ， 使 得 不 论 选 择 任何 执行 计划 或 者 是 
否 存 在 索引 ,万圣节 问题 都 不 会 发 生 。 


文献 注解 


Selinger 等 [1979 ] 所 做 的 创造 性 工作 描述 了 System R 优化 器 的 存 取 路 径 选 择 ，System R 的 优化 器 是 最 早 
的 关系 查询 优化 器 之 一 。Starburst 的 查询 处 理 在 Haas 等 [1989 ] 中 描述 ， 这 是 IBM DB2 查询 优化 的 基础 。 

Graefe 和 Mckenna[ 1993a] 描 述 了 Volcano， 它 是 一 个 基于 等 价 规 则 的 查询 优化 器 。Volcano 与 它 的 后 继 者 
Cascades( Graefe [1995 ] ) 形 成 了 Microsoft SQL server 查询 优化 的 基础 。 

查询 结果 的 统计 信息 的 估计 ， 比 如 结果 集 大 小 ， 在 Ioannidis 和 Poosala[ 1995 ] Poosala 等 [1996] 和 
Ganguly 等 [1996 ] 以 及 其 他 文献 中 有 描述 。 值 的 非 平均 分 布 会 给 查询 大 小 和 代价 的 估计 带 来 问题 ， 用 值 分 布 
直方 图 进行 代价 估计 技术 可 以 解决 此 类 问题 。Ioannidis 和 Christodoulakis[ 1993 | 、Ioannidis 和 Poosala[ 1995 | , 
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以 及 Poosala 等 [ 1996 | 在 这 一 领域 给 出 了 成 果 。 随 机 抽样 广泛 应 用 于 在 统计 学 中 构建 直方 图 ， 但 是 数据 库 内 
容 中 直方 图 的 构建 问题 在 Chaudhuri 等 [1998 ] 中 讨论 。 
Klug[ 1982 ] 是 有 关 包 含 聚 集 卫 数 的 关系 代数 表达 式 的 优化 的 早期 著作 。 包 含 聚集 操作 的 查询 优化 在 Yan 
和 Larson[ 1995 ] 以 及 Chaudhuri 和 Shim[ 1994 ] 文 中 有 阐述 。 包 含 外 连接 的 查询 优化 在 Rosenthal 和 Reiner 
[1984] 、Galindo-Legaria 和 Rosenthal[ 1992] 、Galindo-Legaria[ 1994] 中 有 描述 。top-K 查询 的 优化 在 Carey 与 
Kossmann[ 1998 ] 和 Bruno 等 [2002 | FÆ WR, 
赂 套子 查询 的 优化 在 Kim[ 1982] 、Ganski 和 Wong[ 1987 ] Dayal[ 1987 ] Seshadri 等 [1996 ] ， 以 及 较 新 
的 Galindo-Legaria 与 Joshi[ 2001 ] 中 进行 讨论 。 
Blakeley 等 [1986] 描 述 了 维护 物化 视图 的 技术 。 物 化 视图 执行 计划 的 优化 在 Vista[ 1998 | 和 Mistry 等 
[2001] 中 讨论 。Chaudhuri 等 [1995 | 描述 了 有 物化 视图 参与 的 查询 优化 。 索 引 的 选择 和 物化 视图 的 选择 在 
Ross 等 [1996 ] 和 Chaudhuri 和 Narasayya[ 1997 ] 中 讨论 。 
top-K 查询 的 优化 在 Carey 与 Kossmann[ 1998 ] 和 Bruno & [2002 ] 中 有 阐述 。 一 些 用 于 极 小 化 连接 的 技术 
统称 为 表格 优化 。 表 格 的 概念 由 Aho 等 [1979b] 和 Aho 等 [ 1979a] 引 入 Sagiv 和 Yannakakis[ 1981 ] 作 了 进 一 
步 扩 展 。 
参数 化 查询 优化 算法 由 Ioannidis 等 [1992 ] 、Ganguly[ 1998 ] 和 Hulgeri 与 Sudarshan [ 2003 ] 提出 。Selli 
[1988] 和 Roy 等 [2000] 描 述 了 多 查询 优化 ，Roy 等 [2000] 提 出 如 何 将 多 查询 优化 集成 到 一 个 基于 Volcano 的 
查询 优化 器 中 。 
622 Galindo-Legaria 等 [2004 ] 描述 了 数据 库 更 新 操作 的 查询 处 理 和 优化 ， 包 括 索 引 维护 的 优化 ， 物 化 视图 的 
624 | 维护 计划 和 约束 完整 性 检查 ， 以 及 解决 万 圣 节 问题 的 技术 。 
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术语 事务 指 的 是 构成 单一 逻辑 工作 单元 的 操作 的 集合 。 比 如 : 将 钱 从 一 个 账户 转 到 另 一 
个 账户 就 是 一 个 事务 ， 该 事务 包括 分 别针 对 每 个 账户 的 两 个 更 新 。 

事务 的 所 有 动作 要 么 全 部 执行 ， 要 么 由 于 出 错 而 撤销 事务 的 部 分 影响 ， 这 一 点 非常 重要 ， 
这 个 特性 叫做 原子 性 。 而 且 ， 一 旦 事务 成 功 执行 ， 其 影响 必须 保存 在 数据 库 中 一 一 一 个 系统 
故障 不 应 该 导致 数据 库 忽略 成 功 完 成 的 事务 ， 这 个 特性 叫做 持久 性 。 

在 一 个 有 多 个 事务 并 发 执行 的 数据 库 系 统 中 ， 如 果 对 共享 数据 的 更 新 不 加 以 控制 ， 事 务 
就 可 能 看 到 由 别 的 事务 的 更 新 引起 的 中 间 状 态 的 不 一 致 ， 这 种 情况 会 导致 对 数据 库 中 存储 的 
数据 的 错误 更 新 。 所 以 ， 数 据 库 系统 必须 提供 隔离 机 制 以 保证 事务 不 受 其 他 并 发 执行 的 事务 
影响 ， 这 个 特性 叫做 隔离 性 。 

第 14 章 详 细 阑 述 事务 的 概念 ， 包 括 事务 的 原子 性 、 持 久 性 、 隔 离 性 和 由 事务 抽象 提供 的 
其 他 特性 。 特 别 地 ， 本 章 通过 可 串 行 化 的 概念 来 准确 描述 隔离 性 的 定义 。 

第 15 章 阐 述 几 种 实现 隔离 性 的 并 发 控制 技术 。 第 16 章 阅 述 数 据 库 恢复 管理 部 件 ， 它 实现 
了 数据 库 的 原子 性 与 持久 性 。 

总 体 来 说 ， 数 据 库 系 统 的 事务 管理 部 件 使 得 应 用 程序 开发 人 员 能 够 把 注意 力 集中 在 单个 
事务 上 ， 而 不 必 考 虑 并 发 和 容错 等 问题 。 
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第 14 章 | 


Database System Concepts, 6E 


事 务 





通常 ， 从 数据 库 用 户 的 观点 来 看 ， 数 据 库 中 一 些 操作 的 集合 被 认为 是 一 个 独立 单元 。 比 如 ， 从 
顾客 的 立场 来 看 ， 从 支票 账户 到 储蓄 账户 的 资金 转账 是 一 次 单一 的 操作 ; 而 在 数据 库 系统 中 ， 这 是 
由 几 个 操作 组 成 的 。 显 然 ， 有 一 点 是 最 基本 的 ， 这 些 操作 要 么 全 都 发 生 ， 要 么 由 于 出 错 而 全 不 发 生 。 
资金 从 支票 账户 支出 而 未 转 入 储蓄 账户 的 情况 是 不 可 接受 的 。 

构成 单一 逻辑 工作 单元 的 操作 集合 称 作 事务 ( transaction) 。 即 使 有 故障 ， 数 据 库 系统 也 必须 保证 
事务 的 正确 执行 一 一 要 么 执行 整个 事务 ， 要 么 属于 该 事务 的 操作 一 个 也 不 执行 。 此 外 ,数据库 系统 
必须 以 一 种 能 避免 引入 不 一 致 性 的 方式 来 管理 事务 的 并 发 执行 。 在 资金 转账 的 例子 中 ， 一 个 计算 顾 
客 总 金额 的 事务 可 能 在 资金 转账 事务 从 支票 账户 支出 金额 之 前 查看 支票 账户 余额 ， 而 在 资金 存 人 储 
鞋 账户 之 后 查看 储蓄 账户 余额 。 结 果 ， 它 就 会 得 到 不 正确 的 结果 。 

本 章 介绍 事务 处 理 的 基本 概念 。 并 发 事务 处 理 和 故障 恢复 的 细节 问题 分 别 在 第 15 章 和 第 16 章 
讨论 。 事 务 处 理 的 更 进一步 话题 在 第 26 章 讨论 。 


14.1 事务 概念 


事务 是 访问 并 可 能 更 新 各 种 数据 项 的 一 个 程序 执行 单元 (unit) 。 事 务 通常 由 高 级 数据 操纵 语言 
(代表 性 的 是 SQL) 或 编程 语言 (例如 ，C ++ Bt Java) 通 过 JDBC 或 ODBC 插入 式 数据 库 访问 书写 的 用 
户 程序 的 执行 所 引起 。 事 务 用 形 如 begin transaction 和 end transaction 语句 (或 函数 调用 ) 来 界定 。 
事务 由 begin transaction 与 (end transaction 之 间 执 行 的 全 体操 作 组 成 。 

这 些 步 又 集合 必须 作为 一 个 单一 的 、 不 可 分 割 的 单元 出 现 。 因 为 事务 是 不 可 分 割 的 ， 所 以 要 么 
执行 其 全 部 内 容 ， 要 么 就 根本 不 执行 。 因 此 ， 如 果 一 个 事务 开始 执行 ， 但 是 由 于 某 些 原因 失败 ， 则 

事务 对 数据 库 造 成 的 任何 可 能 的 修改 都 要 撤销 。 无 论 事务 本 身 是 否 失败 (例如 ， 如 果 它 除 以 零 ) ， 或 
者 操作 系统 崩溃 ， 或 者 计算 机 本 身 停 止 运行 ， 这 项 要 求 都 要 成 立 。 正 如 我 们 将 会 看 到 的 ， 确 保 这 个 
要 求 是 困难 的 ， 因 为 对 数据 库 的 一 些 修改 可 能 仅仅 存在 事务 的 主 存 变 量 中 ， 而 另 一 些 已 经 写 人 数据 
库 并 存储 到 磁盘 上 。 这 种 ”全 或 无 ”的 特性 称 为 原子 性 (atomicity ) 。 

此 外 ， 由 于 事务 是 一 个 单一 的 单元 ， 它 的 操作 不 能 看 起 来 是 被 其 他 不 属于 该 事务 的 数据 库 操 作 
分 隔 开 的 。 尽 管 我 们 希望 表现 在 事务 的 用 户 级 上 ， 但 是 我 们 知道 事实 是 有 相当 大 的 区 别 的 。 即 使 单 
条 SQL 语句 也 会 涉及 许多 分 开 的 数据 库 访 问 ， 并 且 一 个 事务 可 能 会 由 多 条 SQL 语句 构成 。 因 此 ， 数 
据 库 系统 必须 采取 特殊 处 理 来 确保 事务 正常 执行 而 不 被 来 自 并 发 执行 的 数据 库 语 句 所 干扰 。 这 种 特 
性 称 为 隔离 性 (isolation ) 。 

即使 系统 能 保证 一 个 事务 的 正确 执行 ， 如 果 此 后 系统 崩溃 ， 结 果 系 统 “ 忘 记 " 了 该 事务 ， 那 么 这 
项 工作 的 意义 也 不 大 了 。 因 此 ， 即 使 月 溃 后 事务 的 操作 也 必须 是 持久 的 。 这 种 特性 称 为 持久 性 
(durability ) 。 

因为 上 述 三 个 特性 ， 事 务 就 成 了 构造 与 数据 库 的 交互 的 一 种 理想 方式 。 这 使 我 们 必须 加 强 对 事 
务 本 身 的 要 求 。 事 务必 须 保持 数据 库 的 一 致 性 一 一 如 果 一 个 事务 作为 原子 从 一 个 一 致 的 数据 库 状态 
开始 独立 地 运行 ， 则 事务 结束 时 数据 库 也 必须 再 次 是 一 致 的 。 这 种 一 致 性 要 求 超出 我 们 此 前 看 到 的 
数据 完整 性 约束 (例如 主 码 约束 、 参 照 完整 性 、check 约束 等 ) 。 相 反 ， 事 务 会 被 期 望 得 更 多 ， 以 保 
证 太 过 复杂 而 不 能 用 SQL 构建 数据 完整 性 并 且 依 赖 于 程序 的 一 致 性 约束 。 如 何 实 现 这 个 则 是 编写 事 


第 14 章 事 务 357 


务 的 程序 员 的 职责 。 这 种 特性 称 为 一 致 性 ( consistency ) 。 
将 上 述 内 容 更 简明 地 重新 描述 ， 我 们 要 求 数据 库 系统 维护 事务 的 以 下 性 质 。 
。 原子 性 : 事务 的 所 有 操作 在 数据 库 中 要 人 么 全 部 正确 反映 出 来 ， 要 么 完全 不 反映 。 
。 一 致 性 : 隔离 执行 事务 时 (换言之 ,在 没有 其 他 事务 并 发 执行 的 情况 下 ) 保持 数据 库 的 一 
致 性 。 
。 隔离 性 : 尽管 多 个 事务 可 能 并 发 执行 ， 但 系统 保证 ， 对 于 任何 一 对 事务 和 九 ， 在 了 看 来 ， 
T, MACE T, 开始 之 前 已 经 完成 执行 ， 或 者 在 7; 完成 之 后 开始 执行 。 因 此 ， 每 个 事务 都 感觉 
不 到 系统 中 有 其 他 事务 在 并 发 地 执行 。 
。 持久 性 : 一 个 事务 成 功 完 成 后 ， 它 对 数据 库 的 改变 必须 是 永久 的 ， 即 使 出 现 系统 故障 。 [628 | 
这 些 性 质 通常 称 为 ACID 特性 (ACID property) ， 这 一 缩写 来 自 4 条 性 质 的 第 一 个 英文 字母 。 
正如 我 们 此 后 看 到 的 ， 确 保 隔 离 性 有 可 能 对 系统 性 能 造成 较 大 的 不 利 影 响 。 由 于 这 个 原因 ， 一 
些 应 用 在 隔离 性 上 会 采取 一 些 妥协 。 我 们 将 在 学 习 严 格 执行 ACID 特性 后 学 习 这 些 妥 协 。 


14.2 一 个 简单 的 事务 模型 


因为 SQL 是 一 种 强大 而 复杂 的 语言 ， 所 以 我 们 采用 一 种 简单 的 数据 库 语 言 来 开始 学 习 事 务 ， 该 
语言 关注 数据 何 时 从 磁盘 移动 到 主 存 以 及 何 时 从 主 存 移动 到 磁盘 。 这 样 ， 我们 忽略 了 SQL ih A A 
除 操作 ， 推 迟到 15. 8 节 再 去 考虑 它们 。 在 简单 语言 中 ， 对 数据 的 实际 操作 仅 限 于 算术 操作 。 后 面 ， 
我 们 会 在 一 个 有 更 丰富 的 操作 集合 并 且 基 于 SQL 的 真实 环境 中 讨论 事务 。 在 简单 模型 中 数据 项 只 包 
含 一 个 单一 的 数据 值 ( 在 例子 中 是 一 个 数字 ) 。 每 个 数据 项 由 一 个 名 字 所 标识 (在 例子 中 通常 是 一 个 
字符 ， 例 如 4、B、C 等 ) 。 

我 们 将 采用 一 个 由 几 个 账户 和 一 个 访问 和 更 新 账户 的 事务 集合 构成 的 简单 的 银行 应 用 来 阐明 事 
务 的 概念 。 事 务 运用 以 下 两 个 操作 访问 数据 。 

e read(X): 从 数据 库 把 数据 项 做 传 送 到 执行 read 操作 的 事务 的 主 存 缓冲 区 的 一 个 也 称 为 的 

变量 中 。 

e write(X) : 从 执行 write 的 事务 的 主 存 缓冲 区 的 变量 中 把 数据 项 关 传 回 数据 库 中 。 

“重要 的 是 要 知道 一 个 数据 项 的 变化 是 只 出 现在 主 存 中 ,还 是 已 经 写 人 磁盘 上 的 数据 库 。 在 实际 
数据 库 系统 中 ，write 操作 不 一 定 立 即 更 新 磁盘 上 的 数据 ; write 操作 的 结果 可 以 临时 存储 在 某 处 ， 
以 后 再 写 到 磁盘 上 。 但 是 目前 我 们 假设 write 操作 立即 更 新 数据 库 。 我 们 将 在 第 16 章 回 到 这 个 话题 。 

WT, 是 从 账户 4 过户 $50 到 账户 B 的 事务 。 这 个 事务 可 以 定义 为 : 

T,: read(A) ; 
A:= A-S0; 
write(4) ; 
read( B) ; 
B:= B +50; 
write( B). 629 
现在 让 我 们 逐个 考虑 ACID 特性 (为 了 便于 讲解 ， 我 们 不 按 A-C-I-D 的 次 序 来 讲述 它们 ) 。 

。 一 致 性 : 在 这 里 ， 一 致 性 要 求 事务 的 执行 不 改变 4、 下 之 和 。 如 果 没 有 一 致 性 要 求 ， 金 额 可 

能 会 被 事务 凭空 创造 或 销毁 ! 容易 验证 ， 如 果 数 据 库 在 事务 执行 前 是 一 致 的 ， 那么 事务 执行 
后 数据 库 仍 将 保持 一 致 。 

确保 单个 事务 的 一 致 性 是 编写 该 事务 的 应 用 程序 员 的 责任 。 完 整 性 约束 的 自动 检查 给 这 
项 工作 带 来 了 便利 ， 正 如 我 们 已 经 在 4. 4 节 讨 论 的 。 

。 原子 性 : 假设 事务 T, 执行 前 账户 4 和 账户 8 分 别 有 $1000 和 $2000。 现 在 假设 在 事务 T, 执行 
时 系统 出 现 故障 ， 导 致 也 的 执行 没有 成 功 完 成 。 我 们 进一步 假设 故障 发 生 在 write( 4 ) 操作 执 
行 之 后 write( B) 操作 执行 之 前 。 在 这 种 情况 下 ， 数 据 库 中 反映 出 来 的 是 账户 4 有 $950， 而 
TK! BA $2000。 这 次 故障 导致 系统 丢失 了 $50。 特 别 地 ， 我 们 注意 到 4 + B 的 和 不 再 维持 
原状 。 
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这 样 ， 由 于 故障 ， 系 统 的 状态 不 再 反映 数据 库 本 应 描述 的 现实 世界 的 真实 状态 。 我 们 把 
这 种 状态 称 为 不 一 致 状态 (inconsistent state) 。 我 们 必须 保证 这 种 不 一 致 性 在 数据 库 系统 中 是 
不 可 见 的 。 但 是 请 注意 ， 系 统 必然 会 在 某 一 时 刻 处 于 不 一 致 状态 。 即 使 事务 T, 能 执行 完 ， 也 
仍然 存在 某 一 时 刻 账户 4 的 金额 是 $950 而 账户 B 的 金额 是 $2000， 这 显然 是 一 个 不 一 致 状 
态 。 然 而 这 一 状态 最 终 会 被 账户 4 的 金额 是 $950 HIKE B 的 金额 是 $2050 这 个 一 致 的 状态 
人 代替。 这样， 如 果 一 个 事务 或 者 不 开始 ， 或 者 保证 完成 ， 那么 这 样 的 不 一 致 状态 除了 在 事务 
执行 当中 以 外 ， 在 其 他 时 刻 是 不 可 见 的 。 这 就 是 需要 原子 性 的 原因 : 如 果 具 有 原子 性 ， 某 个 
事务 的 所 有 动作 要 么 在 数据 库 中 全 部 反映 出 来 ， 要么 全 部 不 反映 。 

保证 原子 性 的 基本 思路 如 下 : 对 于 事务 要 执行 写 操作 的 数据 项 ， 数 据 库 系统 在 磁盘 上 记 

录 其 旧 值 。 这 个 信息 记录 在 一 个 称 为 日 志 的 文件 中 。 如 果 事 务 没 能 完成 它 的 执行 ， 数 据 库 系 
统 从 日 志 中 恢复 旧 值 ， 使 得 看 上 去 事务 从 未 执行 过 。14. 4 节 将 进一步 讨论 这 些 想 法 。 保 证 原 
子 性 是 数据 库 系 统 本 身 的 责任 ; 具体 来 说 ， 这 项 工作 由 称 作 恢复 系统 (recovery system) 的 一 个 
数据 库 组 件 处 理 ， 这 个 将 在 第 16 章 详 细 讲 述 。 
HATE: 一 旦 事务 成 功 地 完成 执行 ， 并 且 发 起 事务 的 用 户 已 经 被 告知 资金 转账 已 经 发 生 ， 系 
统 就 必须 保证 任何 系统 故障 都 不 会 引起 与 这 次 转账 相关 的 数据 丢失 。 持 久 性 保证 一 旦 事务 成 
功 完成 ， 该 事务 对 数据 库 所 做 的 所 有 更 新 就 都 是 持久 的 ， 即 使 事务 执行 完成 后 出 现 系 统 
故障 。 

现在 我 们 假设 计算 机 系统 的 故障 将 会 导致 内 存 中 的 数据 丢失 ,但 已 写 人 磁盘 的 数据 决 不 
会 丢失 。 第 16 章 将 会 讨论 预防 磁盘 上 的 数据 丢失 。 我 们 可 以 通过 确保 以 下 两 条 中 的 任何 一 
条 来 达到 持久 性 : 

1. 事务 做 的 更 新 在 事务 结束 前 已 经 写 人 磁盘 。 

2. 有 关 事 务 已 执行 的 更 新 信息 已 写 到 磁盘 上 ， 并 且 此 类 信息 必须 充分 ， 能 让 数据 库 在 系 
统 出 现 故障 后 重新 启动 时 重新 构造 更 新 。 

第 16 章 将 介绍 的 数据 库 恢 复 系统 负责 除了 保证 原子 性 之 外 还 保证 持久 性 。 
隔离 性 : 如 果 几 个 事务 并 发 地 执行 ， 即 使 每 个 事务 都 能 确保 一 致 性 和 原子 性 ， 它 们 的 操作 会 
以 人 们 所 不 希望 的 某 种 方式 交叉 执行 ， 这 也 会 导致 不 一 致 的 状态 。 

正如 我 们 先前 看 到 的 ， 例 如， 在 4 至 8 转账 事务 执行 过 程 中 ， 当 4 中 总 金额 已 减 去 转账 
额 并 已 写 回 4， 而 B 中 总 金额 加 上 转账 额 后 还 未 写 回 B 时 ， 数 据 库 暂时 是 不 一 致 的 。 如 果 另 
一 个 并 发 运行 的 事务 在 这 个 中 间 时 刻 读 取 A 和 B 的 值 并 计算 4+B， 它 将 会 得 到 不 一 致 的 值 。 
更 进一步 ， 如 果 第 二 个 事务 基于 它 读 取 的 不 一 致 值 对 4 和 B 进行 更 新 ， 即 使 两 个 事务 都 完成 
后 ， 数 据 库 仍 可 能 处 于 不 一 致 状态 。 

一 种 避免 事务 并 发 执行 而 产生 问题 的 途径 是 串 行 地 执行 事务 一 一 一 个 接 一 个 地 执行 。 然 
而 ， 我 们 将 会 在 14. 5 节 看 到 ， 事务 并 发 执行 能 显著 地 改善 性 能 。 因 此 人 们 提出 了 许多 其 他 的 
解决 方法 ， 它 们 允许 多 个 事务 并 发 地 执行 。 

14. 5 节 讨 论 事务 并 发 地 执行 所 引起 的 问题 。 事 务 的 隔离 性 确保 事务 并 发 执行 后 的 系统 状 
态 与 这 些 事务 以 某 种 次 序 一 个 接 一 个 地 执行 后 的 状态 是 等 价 的 。14.6 节 将 进一步 讨论 隔离 的 
原则 。 确 保 隔离 性 是 数据 库 系 统 中 称 作 并 发 控制 系统 ( concurrency-control system ) 的 部 件 的 责 
任 ， 这 个 稍 后 将 在 第 15 章 讨论 。 


14.3 存储 结构 


为 了 理解 如 何 确保 事务 的 原子 性 和 持久 性 ,我 们 需要 更 好 地 理解 数据 库 中 各 种 数据 项 如 何 存 储 
和 访问 。 

在 第 10 章 中 我 们 看 到 存储 介质 可 以 通过 它们 的 相对 速度 、 容 量 、 故 障 弹 性 区 分 为 易 失 性 存储 器 
或 非 易 失 性 存储 器 。 我 们 回顾 这 些 概念 ， 并 介绍 另 一 种 新 的 存储 器 ， 即 稳定 性 存储 器 。 
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© 易 失 性 存储 器 ( volatile storage): 易 失 性 存储 器 中 的 信息 通常 在 系统 崩溃 后 不 会 幸存 。 这 种 存 
储 髓 的 例子 包括 主 存储 器 和 高 速 缓 冲 存 储 器 。 易 失 性 存储 器 的 访问 非常 快 ， 一 方面 是 因为 内 
存 访 问 本 身 的 速度 ， 另 一 方面 是 因为 可 以 直接 访问 易 失 性 存储 器 中 的 任何 数据 项 。 

非 易 失 性 存储 器 ( nonvolatile storage): 非 易 失 性 存储 器 中 的 信息 会 在 系统 崩溃 后 幸存 。 非 易 失 
性 存储 器 的 例子 包括 用 于 在 线 存 储 的 二 级 存储 设备 ( 如 磁盘 和 闪存 ) ， 以 及 用 于 存档 存储 的 三 
级 存储 设备 (如 光 介 质 和 磁带 ) 。 根 据 目 前 的 技术 ， 非 易 失 性 存储 器 比 易 失 性 存储 器 慢 ， 特 别 
是 对 于 随机 访问 。 然 而 ， 二 级 存储 设备 和 三 级 存储 设备 容易 受到 故障 的 影响 ， 导 致 信息 
丢失 。 

。 稳定 性 存储 器 ( stable storage): 稳定 性 存储 器 中 的 信息 永远 不 会 丢失 。( 应 该 对 永远 持 有 怀疑 态 

度 ， 因 为 理论 上 永远 不 能 保证 。 例 如 ， 尽 管 可 能 性 很 小 ， 也 有 可 能 出 现 黑洞 吞 叭 地 球 从 而 永久 
地 销毁 所 有 数据 !) 尽管 稳定 性 存储 器 在 理论 上 不 可 能 获得 ,但 是 可 以 通过 技术 近似 使 得 数据 
丢失 的 可 能 性 微乎其微 。 为 了 实现 稳定 性 存储 器 ， 我 们 可 以 复制 几 种 非 易 失 性 存储 器 介质 ( 通 
常 是 磁盘 ) 中 的 信息 ， 并 且 采 用 独立 故障 模式 。 更 新 必须 很 小 心 以 保证 更 新 过 程 中 稳定 性 存储 
器 的 故障 不 会 导致 信息 丢失 。16. 2. 1 节 将 讨论 稳定 性 存储 器 的 实现 。 

这 几 种 不 同 存储 器 类 型 之 间 的 区 别 在 实际 中 没有 我 们 介绍 得 这 么 明显 。 例 如 ， 某 些 系 统 提供 备用 
电池 使 得 一 些 主 存 可 以 在 系统 骨 溃 或 电源 故障 中 幸存 下 来 ， 例 如 某 些 RAID 控制 器 。 

为 了 一 个 事务 能 够 持久 ， 它 的 修改 应 该 写 人 稳定 性 存储 器 。 同 样 ， 为 了 一 个 事务 是 原子 的 ， 日 志 
记录 需要 在 对 磁盘 上 的 数据 库 做 任何 改变 之 前 写 人 稳定 性 存储 器 。 显 然 ， 一 个 系统 保证 的 持久 性 和 原 
子 性 的 程度 取决 于 稳定 性 存储 器 的 实现 到 底 有 多 稳定 。 在 某 些 情况 下 ， 磁 盘 的 一 个 单一 拷贝 是 足够 的 ， 
但 是 对 于 其 数据 非常 有 价值 和 事务 非常 重要 的 应 用 程序 需要 多 个 拷贝 ， 或 者 换 句 话说 ， 更 接近 于 理想 
化 的 稳定 性 存储 器 - 


14.4 事务 原子 性 和 持久 性 


正如 我 们 先前 所 注意 到 的 ， 事务 并 非 总 能 成 功 地 执行 完成 。 这 种 事务 称 为 中 止 (aborted) 了 。 R 
们 如 果 要 确保 原子 性 ， 中 止 事 务必 须 对 数据 库 的 状态 不 造成 影响 。 因 此 ， 中 止 事 务 对 数据 库 所 做 过 
的 任何 改变 必须 撤销 。 一 旦 中 止 事 务 造成 的 变更 被 撤销 ， 我 们 就 说 事务 已 回 滚 (rolled back), REPL 
制 负责 管理 事务 中 止 。 典 型 的 方法 是 维护 一 个 日 志 (log) 。 每 个 事务 对 数据 库 的 修改 都 首先 会 记录 到 
日 志 中 。 我 们 记录 执行 修改 的 事务 标识 符 、 修 改 的 数据 项 标识 符 以 及 数据 项 的 旧 值 (修改 前 的 ) 和 新 
值 (修改 后 的 ) 。 然 后 数据 库 才 会 修改 。 维 护 日 志 提 供 了 重 做 修改 以 保证 原子 性 和 持久 性 的 可 能 ， 以 
及 撤销 修改 以 保证 在 事务 执行 发 生 故 障 时 的 原子 性 的 可 能 。 第 16 章 将 会 详细 讨论 基于 日 志 的 故障 
恢复 。 

成 功 完 成 执行 的 事务 称 为 已 提交 (committed ) 。 一 个 对 数据 库 进 行 过 更 新 的 已 提交 事务 使 数据 库 进 
人 一 个 新 的 一 致 状态 ， 即 使 出 现 系统 故障 ， 这 个 状态 也 必须 保持 。 

一 旦 事务 已 提交 ， 我 们 不 能 通过 中 止 它 来 撤销 其 造成 的 影响 。 撤 销 已 提交 事务 所 造成 影响 的 唯一 
方法 是 执行 一 个 补偿 事务 (compensating transaction ) 。 例 如 ， 如 果 一 个 事务 给 一 个 账户 加 上 了 $20， 其 
补偿 事务 应 当 从 该 账户 减 去 $20。 然 而 ， 我 们 不 总 是 能 够 创建 这 样 的 补偿 事务 。 因 此 ， 书 写 和 执行 一 
个 补偿 事务 的 责任 就 留 给 了 用 户 ， 而 不 是 通过 数据 库 系 统 来 处 理 。 第 26 章 包 含 对 补偿 事务 的 讨论 。 

我 们 需要 更 准确 地 定义 一 个 事务 成 功 完成 的 含义 。 为 此 我 们 建立 了 一 个 简单 的 抽象 事务 模型 。 事 
务必 须 处 于 以 下 状态 之 一 。 

© 活动 的 (active) : 初始 状态 ， 事 务 执行 时 处 于 这 个 状态 。 

© 部 分 提交 的 (partially committed); 最 后 一 条 语句 执行 后 。 

。 失败 的 (failed) : 发 现 正常 的 执行 不 能 继续 后 。 

© 中 止 的 (aborted) : 事务 回 滚 并 且 数 据 库 已 恢复 到 事务 开始 执行 前 的 状态 后 。 

© 提交 的 (committed) : 成 功 完成 后 。 
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事务 相应 的 状态 图 如 图 14-1 所 示 。 只 有 在 事务 已 进入 提交 状态 后 ， 我 们 才 说 事务 已 提交 。 类 似 [633 | 
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地 ， 仅 当 事 务 已 进入 中 止 状态 ,我 们 才 说 事务 已 中 止 。 如 果 事 务 是 提交 的 或 中 止 的 ， 它 称 为 已 经 结束 
的 (terminated ) 。 

事务 从 活动 状态 开始 。 当 事务 完成 它 的 最 后 一 
条 语句 后 就 进入 了 部 分 提交 状态 。 此 刻 ， 事务 已 经 
完成 执行 ， 但 由 于 实际 输出 可 能 仍 临时 驻 留 在 主 存 
中 ， 因 此 一 个 硬件 故障 可 能 阻止 其 成 功 完成 ， 于 是 
事务 仍 有 可 能 不 得 不 中 止 。 

接着 数据 库 系统 往 磁 盘 上 写 和 人 足够 的 信息 ， 确 
保 即 使 出 现 故 障 时 事务 所 做 的 更 新 也 能 在 系统 重启 
后 重新 创建 。 当 最 后 一 条 这 样 的 信息 写 完 后 ， 事 务 
就 进入 提交 状态 。 

正如 先前 所 提 到 的 ， 我 们 现在 假设 故障 不 会 引 
起 磁盘 上 的 数据 丢失 。 磁 盘 上 数据 丢失 的 处 理 技术 
将 在 第 16 章 讨论 。 

系统 判定 事务 不 能 继续 正常 执行 后 (例如 ， 由 于 硬件 或 逻辑 错误 ) ， 事 务 就 进入 失败 状态 。 这 种 事 
务必 须 回 滚 。 这 样 ， 事 务 就 进入 中 止 状 态 。 此 刻 ， 系 统 有 两 种 选择 。 

。 它 可 以 重启 (restart) 事 务 ， 但 仅 当 引起 事务 中 止 的 是 硬件 错误 或 不 是 由 事务 的 内 部 逻辑 所 产生 

的 软件 错误 时 。 重 启 的 事务 被 看 成 是 一 个 新 事务 。 
© 它 可 以 杀 死 (kill) 事 务 ， 这 样 做 通常 是 由 于 事务 的 内 部 逻辑 造成 的 错误 ， 只 有 重 写 应 用 程序 才 
能 改正 , 或 者 由 于 输入 错误 ,或 所 需 数据 在 数据 库 中 没有 找到 。 

在 处 理 可 见 的 外 部 写 (observable external write) ， 比 如 写 到 用 户 屏 幕 ， 或 者 发 送 电 子 邮件 时 ， 我 们 
必须 要 小 心 。 由 于 写 的 结果 可 能 已 经 在 数据 库 系统 之 外 看 到 ， 因 此 一 旦 发 生 这 种 写 操作 ， 就 不 能 再 抹 
去 。 大 多 数 系统 只 人 允许 这 种 写 操作 在 事务 进入 提交 状态 后 发 生 - 实现 这 种 模式 的 一 种 方法 是 在 非 易 失 
性 存储 设备 中 临时 写 下 与 外 部 写 相 关 的 所 有 数据 ， 然 后 在 事务 进入 提交 状态 后 再 执行 真正 的 写 操作 。 
如 果 在 事务 已 进入 提交 状态 而 外 部 写 操作 尚未 完成 之 时 ， 系 统 出 现 了 故障 ， 数 据 库 系 统 就 可 以 在 重启 
后 (用 存储 在 非 易 失 性 设备 中 的 数据 ) 执 行 外 部 写 操作 。 

在 某 些 情况 下 处 理 外 部 写 操作 会 更 复杂 ， 例如， 我 们 假设 外 部 动作 是 在 自动 取款 机 上 支付 现金 ， 
并 且 系 统 恰好 在 支付 现金 之 前 发 生 故 障 (我 们 假定 现金 能 自动 支付 ) ， 当 系统 重新 启动 时 再 执行 现金 支 
付 将 毫 无 意义 ， 因 为 用 户 可 能 已 经 离开 。 在 这 种 情况 下 ， 重 新 启动 时 系统 应 该 执行 一 个 补偿 事务 ， 比 
如 将 现金 存 回 用 户 的 账户 。 

作为 另 一 个 例子 ， 考 虑 一 个 用 户 在 Web 上 进行 预订 。 很 可 能 在 预订 事务 刚刚 提交 后 数据 库 系 统 或 
应 用 服务 器 发 生 崩 演 ， 也 有 可 能 在 预订 事务 刚刚 提交 后 用 户 的 网 络 连接 丢失 。 在 上 述 任意 一 种 情况 下 ， 
即使 事务 已 经 提交 ， 外 部 写 也 并 没有 发 生 。 为 了 处 理 这 种 情况 ， 应 用 程序 必须 设计 成 当 用 户 再 次 连接 
到 Web 应 用 程序 时 ， 她 可 以 看 到 她 的 事务 是 否 成 功 。 

对 于 某 些 特定 应 用 ， 人 允许 处 于 活动 状态 的 事务 向 用 户 显 示 数 据 也 许 是 我 们 所 期 望 的 ， 特 别 对 将 运 
行 几 分 钟 或 几 小 时 的 长 周期 事务 来 说 。 遗 憾 的 是 ， 除 非 牺牲 事务 原子 性 ， 否 则 我 们 不 能 允许 这 种 可 见 
的 数据 输出 。 第 26 章 会 讨论 另外 的 事务 模型 ， 它 们 支持 交互 式 长 周期 事务 。 


14.5 事务 隔离 性 


事务 处 理 系统 通常 允许 多 个 事务 并 发 地 执行 。 正 如 我 们 先前 看 到 的 ， 允 许多 个 事务 并 发 更 新 数据 
引起 许多 数据 一 致 性 的 复杂 问题 。 在 存在 事务 并 发 执行 的 情况 下 保证 一 致 性 需 进行 额外 工作 ; 如 果 我 
们 强制 事务 串 行 地 (serially ) 执行 将 简单 得 多 一 一 一 次 执行 一 个 事务 ， 每 个 事务 仅 当前 一 事务 执行 完 后 
才 开 始 。 然 而 ， 有 两 条 很 好 的 理由 允许 并 发 。 
。 提高 吞吐 量 和 资源 利用 率 。 一 个 事务 由 多 个 步骤 组 成 。 一 些 涉及 10 活动 ; 还 有 一 些 涉 及 CPU 
活动 。 在 计算 机 系统 中 CPU SRA LIF TSE. Auk, VO 活动 可 以 与 CPU 处 理 并 行进 行 。 





图 14-1 事务 状态 图 


第 14 章 事 3 


利用 CPU 与 VO 系统 的 并 行 性 ， 多 个 事务 可 并 行 执行 。 当 一 个 事务 在 一 张 磁盘 上 进行 读 写 时 ， 
另 一 个 事务 可 在 CPU 上 和 运行， 第 三 个 事务 又 可 在 另 一 张 磁盘 上 进行 读 写 。 所 有 这 些 技术 增加 了 


系统 的 吞吐 量 (throughput) 





即 给 定时 间 内 执行 的 事务 数 增加 。 相 应 地 ， 处 理 器 与 磁盘 利用 


率 (utilization) 也 提高 ; 换 名 话说， 处理 器 与 磁盘 空闲 或 者 没有 做 有 用 的 工作 的 时 间 较 少 。 


减少 等 待 时 间 。 系 统 中 可 能 运行 着 各 种 各 样 的 事务 ， 一 些 较 短 ， 一 些 较 长 。 如 果 事 务 串 行 地 执 


行 ， 短 事务 可 能 得 等 待 它 前 面 的 长 事务 完成 ， 这 可 能 导致 难以 预测 的 延迟 。 如 果 各 事务 针对 数 
据 库 的 不 同 部 分 进行 操作 ， 让 它们 并 发 地 执行 会 更 好 ， 它 们 之 间 可 以 共享 CPU 周期 与 磁盘 存 
取 。 并 发 执行 可 以 减少 执行 事务 时 不 可 预测 的 延迟 。 此 外 ， 也 可 减少 平均 响应 时 间 ( average 
response time): 即 一 个 事务 从 提交 到 完成 所 需 的 平均 时 间 。 

在 数据 库 中 使 用 并 发 执行 的 动机 在 本 质 上 与 操作 系统 中 使 用 多 道 程序 (multiprogramming) 的 动机 是 


一 样 的 。 


当 多 个 事务 并 发 地 执行 时 ， 可 能 违背 隔离 性 ， 这 导致 即使 每 个 事务 都 正确 执行 ， 数 据 库 的 一 致 性 
也 可 能 被 破坏 。 这 一 节 将 讲述 调度 的 概念 ， 以 帮助 读者 识别 哪些 是 可 以 保证 一 致 性 的 执行 序列 。 

数据 库 系 统 必须 控制 事务 之 间 的 交互 ， 以 防止 它们 破坏 数据 库 的 一 致 性 。 系 统 通过 称 为 并 发 控制 
机 制 ( concurrency-control scheme) 的 一 系列 机 制 来 保证 这 一 点 。 第 15 章 将 研究 并 发 控制 机 制 ， 现 在 我 们 


集中 考虑 正确 的 并 发 执行 这 一 概念 。 
我 们 再 来 看 看 14. 1 节 中 的 简化 银行 系统 ， 


其 中 有 多 个 账户 以 及 存 取 、 更 新 这 些 账户 的 一 组 事务 。 


WT. T, 是 将 资金 从 一 个 账户 转移 到 另 一 个 账户 的 两 个 事务 ， 事 务 T, 是 从 账户 4 过 户 $50 到 账户 B 


的 事务 ， 它 定义 为 : 


Ta 


read(A); 
A: =A-50; 
write( A) ; 
read( B); 
B:= B+50; 
write( B). 


事务 T, 是 从 账户 4 将 存款 余额 的 10% 过 户 到 账户 B 的 事务 ， 它 定义 为 : 


Tg 


read (A); 
temp;= A*0.1; 
A:= A-temp; 
write( A) ; 
read( B); 

B:= B+ temp; 
write( B). 


并 发 性 趋势 
当前 计算 领域 的 一 些 发展 趋 势 带 来 大 量 可 能 的 并 发 性 。 数 据 库 系统 利用 并 发 性 提高 系统 的 整体 


性 能 ， 使 得 并 发 运行 的 事务 数量 可 能 越 来 越 多 。 

早期 的 计算 机 只 有 一 个 处 理 器 。 因 此 ， 计 算 机 中 没有 真正 意义 的 并 发 性 。 唯 一 表现 出 的 并 发 性 
是 操作 系统 使 几 个 不 同 的 任务 或 进程 共享 处 理 器 。 现 代 计 算 机 可 能 有 很 多 个 处 理 器 ， 这 将 使 得 一 个 
计算 机 中 有 真正 不 同 的 进程 。 然 而 ， 即 使 是 一 个 处 理 器 ， 如 果 它 有 多 核 ， 也 能 够 同时 运行 多 个 进程 。 
英特尔 酷 害 双核 处 理 器 就 是 一 个 众所周知 的 多 核 处 理 器 例子 。 

数据 库 系 统 有 两 种 方法 利用 多 处 理 器 和 多 核 的 优势 。 一 种 是 发 现 单个 事务 或 查询 内 的 并 行 性 ， 
另 一 种 是 支持 大 量 并 发 的 事务 。 

许多 服务 提供 商 现 在 采用 一 批 计算 机 而 不 是 大 型 主机 来 提供 服务 。 他 们 做 出 这 样 的 选择 是 基于 
这 种 方案 的 低 成 本 。 这 样 的 结果 是 带 来 了 更 大 限度 的 并 发 性 支持 。 
”文献 注解 介绍 了 计算 机 架构 和 并 行 计算 的 进展 。 第 18 章 将 介绍 利用 多 处 理 器 和 多 核 搭 建 并 行 数 
据 库 系 统 的 方法 。 
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假设 账户 4 和 账户 B 当前 的 值 分 别 是 $1000 和 $2000。 假 设 两 个 事务 一 个 一 个 地 执行 ， 先 是 了 ， 
然后 是 7,。 该 执行 顺序 如 图 14-2 所 示 。 在 图 14-2 中 ， 指 令 序列 自 项 向 下 按时 间 顺 序 排列 ，7, 的 指令 
出 现在 左 栏 ，7, 的 指令 出 现在 右 栏 。 按 图 14-2 的 顺序 执行 后 ， 账 户 4 与 B 中 最 终 的 值 分 别 为 $855 与 


$2145。 因 此 ， 账 户 4 与 B 的 资金 总 数 ( 即 A4+B) 在 两 个 事务 执行 后 保持 不 变 。 

类 似 地 ， 如 果 事 务 一 个 一 个 地 执行 ， 先 是 7,， 然 后 是 7 ， 那 么 相应 m 
的 执行 顺序 如 图 14-3 所 示 。 同 样 ， 正 如 所 预期 的 ，4 + B 之 和 仍 维持 不 reada) 
变 。 账 户 4 与 B 中 最 终 的 值 分 别 为 $850 与 $2150。 ae 50 | 


前 面 所 描述 的 执行 顺序 称 为 调度 ( schedule) 。 它 们 表示 指令 在 系统 read(B) | 
中 执行 的 时 间 顺序 。 显 然 ， 一 组 事务 的 一 个 调度 必须 包含 这 一 组 事务 的 。 38+ 





全 部 指令 ， 并 且 必 须 保持 指令 在 各 个 事务 中 出 现 的 顺序 。 例 如 ， 在 任何 Commit 

一 个 有 效 的 调度 中 ， 事务 7, 中 指令 write( A) 必须 在 指令 read( B8) 之 前 ee ET 

出 现 。 请 注意 ， 我 们 在 调度 中 包括 了 commit 操作 来 表示 事务 已 经 进入 | 4 := A — temp 

提交 状态 。 在 下 面 的 讨论 中 ,我们 将 称 第 一 种 执行 顺序 为 调度 1( 7, R oe 

ET, 之 后 )， 称 第 二 种 执行 顺序 为 调度 2(7, RE T, 之 后 ) 。 B := B + temp 
这 两 个 调度 是 串 行 的 (serial) 。 每 个 串 行 调度 由 来 自 各 事务 的 指令 ee 


序列 组 成 ， 其 中 属于 同一 事务 的 指令 在 调度 中 紧 挨 在 一 起 。 回 顾 组 合 数 
学 中 一 个 众所周知 的 公式 ,我 们 知道 ， 对 于 有 个 事务 的 事务 组 ， 共 有 
n! 个 不 同 的 有 效 串 行 调度 。 

当 数 据 库 系统 并 发 地 执行 多 个 事务 时 ， 相 应 的 调度 不 必 是 串 行 的 。 若 有 两 个 并 发 执行 的 事务 ， 
操作 系统 可 能 先 选 其 中 的 一 个 事务 执行 一 小 段 时 间 ， 然 后 切换 上 下 文 ， 执 行 第 二 个 事务 一 段 时 间 ， 
接着 又 切换 回 第 一 个 事务 执行 一 段 时 间 ， 如 此 下 去 。 在 多 个 事务 的 情形 下 ， 所 有 事务 共享 CPU 
时 间 。 

多 种 执行 顺序 是 有 可 能 的 ， 因 为 来 自 两 个 事务 的 各 条 指令 可 能 是 交叉 执行 的 。 一 般 而 言 ， 在 CPU 
切换 到 另 一 事务 之 前 准确 预测 CPU 将 执行 某 个 事务 的 多 少 条 指令 是 不 可 能 的 。- 

回 到 前 面 的 例子 ,假设 两 个 事务 并 发 执行 。 一 种 可 能 的 调度 如 图 14-4 所 示 ， 当 它 执行 完成 后 ， 我 
们 到 达 的 状态 与 先 执行 T, 后 执行 T, 的 串 行 调度 一 样 ，4 +B 之 和 保持 不 变 。 


图 14-2 调度 1: 一 个 串 行 
WARE, T, RET, 之 后 








Ti Th Tı IE 
read(4) read(4) 
temp := A *0.1 A:=A—50 
A := A — temp write(A) 
| write(A) | read(A) 
read(B) temp := A * 0.1 
B := B + temp A:=A — temp 
write(B) write(A) 
commit read(B) 
read(A) B:=B+50 
A:=A-—50 write(B) 
write(A) commit 
read(B) read(B) 
B:=B+50 B := B + temp 
write(B) write(B) 
commit commit 
图 14-3 调度 2; 一 个 串 行 调度 ，7, RE T, 之 后 图 14-4 调度 3: 等 价 于 调度 1 的 一 个 并 发 调度 


不 是 所 有 的 并 发 执行 都 能 得 到 正确 的 结果 。 举 个 例子 ,考虑 如 图 14-5 所 示 的 调度 ， 该 调度 执行 
后 ， 到 达 的 状态 是 账户 4 与 B 中 最 终 的 值 分 别 为 $8950 与 $2100。 这 个 最 终 状 态 是 一 个 不 一 致 状态 ， 因 


O 包含 ”个 事务 的 事务 组 的 可 能 调度 数量 非常 大 。 有 n! 个 不 同 的 串 行 调度 。 考 虑 所 有 的 事务 的 步骤 可 以 交错 的 方 
式 ， 调 度 的 总 数 要 比 n! 大 得 多 。 
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为 在 并 发 执行 过 程 中 多 出 了 $50。 实 际 上 ， 两 个 事务 执行 后 4+B 之 和 未 能 保持 不 变 。 

如 果 并 发 执行 的 控制 完全 由 操作 系统 负责 ， 许 多 调度 都 是 可 能 的 ， Re 
包括 像 上 述 调度 那样 使 数据 库 处 于 不 一 致 状态 的 调度 。 保 证 所 执行 的 eaaw | 
任何 调度 都 能 使 数据 库 处 于 一 致 状态 ， 这 是 数据 库 系统 的 任务 ,数据 ”4=A 一 50 





read(A) 





库 系统 中 负责 完成 此 任务 的 是 并 发 控制 ( concurrency-control) 部 件 。 | temp := A «0.1 
在 并 发 执行 中 ， 通 过 保证 所 执行 的 任何 调度 的 效果 都 与 没有 并 发 te 
执行 的 调度 效果 一 样 ， 我 们 可 以 确保 数据 库 的 一 致 性 。 也 就 是 说 , 调 | read(B) 
度 应 该 在 某 种 意义 上 等 价 于 一 个 串 行 调度 。 这 种 调度 称 为 可 串 行 化 ad | 
( serializable ) 调度 。 B:=B+50 | 
write(B) 
14. 6 可 串 行 化 ere | B = B + temp 
在 我 们 考虑 数据 库 系 统 并 发 控制 部 件 如 何 保证 串 行 化 之 前 ， 我 们 上 


考虑 如 何 确定 一 个 调度 是 可 串 行 化 的 。 显 然 ， 串 行 调度 是 可 串 行 化 的 ， 图 14-5 调度 4，_ 个 导 臻 下 

但 是 如 果 许 多 事务 的 步骤 交错 执行 ， 则 很 难 确定 一 个 调度 是 否 是 可 串 _ 致 状态 的 并 发 调度 

行 化 的 。 由 于 事务 就 是 程序 ， 因 此 要 确定 一 个 事务 有 哪些 操作 、 多 个 

事务 的 操作 如 何 相互 作用 是 有 困难 的 。 由 于 这 个 缘故 ， 我 们 将 不 会 考虑 一 个 事务 对 某 一 数据 项 可 执行 
的 各 种 不 同类 型 的 操作 ， 而 只 考虑 两 种 操作 : read 和 write。 我 们 这 样 假设 ， 在 数据 项 O 上 的 read(O) 
和 write(@) 指 令 之 间 ， 事 务 可 以 对 驻 留 在 事务 局 部 缓冲 区 中 的 @ 的 拷贝 执行 任意 操作 序列 。 按 这 种 模 
式 ， 从 调度 的 角度 来 看 ， 事 务 唯一 重要 的 操作 是 read 与 write 指令 。commit 操作 尽管 相关 ， 但 是 我 们 
到 14. 7 节 才 考虑 它 。 因 此 ， 我 们 在 调度 中 通常 只 显示 read 与 write 指令 ， 正 如 图 14-6 所 示 调 度 3 中 所 
表示 的 那样 。 





本 节 讨 论 不 同形 式 的 等 价 调度 ， 但 是 重点 关注 其 中 一 种 称 为 冲突 可 串 y 
4744, ( conflict serializability ) 的 形式 。 read(A) | 

我 们 考虑 一 个 调度 $， 其 中 含有 分 别 属于 7 与 7 的 两 条 连续 指令 和 与 1 wR 
(iz#j 门 。 如 果 7 与 J 引 用 不 同 的 数据 项 ， 则 交换 1 与 J 不 会 影响 调度 中 任何 | 
指令 的 结果 。 然 而 ， 若 1 与 ] 引用 相同 的 数据 项 0， 则 两 者 的 顺序 是 重要 Pa 
的 。 由 于 我 们 只 处 理 read 与 write 指令 ， 因 此 需 考虑 以 下 4 种 情形 ; read(B) 

1. 1= read(0) ，J=read(0)。7 与 J 的 次 序 无 关 紧要 ， 因 为 不 论 其 次 | 
Fray, 7, 45 7, 读 取 的 Q 值 总 是 相同 的 。 图 14-6 调度 3: 只 显示 


2. 7=read(Q)，J = write(O)。 若 7 先 于 J， 则 了 不 会 读 取 由 了 的 指 read 与 write 指令 
令 J 写 人 的 Q 值 ; 若 J 先 于 7， 则 人 读 到 由 了 SAW OT. Ar Ss 
次 序 是 重要 的 。 

3. I= write(Q), J= read(Q@)。7 与 /的 次 序 是 重要 的 ， 其 原因 类 似 前 一 情形 。 

4. 7= write(O) ，J = write(@) 。 由 于 两 条 指令 均 为 write 指令 ， 因 此 指令 的 顺序 对 7 与 7 没有 什 
么 影响 。 然 而 ， 调 度 5 的 下 一 条 read( 0Q) 指 令 读 取 的 值 将 受到 影响 ， 因 为 数据 库 里 只 保留 了 两 条 write 
指令 中 后 一 条 的 结果 。 如 果 在 调度 5 的 指令 [与 J 之 后 没有 其 他 的 write( 0) 指 令 ， 则 7 与 7 的 顺序 直接 
影响 调度 S 产生 的 数据 库 状态 中 0 的 最 终 值 。 

因此 ， 只 有 在 了 与 J 全 为 read 指令 时 ， 两 条 指令 的 执行 顺序 才 是 无 关 紧 要 的 。 

415 是 不 同事 务 在 相同 的 数据 项 上 的 操作 ， 并 且 其 中 至 少 有 一 个 是 write 指令 时 ， 我 们 说 了 与 
J 是 冲突 (conflict) 的。 

为 了 说 明 冲 突 指 令 的 概念 ， 我们 考虑 图 14-6 中 的 调度 3。7 的 write(4) 指 令 与 7 的 read(4) 指 令 
IR, IRT, T, 的 write(4) 指 令 与 7 的 read(B) 指 令 不 冲突 ， 因 为 两 条 指令 访问 不 同 的 数据 项 。 

设 7 与 J 了 是 调度 $ 的 两 条 连续 指令 。 若 1 与 是 属于 不 同事 务 的 指令 且 不 冲突 ， 则 可 以 交换 1 与 J 
的 顺序 得 到 一 个 新 的 调度 S 与 5' 等 价 ， 因 为 除了 7 与 外 ， 其 他 指令 的 次 序 与 原来 相同 ， 而 1 与 J 
的 顺序 无 关 紧 要 。 
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在 图 14-6 的 调度 3 中 ,由 于 也 的 write(4) 指 令 与 7, 的 read(8B) 指 令 不 冲突 ， 因 此 可 以 交换 这 些 
指令 得 到 一 个 等 价 的 调度 一 一 图 14-7 所 示 的 调度 5。 不 管 系统 初始 状态 如 何 ， 调 度 3 与 调度 5 均 得 到 
相同 的 最 终 系统 状态 。 








我 们 继续 交换 非 冲 突 指令 如 下 : i | 

© 交换 7, 的 read(B) 指 令 与 7, 的 read(4) 指 令 。 read(A) 

。 交换 7 的 write( B) 指令 与 也 的 write(4) 指 令 。 write(4) ne 

。 交换 T, 的 write(B) 指 令 与 7 的 read(4) 指 令 。 reed(B) 

经 过 以 上 交换 的 结果 是 一 个 串 行 调度 ， 即 图 14-8 所 示 的 调度 6。 ninm write(A) 
注意 调度 6 和 调度 1 完全 一 样 ， 但 是 后 者 只 显示 了 read 和 write 指令 。 read(B) 
这 样 ， 我 们 说 明了 调度 3 等 价 于 一 个 串 行 调度 。 该 等 价 性 意味 着 不 管 eae 


初始 系统 状态 如 何 ， 调 度 3 将 与 某 个 串 行 调度 产生 相同 的 最 终 状 态 。 图 14-7 调度 5: 交换 调度 3 
如 果 调 度 5 可 以 经 过 一 系列 非 冲 突 指令 交换 转换 成 $'， 我 们 称 5 的 一 对 指令 得 到 的 调度 
与 $ 是 冲突 等 价 (conflict equivalent) 的 。 S 


不 是 所 有 的 串 行 调度 相互 之 间 都 冲突 等 价 。 例 如 ， 调 度 1 和 调度 2 不 T b 
是 冲突 等 价 的 。 read(A) | 
由 冲突 等 价 的 概念 引出 了 冲突 可 串 行 化 的 概念 : 若 一 个 调度 5 与 一 个 wriat) 


BITER ON, IEKE S nh ATT IAE conflict serializable) 的 。 write) 
那么 ， 因 为 调度 3 冲突 等 价 于 串 行 调度 1， 所 以 调度 3 EMR RTE. wear 


最 后 ， 考 虑 图 14-9 所 示 的 调度 7; 该 调度 仅 包 含 事 务 7, 与 7, 的 重要 | read(B) 
操作 ( 即 read 与 write) 。 这 个 调度 不 是 冲突 可 串 行 化 的 ， 因 为 它 既 不 等 价 | writetB) 
于 串 行 调 度 < T,, T, >, HASSE < T, T) >。 图 14-8 调度 6: 与 调度 3 


为 确定 一 个 调度 是 否 冲突 可 串 行 化 ,我们 这 里 给 出 了 一 个 简单 有 效 的 ”等 价 的 一 个 串 行 调度 
方法 。 设 5 是 一 个 调度 ,我 们 由 5 构造 一 个 有 向 图 ， 称 为 优先 图 
(precedence graph) 。 该 图 由 两 部 分 组 成 G=(V, E), HAV AMAR, 已 是 边 集 ， 顶 点 集 由 所 有 参与 


调度 的 事务 组 成 ， 边 集 由 满足 下 列 三 个 条 件 之 一 的 边 了 一 7 组 成 : we 
e 在 7 执行 read(0) 之 前 ,7 执行 write(Q)。 read(Q) 
。 在 7 执行 write(Q) ZA, T, 执行 read(O) 。 WE 


e TET, 执行 write(Q) 之 前 ，7 执行 write( Q). | 
如 果 优 先 图 中 存在 边 7. 一 7,， 则 在 任何 等 价 于 5 的 串 行 调度 5' 中 ,7 必 出 图 14-9 调度 7 


现在 7 之 前 。 


a) b) 
图 14-10 a) 调度 1 与 b) 调 度 2 的 优先 图 


例如 ， 调 度 1 的 优先 图 如 图 14-10a 所 示 ， 图 14-10a 中 只 有 一 条 边 7, 一 7,， 因 为 7, 的 所 有 指令 均 
E T, 的 首 条 指令 之 前 执行 。 类 似 地 ， 图 14- 10b 表示 的 是 调度 2 的 优先 图 ， 该 图 仅 含 一 条 边 T, >T, 
因为 7 的 所 有 指令 均 在 7 的 首 条 指令 之 前 执行 。 

调度 4 的 优先 图 如 图 14-11 ras, AA T, 执行 read(4) 先 于 7, 执行 write(4) ， 所 以 图 14-11 含有 
AT >T, XA T, 执行 read(B) 先 于 7 执行 write(B) ， 所 以 图 14-11 还 含有 边 T, >T. 

如 果 调 度 5 的 优先 图 有 环 ， 则 调度 S 是 非 冲 突 可 串 行 化 的 ， 如 果 优 先 图 无 环 ， 则 调度 S 是 冲突 可 
串 行 化 的 。 


O 们 用 冲突 等 价 这 个 术语 把 刚刚 定义 的 等 价 和 本 节 后 面 将 介绍 的 其 他 定义 区 别 开 。 
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串 行 化 顺序 ( serializability order) 可 通过 拓扑 排序 (topological sorting) 得到， 拓扑 排序 用 于 计算 与 优 
先 图 的 偏 序 相 一 致 的 线性 顺序 。 一 般 而 言 ， 通 过 拓扑 排序 可 以 获得 多 个 线 


性 顺序 。 例 如 ， 图 14-12a 有 两 种 可 接受 的 线性 顺序 ， 如 图 14-12b 与 图 14- 
因此 ， 要 判定 冲突 可 串 行 化 ， 需 要 构造 优先 图 并 调用 一 个 环 检测 算 D Ce) 


法 。 环 检测 算法 可 在 标准 的 算法 课本 中 找到 。 环 检测 算法 ， 例 如 那些 基于 


12c 所 示 。 


深度 优先 搜索 的 环 检测 算法 ,需要 nn? 数量 级 的 运算 ， 其 中 站 是 优先 图 中 图 14-11 


顶点 数 ( 即 事务 数 ) 。 


调度 4 的 优先 图 


回 到 前 面 的 例子 ， 注 意 到 调度 1 与 调度 2 的 优先 图 ( 见 图 14-10) 的 确 不 包含 环 。 而 调度 4 的 优先 图 


( 见 图 14-11) 却 有 一 个 环 ， 说 明 该 调度 不 是 冲突 可 串 行 化 的 。 

有 可 能 存在 两 个 调度 ,它们 产生 相同 的 结果 ,但 它们 不 
是 冲突 等 价 的 。 例 如 ， 考 虑 事务 7;， 它 从 账户 B 过 户 $10 到 
账户 4。 设 调度 8 如 图 14-13 所 示 。 我 们 说 调度 8 不 与 串 行 调 
E <T, T> 冲突 等 价 ， 因 为 在 调度 8 H, T, 的 write(B) 指 
令 与 7 的 read(B) 指 令 冲 突 。 这 在 优先 图 中 产生 了 一 条 7; 一 
T, 的 边 。 类 似 地 ， 我 们 看 到 T, 的 write(4) 指 令 与 7 的 read 指 
令 冲 突 ， 产生 了 一 条 也 一 五 的 边 。 这 表示 优先 图 有 环 ， 即 调度 
8 不 是 可 串 行 化 的 。 然 而 ， 执 行 调 度 8 REPITE < Tl, T, > 
后 ， 账 户 4 与 B 中 最 终 的 值 是 相同 的 ， 即 分 别 为 $960 与 $2040。 

从 这 个 例子 可 以 看 出 ， 存 在 比 冲突 等 价 定 义 限制 松 一 些 
的 调度 等 价 定义 。 对 于 系统 来 说 ， 要 确定 调度 8 与 串 行 调度 
< T, T; > 产生 的 结果 相同 ， 系 统 必须 分 析 7, 与 所 进行 
的 计算 ， 而 不 只 是 分 析 其 read 和 write 操作 。 通 常 ， 这 种 分 
析 难 于 实现 并 且 计 算 代价 很 大 。 在 该 例子 中 ， 最 后 的 结果 和 
串 行 调度 是 一 样 的 ， 因 为 从 数学 的 角度 递增 和 递减 是 可 交换 
的 。 虽 然 这 在 该 例子 中 比较 简单 ， 但 是 一 般 情况 下 并 非 如 
此 ， 因 为 一 个 事务 可 能 会 表示 为 一 条 复杂 的 SQL 语句 ， 或 一 
个 有 JDBC 调用 的 Java 程序 等 。 

不 过 ， 存 在 一 些 别 的 纯粹 基于 read 与 write 操作 的 调度 
等 价 定义 。 其 中 一 个 是 视图 等 价 ， 并 且 引 出 视图 可 串 行 化 的 
概念 。 视 图 可 串 行 化 因为 其 计算 的 高 度 复杂 性 在 实际 中 并 不 
常用 。 因此， 我 们 推迟 到 第 15 章 中 再 讨论 视图 可 串 行 化 ， 


图 14-12 拓扑 排序 示例 


但 是 为 了 表述 完整 起 见 ， 这 儿 请 注意 ， 调 度 8 的 例子 不 是 视图 可 串 行 化 的 。 


五 3 五 
read(4) 
4:=4 一 50 
Write(4) 
read(B) 
B:=B-—10 
write(B) 
read(B) 
B:=B+50 
write(B) 
read(A) 
A:=A+10 
write(A) 


图 14-13 调度 8 








后 “判定 调度 是 否 视图 可 串 行 化 的 问题 已 被 证 明 是 属于 NP - 完全 问题 ， 因 此 几乎 肯定 不 存在 有 效 的 判定 视图 可 串 行 


化 的 算法 。 
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14.7 事务 隔离 性 和 原子 性 
至 此 ， 我们 在 隐 含 地 假定 无 事务 故障 的 前 提 下 学 习 了 调度 。 现 在 我 们 讨论 在 并 发 执行 过 程 中 事务 


642 
646 | 故障 所 产生 的 影响 。 


[648 | 


不 论 什 么 原因 ， 如 果 事务 7, 失败 了 ,我们 必须 撤销 该 事务 的 影响 以 确保 其 原子 性 。 在 允许 并 发 执 
行 的 系统 中 ， 原 子 性 要 求 依赖 于 T, 的 任何 事务 7,( 即 T 读 取 了 7, 写 的 数据 ) 也 中 止 。 为 确保 这 一 点 ， 
我 们 需要 对 系统 所 允许 的 调度 类 型 做 一 些 限制 。 

在 下 面 两 节 中 ， 我 们 从 事务 故障 恢复 的 角度 讲述 什么 样 的 调度 是 可 接受 的 ， 第 15 章 将 讲述 如 何 保 
证 只 产生 这 种 可 接受 的 调度 。 

14.7.1 可 恢复 调度 

考虑 图 14-14 所 示 的 部 分 调度 9， 其 中 事务 7, 只 执行 一 条 指令 : read (4A) 。 我 们 称 之 为 部 分 调度 
(partial schedule) ， 因 为 在 T, 中 没有 包括 commit 或 abort 操作 。 注 意 T, 执行 read( 4) 指令 后 立即 提 
交 。 因 此 T, 提交 时 T, 仍 处 于 活路 状态 。 现 假定 T, 在 提交 前 发 生 故 障 。7, 已 读 取 了 由 T, 写 入 的 数据 
项 4 的 值 。 因 此 ， 我 们 说 T, 依赖 (dependent) F Tss Rik, 我们 必须 中 止 T, 以 保证 事务 的 原子 性 。 但 
T, 已 提交 ， 不 能 再 中 止 。 这 样 就 出 现 了 T, 发 生 故障 后 不 能 正确 恢复 的 情形 。 

调度 9 是 不 可 恢复 调度 的 一 个 例子 。 一 个 可 恢复 调度 ( recoverable schedule ) 应 yr 
满足 ; 对 于 每 对 事务 7, MT, WR T, 读 取 了 之 前 由 7, 所 写 的 数据 项 , MT EF adm 
T 提交 。 例 如， 如 果 要 使 调度 9 是 可 恢复 的 ， 则 7 应 该 推迟 到 T 提交 后 再 提交 。 WEA | 
14.7.2 无 级 联 调度 | commit 

即使 一 个 调度 是 可 恢复 的 ， 要 从 事务 T 的 故障 中 正确 恢复 ,可 能 需要 回 滚 O 
若干 事务 。 当 其 他 事务 读 取 了 由 事务 7, 所 写 数据 项 时 就 会 发 生 这 种 情形 。 举 一 Fl 调度 9 
个 例子 ， 考 虑 图 14-15 所 示 的 部 分 调度 。 事 务 7, 写 人 4 的 值 ， 事务 7, 读 取 了 4 TARNA 
的 值 。 事务 7, 写 人 4 的 值 ， 事 务 BRT 4 的 值 。 假定 此 时 事务 7, 失败 ,7, 必须 回 滚 。 由 于 T 依 
MF, RERS T 必须 回 滚 。 由 于 7 依赖 于 7,， 因 此 Tu 必须 回 滚 。 这 种 因 单个 事务 故障 导致 一 系 
列 事务 回 滚 的 现象 称 为 级 联 回 滚 (cascading rollback) 。 

级 联 回 滚 导致 撤销 大 量 工作 ， 是 我 们 不 希望 发 生 的 。 我 们 希望 对 调 ge | pim 
度 加 以 限制 ， 避 免 级 联 回 滚 发 生 。 这 样 的 调度 称 为 无 级 联 调度 。 规 范 地 reada) | 


说 ， 无 级 联 调度 ( cascadeless schedule) 应 满足 : 对 于 每 对 事务 7, 和 7， 








如 果 T, 读 取 了 先前 由 7; 所 写 的 数据 项 ， 则 T, 必须 在 T, 这 一 读 操作 前 提 reac) | 
交 。 容 易 验证 每 一 个 无 级 联 调度 也 都 是 可 恢复 的 调度 。 iat roi 
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图 14-15 调度 10 

可 串 行 性 是 一 个 有 用 的 概念 ， 因 为 当 程 序 员 对 事务 编码 时 ， 它 允许 
程序 员 忽略 与 并 发 性 相关 的 问题 。 如 果 事 务 在 独立 执行 时 保证 数据 库 一 致 性 ， 那 么 可 串 行 性 就 能 确保 
并 发 执行 时 也 具有 一 致 性 。 然 而 ， 对 于 某 些 应 用 ， 保 证 可 串 行 性 的 那些 协议 可 能 只 允许 极 小 的 并 发 度 。 
在 这 种 情况 下 ， 我 们 采用 较 弱 级 别 的 一 致 性 。 为 了 保证 数据 库 的 正确 性 ， 使 用 较 弱 级 别 一 致 性 给 程序 
员 增 加 了 额外 负担 。 

SQL 标准 也 允许 一 个 事务 这 样 规 定 : 它 可 以 以 一 种 与 其 他 事务 不 可 串 行 化 的 方式 执行 。 例 如 ， 一 
个 事务 可 能 在 未 提交 读 级 别 上 操作 ， 这 里 允许 事务 读 取 甚 至 还 未 提交 的 记录 。SQL 为 那些 不 要 求 精确 
结果 的 长 事务 提供 这 种 特征 。 如 果 这 些 事务 要 在 可 串 行 化 的 方式 下 执行 ， 它 们 就 会 干扰 其 他 事务 ， 造 
成 其 他 事务 执行 的 延迟 。 

SQL 标准 规定 的 隔离 性 级 别 如 下 。 

© 可 串 行 化 (serializable) : 通常 保证 可 串 行 化 调度 。 然 而 ， 正 如 我 们 将 要 解释 的 ， 一 些 数据 库 系 

统 对 该 隔离 性 级 别 的 实现 在 某 些 情 况 下 允许 非 可 串 行 化 执行 。 


第 14 章 事 3 


© 可 重复 读 ( repeatable read); 只 允许 读 取 已 提交 数据 ， 而 且 在 一 个 事务 两 次 读 取 一 个 数据 项 期 
间 ， 其 他 事务 不 得 更 新 该 数据 。 但 该 事务 不 要 求 与 其 他 事务 可 串 行 化 。 例 如 : 当 一 个 事务 在 查 
找 满 足 某 些 条 件 的 数据 时 ， 它 可 能 找到 一 个 已 提交 事务 插 和 人 的 一 些 数 据 ， 但 可 能 找 不 到 该 事务 
插入 的 其 他 数据 。 
© 已 提交 读 (read committed): 只 允许 读 取 已 提交 数据 ， 但 不 要 求 可 重复 读 。 比 如 ， 在 事务 两 次 读 
取 一 个 数据 项 期 间 ， 另 一 个 事务 更 新 了 该 数据 并 提交 。 
。 未 提交 读 (read uncommitted): 允许 读 取 未 提交 数据 。 这 是 SQL 允许 的 最 低 一 致 性 级 别 。 
以 上 所 有 隔离 性 级 别 都 不 允许 脏 写 ( dirty write) ， 即 如 果 一 个 数据 项 已 经 被 另外 一 个 尚未 提交 或 中 
止 的 事务 写 入 ， 则 不 允许 对 该 数据 项 执行 写 操作 。 
许多 数据 库 系统 运行 时 的 默认 隔离 性 级 别 是 已 提交 读 。 在 SQL 中 ， 除 了 接受 系统 的 默认 设置 ， 还 
可 以 显 式 地 设置 隔离 性 级 别 。 例 如 ， 语 名 ”set transaction isolation level serializable; "将 隔离 性 级 别 设 
置 为 可 串 行 化 ， 其 他 隔离 性 级 别 可 类 似 设 定 。Oracle 、PostgreSQL 和 SQL Server 均 支 持 上 述 语法 。DB2 
使 用 语法 “change isolation level” 以 及 其 自身 提供 的 隔离 性 级 别 缩写 。 
修改 隔离 性 级 别 必须 作为 事务 的 第 一 条 语句 执行 。 此 外 ， 如 果 单 条 语句 的 自动 提交 默认 打开 ， 则 
必须 关闭 ; 可 以 采用 API 函数 来 做 这 件 事 , 例如 我 们 在 5.1.1.7 节 中 看 到 的 JDBC 方法 
Connection. setAutoCommit( false )。 此 外 ， 在 JDBC 方法 中 ，Connection. setTransactionlsolation ( int 
level) 可 以 用 来 设置 隔离 性 级 别 。 更 多 细节 请 参阅 JDBC 手册 . 
一 个 应 用 程序 设计 者 可 能 会 为 了 提高 系统 性 能 而 接受 较 弱 的 隔离 性 级 别 。 正 如 我 们 将 在 14. 9 节 和 
第 15 章 所 看 到 的 ， 确 保 可 串 行 化 可 能 会 迫使 一 个 事务 等 待 另 一 个 事务 ， 或 者 在 某 些 情况 下 ， 由 于 该 事 
务 无 法 作为 可 串 行 化 执行 的 一 部 分 而 被 迫 中 止 。 虽 然 为 了 性 能 可 能 会 带 来 短暂 的 数据 库 不 一 致 风险 ， 
但 是 如 果 我 们 能 确保 这 种 不 一 致 性 是 和 应 用 程序 无 关 的 ， 则 这 种 权衡 是 合理 的 。 
实现 隔离 性 级 别 有 很 多 方法 。 只 要 实现 确保 可 串 行 化 ， 数 据 库 应 用 程序 的 设计 者 或 者 应 用 程序 的 用 
户 就 不 需要 知道 这 些 实现 的 细节 ， 除 非 需 要 处 理性 能 问题 。 遗 憾 的 是 ， 尽 管 隔离 性 级 别 设置 为 可 串 行 化 ， 
但 一 些 数 据 库 系 统 实际 上 采用 了 较 弱 的 隔离 性 级 别 来 实现 ， 这 并 不 排除 所 有 非 可 串 行 化 的 可 能 性 。 我们 
将 在 14. 9 节 再 次 讨论 这 个 问题 。 如 果 无 论 显 式 地 或 隐 式 采用 较 弱 的 隔离 性 级 别 ， 则 应 用 程序 的 设计 者 必 
须知 道 一 些 实现 细节 ， 从 而 避免 或 者 最 小 化 由 于 缺乏 可 串 行 化 保证 所 带 来 的 不 一 致 的 可 能 性 。 


现实 世界 中 的 可 串 行 化 

可 串 行 化 调度 是 保证 一 致 性 的 理想 方法 ， 但 是 在 日 常 工作 中 ,我们 无 需 如 此 严格 的 和 要求。 一 个 
提供 商品 销售 的 网 站 可 能 会 列 出 某 个 存货 商品 ， 当 一 个 用 户 选 择 该 商品 并 且 在 结账 过 程 中 ， 该 商品 
是 不 可 用 的 。 从 数据 库 的 角度 来 看 ， 这 就 是 一 个 不 可 重复 读 。 

作为 另 一 个 例子 ， 考 虑 在 航空 旅行 中 选择 座位 。 假 设 一 个 旅客 已 经 预订 好 行程 ， 并 且 正 在 为 每 次 
航班 选择 座位 。 许 多 航空 公司 的 网 站 允许 用 户 查 看 不 同 的 航班 来 选择 一 个 座位 ， 然 后 要 求 用户 确 认 该 
选择 。 而 其 他 旅客 也 可 能 同时 正在 选择 同样 航班 的 座位 或 者 更 改选 择 的 座位 。 因此， 旅客 看 到 的 空余 
羡 位 事实 上 是 变化 的 ， 但 是 旅客 所 看 到 的 只 是 当 他 开始 座位 选择 流程 时 空余 座位 的 一 个 快照 : 

即使 两 个 旅客 同时 选择 座位 ， 他 们 很 可 能 选择 不 同 的 座位 ， 也 不 会 发 生 冲 突 。 然 而 ， 事 务 是 非 
可 串 行 化 的 ， 由 于 一 个 旅客 读 取 的 数据 是 此 前 其 他 旅客 更 新 的 ， 会 导致 优先 图 中 的 一 个 环 。 如 果 两 
个 旅客 同 时 选择 了 一 个 产 位 ， 其 中 的 一 个 则 不 会 获得 他 所 选择 的 座位 。 不 过 ， 这 种 情况 很 容易 解决 ， 
只 要 在 更 新 的 空余 座位 信息 上 ， 要 求 这 个 旅客 再 次 选择 即 可 。 

通过 限制 一 个 时 刻 只 允许 一 个 用 户 选 择 菜 一 个 航班 的 座位 ， 可 保证 可 串 行 化 。 然 而 ， 这 样 做 可 
能 会 带 来 很 显著 的 延迟 ， 因 为 旅客 需要 等 待 他 的 航班 变 成 可 以 选择 座位 。 特 别 地 ， 如 果 一 个 旅客 花 
费 很 长 时 间 来 选择 一 个 座位 ， 则 会 给 其 他 旅客 带 来 严重 问题 。 另 外 的 做 法 是 ， 这 类 事务 通常 可 以 分 
成 一 个 需要 用 户 交 互 的 部 分 以 及 一 个 专门 在 数据 库 上 运行 的 部 分 。 在 上 述 例 子 中 ， 数 据 库 事务 将 检 
查 旅 客 选 中 的 座位 是 否 仍然 空闲 ， 如果 是 ， 则 更 新 数据 库 中 的 座位 选择 信息 。 只 有 在 没有 用 户 交 互 
的 情况 下 ， 数 据 库 上 运行 的 事务 才能 保证 可 串 行 化 。 
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14.9 隔离 性 级 别 的 实现 


至 此 ， 我 们 已 经 知道 一 个 调度 应 具有 什么 样 的 特性 才能 保证 数据 库 处 于 一 致 状态 ， 并 保证 事务 故 
障 得 以 安全 地 处 理 。 

我 们 可 以 使 用 多 种 并 发 控制 机 制 ( concurrency-control scheme) 来 保证 ， 即 使 在 有 多 个 事务 并 发 执行 

时 ， 不 管 操 作 系统 在 事务 之 间 如 何 分 时 共享 资源 (如 CPU 时 间 ) ， 都 只 产生 可 接受 的 调度 。 

举 一 个 并 发 控制 机 制 的 简单 例子 ， 考 虑 如 下 机 制 : 一 个 事务 在 开始 前 获得 整个 数据 库 的 锁 (lock ) ， 
并 在 它 提 交 之 后 释放 这 个 锁 。 当 一 个 事务 持 有 锁 时 ， 其 他 事务 就 不 允许 获得 这 个 锁 ， 因 此 必须 等 待 锁 
释放 。 由 于 采用 了 封锁 策略 ， 因 此 一 次 只 能 执行 一 个 事务 。 所 以 只 会 产生 串 行 调度 。 这 样 的 调度 很 明 
显 是 可 串 行 化 的 ， 并 且 容 易 证 明 也 是 可 恢复 的 和 无 级 联 的 。 

这 样 的 并 发 控制 机 制 的 性 能 低下 ， 因 为 它 迫 使 事务 等 到 前 面 的 事务 结束 后 才能 开始 。 换 句 话 说， 
这 种 机 制 提供 的 并 发 程度 很 低 。 正 如 我 们 在 14. 5 节 中 看 到 的 那样 ， 并 发 执行 有 诸多 性 能 方面 的 益处 。 

并 发 控制 机 制 的 目的 是 获得 高 度 的 并 发 性 ， 同 时 保证 所 产生 的 调度 是 冲突 可 串 行 化 或 视图 可 串 行 
化 的 、 可 恢复 的 ， 并 且 是 无 级 联 的 。 

下 面 大 致 介绍 一 些 重要 的 并 发 控制 机 制 是 如 何 工 作 的 ， 然 后 第 15 章 会 介绍 更 多 细节 。 
14.9.1 $ 


一 个 事务 可 以 封锁 其 访问 的 数据 项 ， 而 不 用 封锁 整个 数据 库 。 在 这 种 策略 下 ， 事 务必 须 在 足够 长 
的 时 间 内 持 有 锁 来 保证 可 串 行 化 ， 但 是 这 一 周期 又 要 足够 短 致使 不 会 过 度 影响 性 能 。 对 于 我 们 将 在 
14. 10 节 中 看 到 的 数据 项 的 访问 依赖 于 一 条 where 子 句 的 SQL 语句 则 情况 更 为 复杂 。 第 15 章 将 介绍 一 
个 简单 并 且 广 泛 用 来 确保 可 串 行 化 的 两 阶段 封锁 协议 。 简 单 地 说 ， 两 阶段 封锁 要 求 一 个 事务 有 两 个 阶 
段 ， 一 个 阶段 只 获得 锁 但 不 释放 锁 ， 第 二 个 阶段 只 释放 锁 但 是 不 获得 锁 。( 实际 上 ， 通 常 只 有 当 事 务 完 
成 所 有 操作 并 且 提 交 或 中 止 时 才 释 放 锁 。) 

如 果 我 们 有 两 种 锁 ， 则 封锁 的 结果 将 进一步 得 到 改进 : 共享 的 和 排他 的 。 共 享 锁 用 于 事务 读 的 数 
据 项 ， 而 排他 锁 用 于 事务 写 的 数据 项 。 许 多 事务 可 以 同时 持 有 一 个 数据 项 上 的 共享 锁 ， 但 是 只 有 当 其 
他 事务 在 一 个 数据 项 上 不 持 有 任何 锁 ( 无 论 共 享 锁 或 排他 锁 ) 时 ， 一 个 事务 才 允 许 持 有 该 数据 项 上 的 排 
他 锁 。 这 两 种 锁 模式 以 及 两 阶段 封锁 协议 在 保证 可 串 行 化 的 前 提 下 人 允许 数据 的 并 发 读 。 

14.9.2 WER 

另 一 类 用 来 实现 隔离 性 的 技术 为 每 个 事务 分 配 一 个 时 间 戳 (timestamp) ， 通 常 是 当 它 开始 的 时 候 。 

对 于 每 个 数据 项 ， 系 统 维护 两 个 时 间 戳 。 数 据 项 的 读 时 间 戳 记录 读 该 数据 项 的 事务 的 最 大 ( 即 最 近 的 ) 
时 间 戳 。 数 据 项 的 写 时 间 戳 记录 写 人 该 数据 项 当前 值 的 事务 的 时 间 戳 。 时 间 惟 用 来 确保 在 访问 冲突 情 

况 下 ， 事 务 按照 事 务 时 间 惟 的 顺序 来 访问 数据 项 。 当 不 可 能 访问 时 ， 违 例 事务 将 会 中 止 ， 并 且 分 配 一 

个 新 的 时 间 惟 重新 开始 。 

14.9.3 多 版 本 和 快照 隔离 

通过 维护 数据 项 的 多 个 版 本 ， 一 个 事务 允许 读 取 一 个 旧版 本 的 数据 项 ， 而 不 是 被 另 一 个 未 提交 或 
者 在 串 行 化 序列 中 应 该 排 在 后 面 的 事务 写 人 的 新 版 本 的 数据 项 。 有 许多 多 版 本 并 发 控制 技术 。 其 中 一 
个 是 实际 中 广泛 应 用 的 称 为 快照 隔离 (snapshot isolation) 的 技术 。 

在 快照 隔离 中 ， 我 们 可 以 想象 每 个 事务 开始 时 有 其 自身 的 数据 库 版 本 或 者 快照 。° 它 从 这 个 私有 
版 本 中 读 取 数据 ， 因 此 和 其 他 事务 所 做 的 更 新 隔离 开 。 如 果 事 务 更 新 数据 库 ， 更 新 只 出 现在 其 私有 版 
本 中 ， 而 不 是 实际 的 数据 库 本 身 中 。 当 事务 提交 时 ， 和 更 新 有 关 的 信息 将 保存 ， 使 得 更 新 被 写 人 “真正 
的 ”数据库 。 

当 一 个 事务 7 进入 部 分 提交 状态 后 ， 只 有 在 没有 其 他 并 发 事务 已 经 修改 该 事务 想 要 更 新 的 数据 项 
的 情况 下 ， 事 务 进 入 提交 状态 。 而 不 能 提交 的 事务 则 中 止 。 


O ”当然 ,在 现实 中 ， 不 会 复制 整个 数据 库 。 只 有 改变 的 数据 项 才 会 保留 多 个 版 本 。 
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快照 隔离 可 以 保证 读数 据 的 尝试 永远 无 须 等 待 ( 不 像 封 锁 的 情况 )。 只 读 事务 不 会 中 止 ; 只 有 修改 
数据 的 事务 有 微小 的 中 止 风险 。 由 于 每 个 事务 读 取 它 自己 的 数据 库 版 本 或 快照 ， 因 此 读数 据 不 会 导致 
此 后 其 他 事务 的 更 新 尝试 被 迫 等 待 (不 像 封锁 的 情况 ) 。 因 为 大 部 分 事务 是 只 读 的 (并 且 大 多 数 其 他 事 
务 读数 据 的 情况 多 于 更 新 ) ， 所 以 这 是 与 锁 相 比 往往 带 来 性 能 改善 的 主要 原因 。 

矛盾 的 是 ， 快 照 隔 离 带 来 的 问题 是 它 提 供 了 太 多 的 隔离 。 考 虑 两 个 事务 7 和 7"。 在 一 个 串 行 化 调 
度 中 ， 要 么 了 看 到 有 所 做 的 所 有 更 新 ， 要 么 了 看 到 了 所 做 的 所 有 更 新 ， 因 为 在 串 行 化 顺序 中 一 个 必须 
在 另 一 个 之 后 。 在 快照 隔离 下 ， 任 何事 务 都 不 能 看 到 对 方 的 更 新 。 这 是 在 串 行 化 调度 中 不 会 出 现 的 。 
在 许多 (事实 上 ， 大 多 数 ) 情 况 下 ， 两 个 事务 的 数据 访问 不 会 冲突 ， 因 此 没有 什么 问题 。 然 而 ， 如 果 了 
读 取 7 更 新 的 某 些 数 据 项 并 且 7' 读 取 7 了 更 新 的 某 些 数据 项 ， 则 可 能 两 个 事务 都 无 法 读 取 对 方 的 更 新 。 
结果 可 能 会 导致 我 们 将 会 在 第 15 章 看 到 的 数据 库 不 一 致 状态 ， 而 这 个 在 可 串 行 化 执行 中 当然 是 不 会 出 
现 的 。 

Oracle, PostgreSQL 和 SQL Server 提供 快照 隔离 的 选项 。Oracle 和 PostgreSQL 使 用 快照 隔离 来 实现 
可 串 行 化 隔离 级 别 。 因 此 ， 它 们 的 可 串 行 化 的 实现 在 某 些 特殊 的 情况 下 会 导致 多 许 一 个 非 可 串 行 化 的 
调度 。 而 SQL Server 在 标准 级 别 以 外 增加 了 一 个 称 为 快照 的 隔离 性 级 别 ， 来 提供 快照 隔离 选项 。 


14. 10 ”事务 的 SQL 语句 表示 


4.3 节 介绍 了 SQL 中 标识 事务 开始 和 结束 的 语法 。 现 在 我 们 已 经 介绍 过 一 些 保持 事务 ACID 特性 的 
问题 ， 我 们 已 经 准备 好 考虑 如 何在 用 一 系列 SQL 语句 表示 事务 时 保证 这 些 特性 ， 而 不 像 到 目前 为 止 我 
们 仅 限 制 了 简单 的 读 和 写 的 模型 。 

在 简单 模型 中 ， 我 们 假设 存在 一 些 数据 项 集合 。 虽 然 我 们 允许 数据 项 的 值 改 变 ， 但 是 不 允许 数据 
项 被 创建 或 删除 。 然 而 ， 在 SQL 中 ，insert 语句 用 来 创建 新 数据 ，delete 语句 用 来 删除 数据 。 事 实 上 ， 
这 两 条 语句 是 write 操作 ， 因 为 它们 改变 了 数据 库 ， 但 是 它们 与 其 他 事务 操作 的 交互 与 我 们 在 简单 模 
型 中 看 到 的 不 同 。 例 如 ,考虑 如 下 在 大 学 数据 库 上 的 查询 语句 ， 查 找 所 有 工资 超过 $9000 的 教师 。 


select /D, name 
from instructor 
where salary > 90000; 


采用 示例 的 关系 instructor ( 见 附录 A.3) ， 我 们 发 现 只 有 Einstein 和 Brandt 满足 条 件 。 现 在 假设 在 执 
行 该 查询 的 同一 时 间 ， 另 外 一 个 用 户 插入 一 条 新 的 名 为 “James" 并且 工资 为 $10 000 的 教师 数据 。 


insert into instructor values ('11111'，James ,'Marketing’, 100000) ; 


查询 结果 会 取决 于 该 插 人 是 先 于 还 是 后 于 执行 的 查询 而 有 所 不 同 。 在 这 两 个 事务 的 并 发 执行 中 ， 
从 直观 上 看 它们 是 冲突 的 ， 然 而 这 种 冲突 在 简单 模型 中 无 法 发 现 。 这 种 情况 称 为 幻象 现象 ( phantom 
phenomenon) ， 因 为 冲突 存在 于 一 个 “幻象 ”数据 上 。 

简单 事务 模型 要 求 提供 一 个 具体 的 数据 项 作为 操作 的 参数 来 执行 在 该 数据 项 上 的 操作 。 在 简单 模 
型 中 ,我们 从 read 和 write 步骤 中 就 可 以 看 到 哪个 数据 项 被 使 用 。 但 是 在 一 条 SQL 语句 中 ， 具 体 的 数 
据 项 (元 组 ) 可 能 被 一 条 where 语句 中 的 谓词 所 决定 。 因 此 ， 如 果 在 事务 多 次 运行 之 间 数 据 库 发 生 改 
变 ， 那么 即使 是 同一 个 事务 ， 在 多 次 不 同 运行 中 也 可 能 会 使 用 不 同 的 数据 项 。 

解决 上 述 问题 的 一 种 方法 是 要 认识 到 在 并 发 控制 时 仅 考虑 事务 访问 的 元 组 是 不 够 的 ; 并 发 控制 还 
需要 考虑 找到 事务 访问 元 组 所 需 的 信息 。 这 些 用 于 寻找 元 组 的 信息 可 能 会 被 插入 和 删除 所 更 新 ， 或 者 
在 有 索引 的 情况 下 ， 该 信息 还 可 能 由 于 搜索 键 属性 更 新 而 更 新 。 例 如 ， 如 果 采 用 封锁 机 制 来 进行 并 发 
控制 ， 则 用 于 追踪 关系 中 元 组 的 数据 结构 ， 以 及 索引 结构 都 必须 适当 地 封锁 。 然 而 ， 这 种 封锁 可 能 会 
在 一 些 情况 下 导致 低 的 并 发 度 。 最 大 化 并 发 性 的 索引 封锁 协议 将 会 在 15.8.3 节 介 绍 ， 它 在 插入 、 删 
除 、 带 有 谓词 的 查询 中 都 保证 了 可 串 行 化 。 

让 我 们 再 次 考虑 查询 : 
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select ID, name 
from instructor 
where salary > 90000 ; 


和 以 下 SQL 更 新 : 
update instructor 
set salary = salary * 0.9 
where name ='Wu’'; 
我 们 在 判断 该 查询 到 底 是 否 和 这 条 更 新 语句 冲突 时 面临 一 个 有 趣 的 现象 。 如 果 我 们 的 查询 读 取 整 
个 instructor 关系 ， 则 它 读 取 了 与 ‘Wu?’ 相关 的 元 组 ， 因 此 和 更 新 冲突 。 然 而 ， 如 果 存 在 索引 ， 使 得 该 查 
询 可 以 直接 访问 salary > 90 000 的 元 组 ， 则 该 查询 根本 不 会 访问 “Wu ' 的 元 组 ， 因 为 在 该 实例 关系 中 
“Wu’ 的 初始 工资 为 890 000， 且 更 新 后 减少 为 $81 000。 
但 是 ， 使 用 上 述 方法 ， 看 起 来 一 个 冲突 是 否 存在 依赖 于 底层 系统 的 查询 处 理 决 策 ， 而 与 用 户 级 两 
条 SQL 语句 的 含义 无 关 ! 另 一 种 并 发 控制 方法 是 如 果 一 次 插入 、 删 除 、 更 新 会 影响 一 个 谓词 所 选择 的 
元 组 ， 则 将 其 看 作 与 关系 上 的 谓词 冲突 。 在 上 述 例子 的 查询 中 ， 谓 词 是 "salary > 90 000”， 则 一 个 将 
“Wu 的 工资 从 $90 000 更 新 为 比 $90 000 更 高 的 更 新 ， 或 者 将 "Einstein ' 的 工资 从 高 于 $90 000 更 新 到 
低 于 或 等 于 $90 000 的 更 新 都 会 和 谓词 发 生 冲突 。 基 于 这 种 思想 的 封锁 称 为 谓词 锁 ( predicate locking ) 。 
然而 ， 这 种 封锁 代价 大 ， 因 此 实际 中 很 少 使 用 。 


14.11 总 结 


。 事务 是 一 个 程序 执行 单位 ， 它 访问 且 可 能 更 新 不 同 的 数据 项 。 理 解 事务 这 个 概念 对 于 理解 与 实现 数 
据 库 中 的 数据 更 新 是 很 关键 的 ， 只 有 这 样 才能 保证 并 发 执行 与 各 种 故障 不 会 导致 数据 库 处 于 不 一 致 
状态 。 

。 事务 具有 ACID 特性 : 原子 性 、 一 致 性 、 隔 离 性 、 持 久 性 。 

O 原子 性 保证 事务 的 所 有 影响 在 数据 库 中 要 么 全 部 反映 出 来 ， 要 么 根本 不 反映 ; 一 个 故障 不 能 让 数 
据 库 处 于 事务 部 分 执行 后 的 状态 。 

口 一 致 性 保证 若 数据 库 一 开始 是 一 致 的 ， 则 事务 (单独 ) 执行 后 数据 库 仍 处 于 一 致 状态 。 

O 隔离 性 保证 并 发 执行 的 事务 相互 隔离 ， 使 得 每 个 事务 感觉 不 到 系统 中 其 他 事务 的 并 发 执行 。 

O 持久 性 保证 一 旦 一 个 事务 提交 后 ， 它 对 数据 库 的 改变 不 会 丢失 ， 即 使 系统 可 能 出 现 故 障 。 

事务 的 并 发 执行 提高 了 事务 吞吐 量 和 系统 利用 率 ， 也 减少 了 事务 等 待 时 间 。 

计算 机 中 不 同 的 存储 介质 包括 易 失 性 存储 器 、 非 易 失 性 存储 器 和 稳定 性 存储 器 。 易 失 性 存储 器 ( 例如 

RAM) 中 的 数据 当 计算 机 崩溃 时 丢失 。 非 易 失 性 存储 器 ( 如 磁盘 ) 中 的 数据 在 计算 机 崩溃 时 不 会 丢失 ， 

但 是 可 能 会 由 于 磁盘 崩溃 而 丢失 。 稳 定性 存储 器 中 的 数据 永远 不 会 丢失 。 

必须 支持 在 线 访问 的 稳定 性 存储 器 与 磁盘 镜像 或 者 其 他 形式 的 提供 元 余数 据 存储 的 RAID 接近 。 对 

于 离线 或 归档 的 情况 ， 稳 定性 存储 器 可 以 由 存储 在 物理 安全 位 置 的 数据 的 多 个 磁带 备份 所 构成 。 

。 多 个 事务 在 数据 库 中 并 发 执行 时 ， 数 据 的 一 致 性 可 能 不 再 维持 。 因 此 系统 必须 控制 各 并 发 事务 之 间 
的 相互 作用 。 
O 由 于 事务 是 保持 一 致 性 的 单元 ， 所 以 事务 的 串 行 执行 能 保持 一 致 性 。 

655 口 调度 捕获 影响 事务 并 发 执行 的 关键 操作 ， 如 read 和 write 操作 ， 而 忽略 事务 执行 的 内 部 细节 。 

O 我 们 要 求 事务 集 的 并 发 执行 所 产生 的 任何 调度 的 执行 效果 等 价 于 由 这 些 事务 按 某 种 串 行 顺序 执行 
的 效果 。 

口 保证 这 个 特性 的 系统 称 为 保证 了 可 串 行 化 。 

O 存在 几 种 不 同 的 等 价 概念 ， 从 而 引出 了 冲突 可 囊 行 化 与 视图 可 串 行 化 的 概念 。 

事务 并 发 执行 所 产生 的 调度 的 可 串 行 化 可 以 通过 多 种 并 发 控制 机 制 中 的 一 种 来 加 以 保证 。 

给 定 一 个 调度 ， 我 们 可 以 通过 为 该 调度 构造 优先 图 及 搜索 是 否 无 环 来 判定 它 是 否 冲突 可 串 行 

化 。 然 而 ， 有 更 好 的 并 发 控制 机 制 可 用 来 保证 可 串 行 化 。 

。 调度 必须 是 可 恢复 的 ， 以 确保 : 若 事务 a 看 到 事务 b 的 影响 ， 当 b 中 止 时 ，a 也 要 中 止 。 

调度 最 好 是 无 级 联 的 ， 这 样 不 会 由 于 一 个 事务 的 中 止 引起 其 他 事务 的 级 联 中 止 。 无 级 联 性 是 通 
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过 只 允许 事务 读 取 已 提交 数据 来 保证 的 。 
。 数据 库 的 并 发 控制 管理 部 件 负 责 处 理 并 发 控制 机 制 。 第 15 章 阐 述 并 发 控制 机 制 。 
































术语 回顾 
。 事务 口 活动 的 。 操作 冲突 
© ACID 特性 口 部 分 提交 的 。 冲突 等 价 
口 原子 性 口 失败 的 。 冲突 可 串 行 化 

一 致 性 口 中 止 的 。 可 串 行 化 判定 

口 隔离 性 口 提交 的 。 优先 图 
O 持久 性 0 已 结束 的 。 可 串 行 化 顺序 
。 不 一 致 状态 。 事务 。 可 恢复 调度 
。 存储 器 类 型 口 重启 。 级 联 回 滚 
O 易 失 性 存储 器 口 杀 死 。 无 级 联 调 度 
DO 非 易 失 性 存储 器 e 可 见 的 外 部 写 © 并 发 控制 机 制 
口 稳定 性 存储 器 。 并 发 执行 。 封锁 
。 并 发 控制 系统 。 串 行 执行 。 多 版 本 
。 故障 恢复 系统 。 调度 。 快照 隔离 
。 事务 状态 

实践 习题 


14.1 假设 存在 永远 不 出 现 故障 的 数据 库 系 统 ， 对 这 样 的 系统 还 需要 故障 恢复 管理 器 吗 ? 

14.2 考虑 一 个 文件 系统 ， 比 如 你 最 喜欢 的 操作 系统 的 文件 系统 ， 
a. 创建 和 删除 文件 分 别 包 括 哪些 步骤 ， 向 文件 中 写 数 据 呢 ? 
b. 试 说 明 原 子 性 和 持久 性 问题 与 创建 和 删除 文件 以 及 向 文件 中 写 数据 有 什么 关系 。 

14.3 数据库 系统 实现 者 比 文件 系统 实现 者 更 注意 ACID 特性 ， 为 什么 会 这 样 ? 

14.4 论证 下 面 的 说 法 : 必须 从 ( 慢 速 的 ) 磁盘 获取 数据 或 执行 长 事务 时 ， 事 务 的 并 发 执行 更 为 重要 ， 而 当 
数据 存在 于 主 存 中 且 事 务 非常 短 时 ， 没 那么 重要 ， 

14.5 ”既然 每 一 个 冲突 可 串 行 化 调度 都 是 视图 可 串 行 化 的 ,我们 为 什么 强调 冲突 可 串 行 化 而 非 视图 可 串 行 
化 呢 ? 

14.6 考虑 图 14-16 所 示 的 优先 图 ， 相 应 的 调度 是 冲突 可 串 行 化 的 吗 ? 解释 你 D 


的 回答 。 T, 
14.7 ”什么 是 无 级 联 调度 ? 为 什么 要 求 无 级 联 调度 ”是 否 存在 要 求 允 许 级 联 SS get 
调度 的 情况 ?解释 你 的 回答 。 L 
14.8 ERER lost update) 异常 是 指 如 果 事务 T, 读 取 了 一 个 数据 项 ， 然 后 另 =) 
一 个 事务 T, 写 该 数据 项 ( 可 能 基于 先前 的 读 取 ) ， 然 后 7 写 该 数据 项 。 

FEN 所 做 的 更 新 丢失 了 ， 因 为 7 HEMAT T, 写 人 的 值 。 

a. 给 出 一 个 表示 丢失 更 新 异常 的 调度 实例 。 Cr) 

b 给 出 一 个 表示 丢失 更 新 异常 的 调度 实例 ， 表 明 在 已 提交 读 隔离 性 级 


别 下 该 异常 也 可 能 存在 。 图 14-16 ”实践 习题 14.6 
c. 解释 为 什么 在 可 重复 读 隔离 性 级 别 下 丢失 更 新 异常 不 可 能 发 生 。 的 优先 图 

14.9 考虑 一 个 采用 快照 隔离 的 银行 数据 库 系统 。 描 述 一 个 出 现 非 可 串 行 化 
调度 会 为 银行 带 来 问题 的 特定 场景 。 

14.10 考虑 一 个 采用 快照 隔离 的 航空 公司 数据 库 系 统 。 描 述 一 个 出 现 非 可 串 行 化 调度 但 是 航空 公司 为 了 更 
好 的 整体 性 能 而 愿意 接受 的 特定 场景 。 

14. 11 一 个 调度 的 定义 假设 操作 可 以 完全 按时 间 顺 序 排列 。 考 虑 一 个 运行 在 多 处 理 器 系统 上 的 数据 库 系统 ， 


它 并 不 总 是 能 对 于 运行 在 不 同 处 理 器 上 的 操作 确定 一 个 准确 的 顺序 。 但 是 ， 一 个 数据 项 上 的 操作 全 
部 可 以 排序 。 
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以 上 情况 是 否 对 冲突 可 串 行 化 的 定义 造成 问题 ? 解释 你 的 答案 。 


14.12 列 出 ACID 特性 ， 解 释 每 一 特性 的 用 途 。 
14. 13 事务 从 开始 执行 直到 提交 或 终止 ， 其 间 要 经 过 几 个 状态 。 列 出 所 有 可 能 出 现 的 事务 状态 序列 ， 解 释 
每 一 种 状态 变迁 出 现 的 原因 。 
14. 14 解释 串 行 调度 和 可 串 行 化 调度 的 区 别 。 
14.15 考虑 以 下 两 个 事务 : 
Ta: read(4) ; 
read( B); 
if A =0 then B:= B + l; 
write( B); 
T,,: read(B) ; 
read(A) ; 
if B=0 then A;= A + l; 
write(A) ; 
设 一 致 性 需求 为 4=0 V B=0, MRE A =B =0, 
a. 说 明 包 括 这 两 个 事务 的 每 一 个 串 行 执行 都 保持 数据 库 的 一 致 性 。 
b. 给 出 Ta 和 7 的 一 次 并 发 执行 ， 执 行 产 生 不 可 串 行 化 调度 。 
c. 存在 产生 可 串 行 化 调度 的 Ta 和 7 的 并 发 执行 吗 ? 
14. 16 ”给 出 两 个 事务 的 一 个 串 行 化 调度 的 例子 ， 其 中 事务 的 提交 顺序 与 串 行 化 序列 不 同 。 
14. 17 ”什么 是 可 恢复 调度 ”为 什么 要 求 调 度 的 可 恢复 性 ? 存在 要 求 允许 出 现 不 可 恢复 调度 的 情况 吗 ? 解释 
你 的 回答 。 
14. 18 ”为 什么 数据 库 系统 支持 事务 的 并 发 执行 ， 尽 管 需要 额外 编程 工作 来 确保 并 发 执行 不 会 引起 任何 问题 ? 
14. 19 ”解释 为 何 已 提交 读 隔离 性 级 别 保证 调度 是 无 级 联 的 。 
14.20 ”对 于 以 下 隔离 性 级 别 ， 给 出 一 个 满足 该 隔离 性 级 别 但 不 是 可 串 行 化 的 调度 实例 : 
656 a 未 提交 读 
ae b. 已 提交 读 
c. 可 重复 读 
14.21 假设 除了 read 和 write 操作 ， 我 们 允许 一 个 操作 pred_read(r, P) 读 取 关 系 r 中 所 有 满足 谓词 P 的 
元 组 。 
a. 给 出 一 个 使 用 pred_read 的 调度 实例 来 展示 一 个 有 幻象 现象 的 非 可 串 行 化 调度 。 
b. 给 出 一 个 调度 实例 ， 其 中 一 个 事务 在 关系 r+ 上 用 pred_read ， 另 一 个 事务 删除 r 中 的 一 个 元 组 ,但 
是 调度 中 没有 幻象 冲突 。( 为 此， 你 需要 给 出 关系 7 的 表 结 构 ， 并 且 显 示 被 删除 元 组 的 值 ) 。 


文献 注解 


Gray 和 Reuter[ 1993 ] 在 其 教科 书 中 全 面 讨 论 了 事务 处 理 的 概念 、 技 术 和 实现 ， 包 括 并 发 控制 和 恢复 问 
fl, Bernstein 和 Newcomer[ 1997] 在 其 教科 书 中 讨论 了 事务 处 理 的 多 个 方面 。 
Eswaran 等 [1976 | 对 可 串 行 化 的 概念 进行 了 形式 化 描述 ， 这 是 同 他 们 在 System R 的 并 发 控制 上 的 工作 相 
关联 的 。 
事务 处 理 各 个 具体 方面 (如 并 发 控制 和 故障 恢复 ) 的 参考 文献 见 第 15、16 和 26 章 。 


第 15 章 


Database System Concepts, 6E 


并 发 控制 


在 第 14 章 中 我 们 了 解 了 事务 最 基本 的 特性 之 一 是 隔离 性 。 然 而 ， 当 数据 库 中 有 多 个 事务 并 发 执行 
时 ,事务 的 隔离 性 不 一 定 能 保持 。 为 保持 事务 的 隔离 性 ， 系 统 必须 对 并 发 事务 之 间 的 相互 作用 加 以 控 
制 ; 这 种 控制 是 通过 一 系列 机 制 中 的 一 个 称 为 并 发 控制 的 机 制 来 实现 的 。 第 26 章 讨论 允许 非 可 串 行 化 
调度 的 并 发 控制 机 制 。 在 这 一 章 中 ,我 们 考虑 并 发 执行 事务 的 管理 ， 并 且 我 们 忽略 故障 。 第 16 章 将 讨 
论 系统 如 何 从 故障 中 恢复 。 

诚 如 我 们 将 会 看 到 的 ， 并 发 控制 有 许多 种 机 制 。 没 有 哪 种 机 制 是 明显 最 好 的 ; 每 种 机 制 都 有 优势 。 
在 实践 中 ， 最 常用 的 机 制 有 两 阶段 封锁 和 快照 隔离 。 


15.1 基于 锁 的 协议 


确保 隔离 性 的 方法 之 一 是 要 求 对 数据 项 以 互 斥 的 方式 进行 访问 ; 换 句 话说 ， 当 一 个 事务 访问 某 个 
数据 项 时 ， 其 他 任何 事务 都 不 能 修改 该 数据 项 。 实 现 该 需求 最 常用 的 方法 是 只 允许 事务 访问 当前 该 事 
务 持 有 锁 (lock ) 的 数据 项 。14. 9 节 介 绍 过 锁 的 概念 。 

15.1.1 锁 


给 数据 项 加 锁 的 方式 有 多 种 ， 在 这 一 节 中 ， 我 们 只 考虑 两 种 : 

1. 共享 的 (shared) : 如 果 事 务 T, 获得 了 数据 项 0 上 的 共享 型 锁 ( shared-mode lock) ( 记 为 S) W 
7, 可 读 但 不 能 写 0。 

2. 排他 的 (exclusive) : 如 果 事 务 T, 获得 了 数据 项 0 上 的 排他 型 锁 ( exclusive-mode lock) ( 记 为 X)， 
W T, 既 可 读 又 可 写 Qo 

我 们 要 求 每 个 事务 都 要 根据 自己 将 对 数据 项 0 进行 的 操作 类 型 申请 (request) 适 当 的 锁 。 该 事务 将 
请 求 发 送 给 并 发 控制 管理 器 。 事 务 只 有 在 并 发 控制 管理 器 授予 ( grant) 所 需 锁 后 才能 继续 其 操作 。 这 两 
种 锁 类 型 的 使 用 可 以 让 多 个 事务 读 取 一 个 数据 项 但 是 限制 同时 只 能 有 一 个 事务 进行 写 操作 。 

更 普遍 地 说 ， 对 于 给 定 的 一 个 锁 类 型 集合 ,我 们 可 在 它们 上 按 如 下 方式 定义 一 个 相 容 函数 
(compatibility function); 令 4 与 8 代表 任意 的 锁 类 型 ,假设 事务 7 请求 对 数据 项 Q 加 4 类 型 锁 ， 而 事 
务 也 (开关 7 ) 当前 在 数据 项 CQ 上 拥有 B 类 型 锁 。 尽 管 数据 项 0 上 存在 B 类 型 锁 ， 如 果 事 务 T, 可 以 立即 
获得 数据 项 Q 上 的 锁 ， 则 我 们 就 说 4 类 型 锁 与 B 类 型 锁 是 相 容 的 (compatible) 。 这 样 的 一 个 函数 可 以 通 
过 和 矩阵 方便 地 表示 出 来 。 本 节 所 用 的 两 类 锁 的 相 容 关系 由 图 15-1 所 示 的 矩阵 comp 给 出 。 当 且 仅 当 类 
型 4 与 类 型 刀 是 相 容 的 ， 该 矩阵 的 一 个 元 素 comp(4，B) 具 有 true ffi. 


注意 共享 型 与 共享 型 是 相 容 的 ， 而 与 排他 型 不 相 容 。 在 任何 时 候 ， s x 
一 个 具体 的 数据 项 上 可 同时 有 (被 不 同 的 事务 持 有 的 ) 多 个 共享 锁 。 此 S 
后 的 排他 锁 请 求 必 须 一 直 等 待 直到 该 数据 项 上 的 所 有 共享 锁 被 释放 。 X | false | false | 


一 个 事务 通过 执行 lock-S( 0) 指令 来 申请 数据 项 0 上 的 共享 锁 。 
类 似 地 ， 一 个 事务 通过 执行 lock-X( 0) 指 令 来 申请 排他 锁 。 一 个 事务 ”图 15-1 锁 相 容 性 矩阵 comp 
能 够 通过 unlock( 0Q) 指 令 来 释放 数据 项 0 上 的 锁 。 

要 访问 一 个 数据 项 ， 事 务 7, 必须 首先 给 该 数据 项 加 锁 。 如 果 该 数据 项 已 被 另 一 事务 加 上 了 不 相 容 
类 型 的 锁 ， 则 在 所 有 其 他 事务 持 有 的 不 相 容 类 型 锁 被 释放 之 前 ， 并 发 控制 管理 器 不 会 授予 锁 。 因 此 ， 
T, 只 好 等 待 (wait) ， 直 到 所 有 其 他 事务 持 有 的 不 相 容 类 型 锁 被 释放 。 
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事务 T, 可 以 释放 先前 加 在 某 个 数据 项 上 的 锁 。 注 意 ， 一 个 事务 只 要 还 在 访问 数据 项 ， 它 就 必须 拥 
有 该 数据 项 上 的 锁 。 此 外 ， 让 事务 在 对 数据 项 作 最 后 一 次 访问 后 立即 释放 该 数据 项 上 的 锁 也 未 必 是 可 
取 的 ， 因 为 有 可 能 不 能 保证 可 串 行 性 。 

举 一 个 例子 ， 再 考虑 我 们 在 第 14 章 中 介绍 的 银行 业务 系统 。 令 4 与 B 是 事务 7 ST, 访问 的 两 个 
账户 ， 事 务 7, 从 账户 B 转 50 美元 到 账户 4 上 ( 见 图 15-2) ， 事 务 T, 显示 账户 4 与 上 的 总 金额 ， 即 
A+B( 见 图 15-3). 

Tı: lock-x(B); 


read(B); 

B := B — 50; 

write(B); T: lock-S(A); 

unlock(B); read(A); 

lock-x(A); unlock(A); 

read(A); lock-S(B); 

A := A + 50; read(B); 

write(A); unlock(B); 

unlock(A). display(A + B). 
K 15-2 34 T, 图 15-3 3445 T, 


假设 账户 4 与 B 的 金额 分 别 为 100 美元 与 200 美元 。 如 果 这 两 个 事务 串 行 执 行 ， 以 7T, 7, KT, 
T, 的 顺序 执行 ， 则 事务 T, 将 显示 的 值 为 300 美元 。 然 而 ， 如 果 两 个 事务 并 发 地 执行 ， 则 有 可 能 出 现 如 
图 15-4 所 示 的 调度 1。 在 这 种 情况 下 ， 事 务 T, 显示 250 美元 ， 这 是 不 对 的 。 出 现 这 种 错误 的 原因 是 由 
于 事务 7 过 早 释 放 数据 项 中 上 的 锁 ， 从 而 导致 事务 T, 看 到 一 个 不 一 致 的 状态 。 








Tı Th 并 发 控制 管理 器 
lock-X(B) 
grant-x(B, T,) 
read( B) 
B:=B—50 
write( B) 
unlock( B) 
lock-S(A) 
| grant-S(A, T2) 
read( A) 
unlock( A) 
lock-S(B) 
grant-S(B, T>) 
read(B) 
unlock( B) 
display(A + B) | 
lock-x(A) | 
grant-X(A, Tı) 
read( A) 
A:=A-—50 
write(A) 
unlock(A) | 
K 15-4 调度 1 
该 调度 显示 了 事务 执行 的 动作 以 及 并 发 控制 管理 器 授权 加 锁 的 时 Tx: lock-x(B); 
刻 。 申 请 加 锁 的 事务 在 并 发 控制 管理 器 授权 加 锁 之 前 不 能 执行 下 一 个 动 pe ae 
作 。 因 此 ， 锁 的 授予 必然 是 在 事务 申请 锁 操 作 与 事务 的 下 一 动作 的 间隔 write(B); 
内 。 至 于 在 此 期 间 内 授权 加 锁 的 准确 时 间 并 不 重要 ; 我 们 不 妨 假设 锁 正 
好 在 事务 的 下 一 动作 前 获得 。 因 此 ， 在 本 章 余下 部 分 所 描述 的 调度 中 我 A= A +50 
们 将 去 掉 并 发 控制 管理 器 授予 锁 的 那 一 栏 。 我 们 让 读者 自己 去 推断 何 时 ena M 
授予 锁 o unlock(A). 


现在 假定 事务 结束 后 才 释 放 锁 。 事 务 T, 对 应 于 7,， 它 延迟 了 锁 释 放 15-5 事务 7 
( 见 图 15-5) ， 事 务 T, 对 应 于 7,， 它 延迟 了 锁 释 放 ( 见 图 15-6)。 (事务 T, 延迟 释放 锁 ) 
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你 可 以 验证 ， 在 调度 1 中 导致 显示 不 准确 总 和 250 美元 的 读 写 顺 序 ， 在 事务 7 与 7, 的 调度 中 没有 
再 出 现 的 可 能 。 我 们 也 可 以 用 别 的 一 些 调度 ， 在 任何 调度 当中 ,7 将 不 Ty: lock-S(A); 


会 显示 不 一 臻 的 结果 ; 稍 后 我 们 将 明白 其 中 缘由 ， lock S(B); 
遗憾 的 是 ， 封 锁 可 能 导致 一 种 不 受 欢迎 的 情形 。 考 察 如 图 15-7 所 示 read(B); 

的 有 关 事 务 T 与 7, 的 部 分 调度 ， 由 于 7 EB 上 拥有 排他 锁 ， 而 7, 正在 nim 

申请 B 上 的 共享 锁 ， 因 此 T, 等 待 7, 释放 B 上 的 锁 ; 类 似 地 ， 由 于 7, 在 unlock(B). 


A 上 拥有 共享 锁 ， 而 7; 正在 申请 4 上 的 排他 锁 ， 因 此 T, 等 待 7, 释放 A 图 15-6 3% T, 
上 的 锁 。 于 是 , 我 们 进入 了 这 样 一 种 哪个 事务 都 不 能 正常 执行 的 状态 ， (事务 T, 延迟 释放 锁 ) 
这 种 情形 称 为 死 锁 ( deadlock)。 当 死 锁 发 生 时 ， 系 统 必须 回 深 两 个 事务 中 
的 一 个 。 一 旦 某 个 事务 回 滚 ， 该 事务 锁 住 的 数据 项 就 被 解锁 ， 其 他 事务 就 可 以 访问 这 些 数据 项 ， 继 续 
自己 的 执行 。15. 2 节 将 再 讨论 死 锁 处 理 这 个 问题 。 
我 们 如 果 不 使 用 封锁 ， 或 者 我 们 对 数据 项 进行 读 写 之 后 立即 解锁 ， 那 么 Th g 五 
我 们 可 能 会 进入 不 一 致 的 状态 。 另 一 方面 ， 如 果 在 申请 对 另 一 数据 项 加 锁 之 lock-x(B) | 
前 如 果 我 们 不 对 当前 锁 住 的 数据 项 解锁 ， 则 可 能 会 发 生死 锁 。 在 某 些 情形 下 read(8) 





有 办 法 避免 死 锁 ， 我 们 将 在 15.1.5 节 讨论 。 然而， 一般 而 言 ， 如 果 我 们 为 。 wte(B) | 

了 避免 不 一 致 状态 而 采取 封锁 ， 则 死 锁 是 随 之 而 来 的 必然 产物 。 产 生死 锁 显 B 
然 比 产生 不 一 致 状态 要 好 ， 因 为 它们 可 以 通过 回 滚 事务 加 以 解决 ， 而 不 一 至 lock-S(B) 
状态 可 能 引起 现实 中 的 问题 ， 这 是 数据 库 系统 不 能 处 理 的 。 人 


我 们 将 要 求 在 系统 中 的 每 一 个 事务 遵从 称 为 封锁 协议 (locking protocol ) 图 15-7 调度 2 
的 一 组 规则 ， 这 些 规则 规定 事务 何 时 对 数据 项 们 进行 加 锁 、 解 锁 。 封 锁 协 议 
限制 了 可 能 的 调度 数目 。 这 些 调度 组 成 的 集合 是 所 有 可 能 的 可 串 行 化 调度 的 一 个 真子 集 。 我 们 将 讲述 
几 个 封锁 协议 ， 它 们 只 人 允许 冲突 可 串 行 化 调度 ， 从 而 保证 隔离 性 。 在 此 之 前 ， 我 们 需要 先 给 出 几 个 

令 | To, T, e, 也 | 是 参与 调度 $ 的 一 个 事务 集 ， 如 果 存 在 数据 项 0, 使 得 7; 在 0Q 上 持 有 4 型 锁 ， 
后 来 , T, EQ ERA BAS, H comp(A, B) =false， 则 我 们 称 在 SH T, 先 于 (precede) T,, id 也 一 
To WR 7. 一 7,， 这 一 居 先 意味 着 在 任何 等 价 的 串 行 调度 中 ,7 必须 出 现在 7 之前。 注意 这 个 图 与 
14.6 节 中 用 于 检测 冲突 可 串 行 性 的 优先 图 是 类 似 的 。 指 令 之 间 的 冲突 对 应 于 锁 类 型 之 间 的 不 相 容 性 。 

如 果 调 度 S 是 那些 遵从 封锁 协议 规则 的 事务 集 的 可 能 调度 之 一 ， 我 们 称 调 度 5 在 给 定 的 封锁 协议 
下 是 合法 的 (legal)。 当 且 仅 当 其 所 有 合法 的 调度 为 冲突 可 串 行 化 时 ， 我 们 称 一 个 封锁 协议 保证 
(ensure) 冲突 可 串 行 性 ; 换 句 话说 ， 对 于 任何 合法 的 调度 ， 其 关联 的 一 关系 是 无 环 的 。 
15.1.2 锁 的 授予 

当 事 务 申 请 对 一 个 数据 项 加 某 一 类 型 锁 ， 且 没有 其 他 事务 在 该 数据 项 上 加 上 了 与 此 类 型 相 冲 突 的 
锁 ， 则 可 以 授予 锁 。 然 而 ， 必 须 小 心 防 止 出 现下 面 的 情形 。 假 设 事务 T, 在 一 数据 项 上 持 有 共享 锁 ， 另 
一 事务 T, 申请 在 该 数据 项 加 排他 锁 。 显 然 ， 事 务 7 必须 等 待 事务 T 释放 共享 锁 。 同 时 ， 事 务 及 可 能 
申请 对 该 数据 项 加 共享 锁 ， 加 锁 请 求 与 已 授予 T 的 锁 是 相 容 的 ， 因 此 可 以 授权 7; WME E, 
T, 可 能 释放 锁 , 但 7, 还 必须 等 待 7， 完成 。 可 是 ,可 能 又 有 一 个 新 的 事务 7, 申请 对 该 数据 项 加 共享 
锁 ， 并 在 T, 完成 之 前 授予 锁 。 事 实 上 ， 有 可 能 存在 一 个 事务 序列 ， 其 中 每 个 事务 申请 对 该 数据 项 加 共 
享 锁 ， 每 个 事务 在 授权 加 锁 后 一 小 段 时 间 内 释放 锁 ， 而 T 总 是 不 能 在 该 数据 项 上 加 排他 锁 。 事 务 7 
可 能 永远 不 能 取得 进展 ， 这 称 为 饿 死 ( starved ) 。 

我 们 可 以 通过 按 如 下 方式 授权 加 锁 来 避免 事务 饿 死 : SRST, 申请 对 数据 项 Q 加 MM 型 锁 时 ， 并 发 
控制 管理 器 授权 加 锁 的 条 件 是 : 

1. 不 存在 在 数据 项 OQ 上 持 有 与 M 型 锁 冲 突 的 锁 的 其 他 事务 。 

2. 不 存在 等 待 对 数据 项 0 加 锁 且 先 于 7; 申请 加 锁 的 事务 。 

因此 ， 一 个 加 锁 请 求 就 不 会 被 其 后 的 加 锁 申请 阻塞 。 
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15. 1.3 两 阶段 封锁 协议 

保证 可 串 行 性 的 一 个 协议 是 两 阶段 封锁 协议 (two-phase locking protocol) 。 该 协议 要 求 每 个 事务 分 两 
个 阶段 提出 加 锁 和 解锁 申请 。 

1. 增长 阶段 (growing phase) : 事务 可 以 获得 锁 ， 但 不 能 释放 锁 。 

2. 缩减 阶段 (shrinking phase) : 事务 可 以 释放 锁 ， 但 不 能 获得 新 锁 。 

最 初 ， 事 务 处 于 增长 阶段 ， 事 务 根据 需要 获得 锁 。 一 旦 该 事务 释放 了 锁 ， 它 就 进入 了 缩减 阶段 ， 
并 且 不 能 再 发 出 加 锁 请 求 。 

lin, 47,57, 是 两 阶段 的 。 与 此 相反 ， 事 务 7, ST, 不 是 两 阶段 的 。 注 意 ， 解 锁 指 令 不 必 非 
得 出 现在 事务 未 尾 。 例 如 ， 就 事务 T 而 言 ， 我 们 可 以 把 unlock( B) 指令 放 在 紧 跟 指令 lock-X(4) 之 后 ， 
并 且 仍 然 保持 两 阶段 封锁 特性 。 

我 们 可 以 证 明 两 阶段 封锁 协议 保证 冲突 可 串 行 化 。 对 于 任何 事务 ， 在 调度 中 该 事务 获得 其 最 后 加 
锁 的 位 置 (增长 阶段 结束 点 ) 称 为 事务 的 封锁 点 (lock point) 。 这 样 ， 多 个 事务 可 以 根据 它们 的 封锁 点 进 
行 排序 ， 实 际 上 ， 这 个 顺序 就 是 事务 的 一 个 可 串 行 化 顺序 。 我 们 将 此 证 明 留 为 习题 ( 见 实践 习 题 
15.1) 

两 阶段 封锁 并 不 保证 不 会 发 生死 锁 。 不 难 发 现 事务 T 与 7, 是 两 阶段 的 ， 但 在 调度 2 中 (如 图 15-7 
所 示 ) ， 它 们 却 发 生死 锁 。 

回想 一 下 ， 在 14.7.2 节 中 ,除了 调度 可 串 行 化 外 ， 调 度 还 应 该 是 无 级 联 的 。 在 两 阶段 封锁 协议 
下 ， 级 联 回 滚 可 能 发 生 。 作 为 示例 ， 考 虑 如 图 15-8 所 示 的 部 分 调度 。 每 个 事务 都 遵循 两 阶段 封锁 协 
议 ， 但 在 事务 T, 的 read(A) 步骤 之 后 事务 7; 发 生 故 障 ， 从 而 导致 7 与 7 级 联 回 滚 。 

级 联 回 滚 可 以 通过 将 两 阶段 封锁 修改 为 严格 两 阶段 封锁 协议 ( strict two-phase locking protocol ) 加 以 

避免 。 这 个 协议 除了 要 求 封锁 是 两 阶段 之 外 ， 还 要 求 事务 持 有 的 所 有 排他 锁 必 须 在 事务 提交 后 方 可 释 

放 。 这 个 要 求 保证 未 提交 事务 所 写 的 任何 数据 在 该 事务 提交 之 前 均 以 排他 方式 加 锁 ， 防 止 其 他 事务 读 











这 些 数 据 。 
另 一 个 两 阶段 封锁 的 变 体 是 强 两 阶段 封锁 协议 (rigorous two-phase locking protocol) ， 它 要 求 事务 提 
交 之 前 不 得 释放 任何 锁 。 我 们 很 容易 验证 在 强 两 阶段 封锁 条 件 “五 Jon 
下 ， 事 务 可 以 按 其 提交 的 顺序 串 行 化 。 lock-X(A) | 
考察 下 面 两 个 事务 ， 我 们 只 写 出 了 其 中 较为 重要 的 read 与 pee 
lock-S(B) 
write 指令 : read(B) 
Fs rae) ce 
read (a, ) ; lock-x(A) 
ii read(A) 
read(a,) ; write(A) | 
write(a,). unlock(A) | aoa 
T,: read(a,) ; read(A) 
read( a, ); 


i 图 15-8 在 两 阶段 封锁 下 的 部 分 调度 


如 果 我 们 采用 两 阶段 封锁 协议 ， 则 T, 必须 对 a 加 排他 锁 。 因 此 ， 两 个 事务 的 任何 并 发 执行 方式 都 
相当 于 串 行 执行 。 然 而 ， 请 注意 ，7, 仅 在 其 执行 结束 ， 写 a 时 需要 对 a 加 排他 锁 。 因 此 ， 如 果 T, IF 
始 时 对 a, 加 共享 锁 ， 然 后 在 需要 时 将 其 变更 为 排他 锁 ， 那 么 我 们 可 以 获得 更 高 的 并 发 度 ， 因 为 Tn T 
可 以 同时 访问 a, 与 a,。 

以 上 观察 提示 我 们 对 基本 的 两 阶段 封锁 协议 加 以 修改 ， 使 之 允许 锁 转 换 (lock conversion) 。 我 们 将 
提供 一 种 将 共享 锁 升 级 为 排他 锁 ， 以 及 将 排他 锁 降 级 为 共享 锁 的 机 制 。 我 们 用 升级 (upgrade) 表示 从 共 
享 到 排他 的 转换 ， 用 降级 (downgrade) 表示 从 排他 到 共享 的 转换 。 锁 转换 不 能 随意 进行 。 锁 升级 只 能 发 

生 在 增长 阶段 ， 而 锁 降 级 只 能 发 生 在 缩减 阶段 。 

回 到 我 们 的 例子 ， 事 务 TS T 可 在 修改 后 的 两 阶段 封锁 协议 下 并 发 执行 ， 如 图 15-9 所 示 ， 其 中 

的 调度 是 不 完整 的 ， 它 只 给 出 了 一 些 封锁 指令 。 
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注意 ， 事 务 试 图 升级 数据 项 0 上 的 锁 时 可 能 不 得 不 等 待 。 这 种 情况 发 生 在 另 一 个 事务 当前 对 @ 持 





有 共享 锁 时 。 ts h 
像 基本 的 两 阶段 封锁 协议 一 样 ， 具 有 锁 转 换 的 两 阶段 封锁 协议 只 产生 ocksa) | 

冲突 可 申 行 化 的 调度 ， 并 且 事 务 可 以 根据 其 封锁 点 作 串 行 化 。 此 外 ， 如 果 say | se 

排他 锁 直 到 事务 结束 时 才 释 放 ， 则 调度 是 无 级 联 的 。 | lock-S{az) 
对 于 一 个 事务 集 ， 可 能 存在 某 些 不 能 通过 两 阶段 封锁 协议 得 到 的 冲突 [pee03) 

可 串 行 化 调度 。 然 而 ， 如 果 要 通过 非 两 阶段 封锁 协议 得 到 冲突 可 串 行 化 调 unlock(a1) 

度 ， 我 们 或 者 需要 事务 的 附加 信息 ， 或 者 要 求 数据 库 中 的 数据 项 集合 有 一 jks6s | 0C 

定 的 结构 或 顺序 。 在 本 章 后 面 当 我 们 考虑 其 他 封锁 协议 时 ， 我 们 将 看 到 upgrade(a,) 

例子 。 图 15-9 带 有 锁 转换 的 
严格 两 阶段 封锁 与 强 两 阶段 封锁 ( 含 锁 转换 ) 在 商用 数据 库 系统 中 广泛 不 完整 调度 

使 用 。 


这 里 介绍 一 种 简单 却 广泛 使 用 的 机 制 ， 它 基于 来 自 事务 的 读 、 写 请 求 ， 自 动 地 为 事务 产生 适当 的 
加 锁 、 解 锁 指 令 : 

。 当 事 务 T, 进行 read( O ) 操作 时 ， 系 统 就 产生 一 条 lock-S(O) 指 令 ， 该 read( 0) 指令 紧 跟 其 后 。 

。 当 事 务 T, 进行 write(Q) 操作 时 ， 系 统 检 查 T 是否 已 在 0 上 持 有 共享 锁 。 若 有 ， 则 系统 发 出 

upgrade(Q)454, 后 接 write( 0) 指 令 。 否 则 系统 发 出 lock-X(Q) 指 令 ， 后 接 write( 0) 指 令 。 

。 当 一 个 事务 提交 或 中 止 后 ， 该 事务 持 有 的 所 有 锁 都 被 释放 。 

15.1.4 ”封锁 的 实现 

锁 管理 器 (lock manager) 可 以 实现 为 一 个 过 程 ， 它 从 事务 接受 消息 并 反馈 消息 。 锁 管理 器 过 程 针对 
锁 请 求 消 息 返回 授予 锁 消 息 ， 或 者 要 求 事务 回 滚 的 消息 (发 生死 锁 时 ) 。 解 锁 消 息 只 需要 得 到 一 个 确认 
回答 ， 但 可 能 引发 为 其 他 等 待 事务 的 授予 锁 消 息 。 

锁 管 理 器 使 用 以 下 数据 结构 : 锁 管 理 器 为 目前 
已 加 锁 的 每 个 数据 项 维护 一 个 链表 ， 每 一 个 请 求 为 
链表 中 一 条 记录 ， 按 请 求 到 达 的 顺序 排序 。 它 使 用 
一 个 以 数据 项 名 称 为 索引 的 散 列 表 来 查找 链表 中 的 
数据 项 (如果 有 的 话 ); 这 个 表 叫 做 锁 表 ( lock 
table) 。 一 个 数据 项 的 链表 中 每 一 条 记录 表示 由 哪 
个 事务 提出 的 请 求 ， 以 及 它 请 求 什么 类 型 的 锁 ， 该 
记录 还 表示 该 请 求 是 否 已 授予 锁 。 

图 15-10 是 一 个 锁 表 的 示例 ， 该 表 包 含 5 个 不 
lel HHI 14. 17, 123, 44 和 1912 HH, BARA 
溢出 链 ， 因 此 对 于 锁 表 的 每 一 个 表 项 都 有 一 个 数据 
项 的 链表 。 每 一 个 数据 项 都 有 一 个 已 授予 锁 或 等 待 
授予 锁 的 事务 列表 , 已 授 予 锁 的 事务 用 深 色 阴影 方 
块 表 示 ， 等 待 授 予 锁 的 事务 则 用 浅 色 阴影 方块 表 
示 。 为 了 简化 图 形 我 们 省 略 了 锁 的 类 型 。 举 个 例 
子 ， 从 图 15-10 中 可 以 看 到 ，T23 在 数据 项 1912 和 
17 上 已 被 授予 锁 ， 并 且 正 在 等 竺 在 到 上 加 锁 。 

虽然 图 15-10 上 没有 标示 出 来 ， 但 锁 表 还 应 当 
维护 一 个 基于 事务 标识 符 的 索引 ， 这 样 它 可 以 有 效 
地 确定 给 定 事务 持 有 的 锁 集 。 T8 

锁 管理 器 这 样 处 理 请 求 : 图 15-10” 锁 表 
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。 当 一 条 锁 请 求 消息 到 达 时 ， 如 果 相 应 数据 项 的 链表 存在 ， 在 该 链表 末尾 增加 一 个 记录 ; 否则 ， 

新 建 一 个 仅 包含 该 请 求 记录 的 链表 。 
在 当前 没有 加 锁 的 数据 项 上 总 是 授予 第 一 次 加 锁 请 求 ， 但 当 事 务 向 已 被 加 锁 的 数据 项 申请 

加 锁 时 ， 只 有 当 该 请 求 与 当前 持 有 的 锁 相 容 ， 并且 所 有 先前 的 请 求 都 已 授予 锁 的 条 件 下 ， 锁 管 
理 器 才 为 该 请 求 授 予 锁 ， 和 否则 ， 该 请 求 只 好 等 待 。 

© 当 锁 管理 器 收 到 一 个 事务 的 解锁 消息 时 ， 它 将 与 该 事务 相对 应 的 数据 项 链表 中 的 记录 删除 ， 然 
后 检查 随后 的 记录 ， 如 果 有 ， 如 前 所 述 ， 就 看 该 请 求 能 否 被 授权 ， 如 果 能 ， 锁 管理 器 授权 该 请 
求 并 处 理 其 后 记录 ， 如 果 还 有 ， 类 似 地 一 个 接 一 个 地 处 理 。 

。 如 果 一 个 事务 中 止 ， 锁 管理 器 删除 该 事务 产生 的 正在 等 待 加 锁 的 所 有 请 求 。 一 旦 数据 库 系统 采 
取 适 当 动 作 撤 销 该 事务 ( 见 16. 3 节 ) ， 该 中 止 事务 持 有 的 所 有 锁 将 被 释放 。 

这 个 算法 保证 了 锁 请 求 无 饿 死 现 象 ， 因 为 在 先前 接收 到 的 请 求 正在 等 待 加 锁 时 ， 后 来 者 不 可 能 获 
得 授权 。 我 们 稍 后 将 在 15. 2. 2 节 学 习 检 测 和 处 理 死 锁 。17. 2. 1 节 阐 述 另 一 个 实现 一 一 在 锁 申请 /授权 
上 利用 共享 内 存 取代 消息 传递 。 

15. 1.5 基于 图 的 协议 

正如 15. 1.3 节 提 到 的 ， 如 果 我 们 要 开发 非 两 阶段 协议 ， 我 们 需要 有 关 每 个 事务 如 何 存 取 数 据 库 的 
附加 信息 。 有 多 种 不 同 模型 可 以 为 我 们 提供 这 些 附加 信息 ， 每 一 种 所 提供 的 信息 量 大 小 不 同 。 最 简单 
的 模型 要 求 我 们 事先 知道 访问 数据 项 的 顺序 。 在 已 知 这 些 信 息 的 情况 下 ， 有 可 能 构造 出 非 两 阶段 的 封 
锁 协 议 ， 并 且 无 论 如 何 ， 仍 然 保 证 冲突 可 串 行 性 。 

670 为 获取 这 些 事先 的 知识 ， 我 们 要 求 所 有 数据 项 集合 D = | di, d, © d, | 满足 偏 序 一 ， 如果 d,— 
671 | 上， 则 任何 既 访 问 d, 又 访问 d, 的 事务 必须 首先 访问 di, WAV d;。 这 种 偏 序 可 以 是 数据 的 逻辑 或 物 
理 组 织 的 结果 ， 也 可 以 只 是 为 了 并 发 控制 而 加 上 的 。 

偏 序 意味 着 集合 D 可 以 视 为 有 向 无 环 图 ， 称 为 数据 库 图 ( database graph)。 在 本 节 中 ,为 了 简单 起 
见 ， 我 们 只 关心 那些 带 根 树 的 图 。 我 们 将 给 出 一 个 称 为 树 形 协议 的 简单 协议 ， 该 协议 只 使 用 排他 锁 。 
其 他 更 复杂 的 基于 图 的 封锁 协议 可 以 参阅 文献 注解 中 给 出 的 有 关 文献 。 

在 树 形 协议 (tree protocol) 中 ， 可 用 的 加 锁 指 令 只 有 lock- D 
X。 每 个 事务 7, 对 一 数据 项 最 多 能 加 一 次 锁 ， 并 且 必 须 遵 从 以 
下 规则 : Ce) c 

1.7 首次 加 锁 可 以 对 任何 数据 项 进行 。 

2. 此 后 ，7. 对 数据 项 0 加 锁 的 前 提 是 了. 当前 持 有 O 的 父 
项 上 的 锁 。 © 


3. 对 数据 项 解锁 可 以 随时 进行 。 
4. 数据 项 被 7, 加 锁 并 解锁 后 ，7 不 能 再 对 该 数据 项 加 锁 。 ©) C Eà 
所 有 满足 树 形 协 议 的 调度 是 冲突 可 串 行 化 的 。 
为 了 说 明 这 个 协议 ， 考 察 如 图 15-11 所 示 的 数据 库 图 。 下 人 
面 4 个 事务 遵从 该 图 的 树 形 协 议 。 我 们 只 列 出 了 加 锁 、 解 锁 图 15-11 树 形 结构 数据 库 图 
672 ] 指令 : 





Tœ: lock-X(B); lock-X(E) ; lock-X(D); unlock(B) ; unlock(£) ; lock-X(G) ; 
unlock(D) ; unlock( G). 

T, : lock-X(D) ; lock-X(H) ; unlock( D); unlock(H). 

T: lock-X(B); lock-X(E); unlock(£) ; unlock( B). 

T,,: lock-X(D); lock-X(H) ; unlock(D); unlock(H). 


这 4 个 事务 参与 的 一 个 可 能 的 调度 如 图 15-12 Prax. TER. 在 执行 时 ， 事 务 Ti 持 有 两 棵 互相 分 离 
的 子 树 的 锁 。 

不 难 发 现 如 图 15-12 所 示 的 调度 是 冲突 可 串 行 化 的 。 可 以 证 明 树 形 协议 不 仅 保证 冲突 可 串 行 性 ， 
而 且 保 证 不 会 产生 死 锁 。 
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图 15-12 所 示 的 树 形 协议 不 保证 可 恢复 性 和 无 级 联 回 滚 。 为 了 保证 可 恢复 性 和 无 级 联 回 滚 ， 可 以 
将 协议 修改 为 在 事务 结束 前 不 允许 释放 排他 锁 。 直 到 事务 结束 前 一 直 持 有 排他 锁 降 低 了 并 发 性 。 这 里 
有 一 个 提高 并 发 性 的 替代 方案 ， 但 它 只 保证 可 恢复 性 : 为 每 一 个 发 生 了 未 提交 写 操作 的 数据 项 ， 我 们 
记录 是 哪个 事务 最 后 对 它 执行 了 写 操作 ， 当 事务 T, 执行 了 对 未 提交 数据 项 的 读 操作 ， 我 们 就 在 最 后 对 
该 数据 项 执行 了 写 操作 的 事务 上 记录 一 个 7 的 提交 依赖 (commit dependency) ， 在 有 T, 的 提交 依赖 的 所 
有 事务 提交 完成 之 前 ，7, 不 得 提交 。 如 果 其 中 任何 一 个 事务 中 止 ，7 也 必须 中 止 。 





与 两 阶段 圭 锁 协议 不 同 ， 树 形 协议 不 会 产生 死 锁 ， tg | ot 7 ds 
因此 不 需要 回 滚 ， 这 一 点 树 形 封锁 协议 要 优 于 两 阶段 lock-x(B) E 
封锁 协议 。 树 形 封锁 协议 的 另 一 个 优点 是 可 以 在 较 时 | 

时 候 释 放 锁 。 较 早 解 锁 减 少 了 等 待 时 间 ， 增加 了 并 unlock(D) 

发 性 。 lock-X(E) 


lock-x(D) 
然而 ， 在 某 些 情况 下 ， 该 协议 也 有 其 缺点 ， 事 务 unlock(B) | 


有 可 能 必须 给 那些 根本 不 访问 的 数据 项 加 锁 。 例 如 ， Yoke PEN 
如 果 某 事务 要 访问 图 15-11 所 示 数 据 库 图 中 的 数据 项 4 lock-x(E) 
与 J， 则 该 事务 不 仅 要 给 4 与 ] 加 锁 ， 而 且 还 要 给 B、 jookx(c) | moo 
D 与 及 数据 项 加 锁 。 这 种 额外 的 封锁 导致 封锁 开销 增 。 unlock(D) 


lock-x(D) 











加 ， 可 能 造成 额外 的 等 待 时 间 ， 并 且 可 能 引起 并 发 性 eek 
降低 。 此 外 ， 如 果 事 先 没有 得 到 哪些 数据 项 需要 加 锁 | unlock(D) 
的 知识 ， 事 务 将 必须 给 树 根 加 锁 ， 这 会 大 大 降低 并 ee 
发 性 。 unlock(B) 


unlock(G) 
对 于 一 个 事务 集 ， 可 能 存在 某 些 不 能 通过 树 形 封 


锁 协议 得 到 的 冲突 可 串 行 化 调度 。 事 实 上 ， 一 些 两 阶 。 图 15-12 在 树 形 协议 下 的 可 品行 化 调度 
段 封锁 协议 中 可 行 的 调度 在 树 形 封锁 协议 下 是 不 可 行 
的 ， 反 之 亦 然 。 习 题 中 对 这 样 的 调度 的 例子 进行 了 探讨 。 


15.2 死 锁 处 理 


如 果 存 在 一 个 事务 集 ， 该 集合 中 的 每 个 事务 在 等 待 该 集合 中 的 另 一 个 事务 ， 那 么 我 们 说 系统 处 于 
死 锁 状态 。 更 确切 地 说 ， 存 在 一 个 等 待 事务 集 | Tu, 7T,,…7,1 ,使 得 Ty ESRA T 锁 住 的 数据 项 ，7 
正 等 待 被 T, 锁 住 的 数据 项 ，…，7,_, 正 等 待 被 T, EN BEM, H T, 正 等 待 被 7, 锁 住 的 数据 项 。 在 
这 种 情况 下 ， 没 有 一 个 事务 能 取得 进展 。 

此 时 ， 系 统 唯 一 的 补救 措施 是 采取 激烈 的 动作 ， 如 回 滚 某 些 陷于 死 锁 的 事务 。 事 务 有 可 能 只 部 分 
回 滚 ， 即 事务 回 滚 到 这 样 的 点 之 前 ， 它 在 该 点 得 到 一 个 锁 ， 而 释放 该 锁 就 可 以 解决 死 锁 。 

处 理 死 锁 问 题 有 两 种 主要 的 方法 。 我 们 可 以 使 用 死 锁 预 防 ( deadlock prevention ) 协议 保证 系统 永 不 
进入 死 锁 状 态 。 另 一 种 方法 是 ,我们 人 允许 系统 进入 死 锁 状态 ， 然 后 试 着 用 死 锁 检测 (deadlock detection) 
与 死 锁 恢复 ( deadlock recovery) 机 制 进行 恢复 。 正 如 我 们 将 要 看 到 的 那样 ， 两 种 方法 均 有 可 能 引起 事务 
回 滚 。 如 果 系 统 进 入 死 锁 状态 的 概率 相对 较 高 ， 则 通常 使 用 死 锁 预防 机 制 ; 否则 ， 使 用 检测 与 恢复 机 
制 会 更 有 效 。 

注意 ， 检 测 与 恢复 机 制 带 来 各 种 开销 ， 不 仅 包括 在 运行 时 维护 必要 信息 及 执行 检测 算法 的 代价 ， 
还 要 包括 从 死 锁 中 恢复 所 固有 的 潜在 损失 。 

15.2.1 死 锁 预防 

预防 死 锁 有 两 种 方法 。 一 种 方法 是 通过 对 加 锁 请 求 进 行 排序 或 要 求 同 时 获得 所 有 的 锁 来 保证 不 会 
发 生 循环 等 待 。 另 一 种 方法 比较 接近 死 锁 恢复 ， 每 当 等 待 有 可 能 导致 死 锁 时 ， 进 行事 务 回 滚 而 不 是 等 
待 加 锁 。 

第 一 种 方法 下 最 简单 的 机 制 要 求 每 个 事务 在 开始 之 前 封锁 它 的 所 有 数据 项 。 此 外 ， 要 么 一 次 全 部 
封锁 要 么 全 不 封锁 。 这 个 协议 有 两 个 主要 的 缺点 ，(1) 在 事务 开始 前 通常 很 难 预知 哪些 数据 项 需要 封 
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锁 。(2) 数 据 项 使 用 率 可 能 很 低 ， 因 为 许多 数据 项 可 能 封锁 很 长 时 间 却 用 不 到 。 

防止 死 锁 的 另 一 种 机 制 是 对 所 有 的 数据 项 强加 一 个 次 序 ， 同 时 要 求 事务 只 能 按 次 序 规定 的 顺序 封 
锁 数 据 项 。 我 们 曾经 在 树 形 协议 中 讲述 过 一 个 这 样 的 机 制 ， 其 中 采用 一 个 偏 序 的 数据 项 。 

该 方法 的 一 个 变种 是 使 用 数据 项 与 两 阶段 封锁 关联 的 全 序 。 一 旦 一 个 事务 锁 住 了 某 个 特定 的 数据 
项 ， 它 就 不 能 申请 顺序 中 位 于 该 数据 项 前 面 的 数据 项 上 的 锁 。 只 要 在 事务 开始 执行 之 前 ， 它 要 访问 的 
数据 项 集 是 已 知 的 ， 该 机 制 就 容易 实现 。 如 果 使 用 了 两 阶段 封锁 ， 湾 在 的 并 发 控制 系统 就 不 需要 更 改 : 
所 需要 的 是 ， 保 证 锁 的 申请 按照 正确 的 顺序 。 

防止 死 锁 的 第 二 种 方法 是 使 用 抢占 与 事务 回 滚 。 在 抢占 机 制 中 ， 若 事务 7 所 申请 的 锁 已 被 事务 T, 
RA, MET T, 的 锁 可 能 通过 回 滚 事务 T, 被 抢占 (preempted) ， 并 将 锁 授 予 也。 为 控制 抢占 ， 我 们 给 每 
个 事务 赋 一 个 唯一 的 时 间 惟 ， 系 统 仅 用 时 间 惟 来 决定 事务 应 当 等 待 还 是 回 滚 。 并 发 控制 仍 使 用 封锁 机 人 制 。 
若 一 个 事务 回 滚 ， 则 该 事务 重启 时 保持 原 有 的 时 间 戳 。 已 提出 利用 时 间 戳 的 两 种 不 同 的 死 锁 预防 机 制 ; 

1. wait-die 机 制 基于 非 抢 占 技术 。 当 事务 T, 申请 的 数据 项 当前 被 7 持 有 ， 仅 当 了 的 时 间 惟 小 于 了 
的 时 间 戳 ( 即 ，7 HeT Æ), R T, E BW, T, 回 滚 (死亡 ) 。 

例如 ， 假 设 事 务 Ti,、Ti; 及 Ti 的 时 间 惟 分 别 为 5、10 与 15。 如 果 7 申请 的 数据 项 当前 被 Ti; 持 有 ， 
TW Ti 将 等 待 。 如 果 Ti。 申请 的 数据 项 当前 被 Ti; 持 有 ， 则 Ti 将 回 深 。 

2. wound-wait 机 制 基于 抢占 技术 ， 是 与 wait-die 相反 的 机 制 。 当 事务 T, 申请 的 数据 项 当前 被 了 
RA, M47, OA T, Oe RC BN, T, He T, ER), RFT Eff T, T, 回 滚 (7 被 

675 | 也 伤害 ) 。 

回 到 前 面 的 例子 ， 对 于 事务 Tua, TsK Te, WR Tu PAKSEMA TAFA, M 了 .将 从 7: 抢 
占 该 数据 项 ，7; 将 回 滚 。 如 果 Te 申请 的 数据 项 当前 被 Ti; 持 有 ， 则 7, 将 等 待 。 

两 种 机 制 都 面临 的 主要 问题 是 可 能 发 生 不 必要 的 回 滚 。 

另 一 种 处 理 死 锁 的 简单 方法 基于 锁 超 时 (lock timeout) 。 在 这 种 方法 中 ， 申 请 锁 的 事务 至 多 等 待 一 
段 给 定 的 时 间 。 若 在 此 期 间 内 未 授予 该 事务 锁 ， 则 称 该 事务 超时 ， 此 时 该 事务 自己 回 滚 并 重启 。 如 果 
确实 存在 死 锁 ， 卷 人 死 锁 的 一 个 或 多 个 事务 将 超时 并 回 滚 ， 人 允许 其 他 事务 继续 。 该 机 制 介 于 死 锁 预 防 
(不 会 发 生死 锁 ) 与 死 锁 检 测 及 恢复 之 间 ， 死 锁 检 测 与 恢复 在 15. 2. 2 节 讲 述 。 

超时 机 制 的 实现 极其 容易 ， 并 且 如 果 事 务 是 短 事务 并 且 长 时 间 等 待 很 可 能 由 死 锁 引 起 的 ， 该 机 制 
运作 良好 。 然 而 ， 一 般 而 言 很 难 确定 一 个 事务 超时 之 前 应 等 待 多 长 时 间 。 如 果 已 发 生死 锁 ， 等 待 时 间 
太 长 导致 不 必要 的 延迟 。 如 果 等 待 时 间 太 短 ， 即 便 没 有 死 锁 ， 也 可 能 引起 事务 回 滚 ， 造 成 资源 浪费 。 
该 机 制 也 可 能 会 产生 饿 死 。 因 此 ， 基 于 超时 的 机 制 应 用 有 限 。 

15.2.2 ” 死 锁 检测 与 恢复 

如 果 系 统 没 有 采用 能 保证 不 产生 死 锁 的 协议 ， 那 么 系统 必须 采用 检测 与 恢复 机 制 。 检 查 系 统 状态 
的 算法 周期 性 地 激活 ， 判 断 有 无 死 锁 发 生 。 如 果 发 生死 锁 ， 则 系统 必须 试 着 从 死 锁 中 恢复 。 为 实现 这 
一 点 ， 系 统 必须 : 

。 维护 当前 将 数据 项 分 配给 事务 的 有 关 人 信息， 以 及 任何 尚未 解决 的 数据 项 请 求 信息 。 

© 提供 一 个 使 用 这 些 信息 判断 系统 是 否 进 入 死 锁 状 态 的 算法 。 

。 当 检 测算 法 判定 存在 死 锁 时 ， 从 死 锁 中 恢复 。 

本 节 详 细 讲 述 上 述 问题 。 

15.2.2.1 死 锁 检测 

死 锁 可 以 用 称 为 等 待 图 ( wait-for graph) 的 有 向 图 来 精确 描述 。 该 图 由 C=(V, E) 对 组 成 其 中 V 

EMAK, E 是 边 集 。 顶 点 集 由 系统 中 的 所 有 事务 组 成 ， 边 集 E 的 每 一 元 素 是 一 个 有 序 对 7. 一 7。 如 
RTT, 属于 E， 则 存在 从 事务 7, BIT, 的 一 条 有 向 边 ， 表 示 事 务 T, 在 等 待 7 释放 所 需 数据 项 。 

当 事 务 7, 申请 的 数据 项 当前 被 7 持 有 时 ， 边 7. 一 7 被 插入 等 待 图 中 。 只 有 当 事 务 T, 不 再 持 有 事 
务 T, 所 需 数据 项 时 ， 这 条 边 才 从 等 待 图 中 删除 。 

当 且 仅 当 等 待 图 包含 环 时 ， 系 统 中 存在 死 锁 。 在 该 环 中 的 每 个 事务 称 为 处 于 死 锁 状 态 。 要 检测 死 
锁 ， 系 统 需要 维护 等 竺 图 ， 并 周期 性 地 激活 一 个 在 等 待 图 中 搜索 环 的 算法 。 
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为 说 明 这 些 概 念 ， 考 虑 图 15-13 所 示 的 等 待 图 ， 它 说 明了 下 面 这 些 情形 : 
。 事务 T- EFFES Ti 与 Too 
© 事务 To EFFES Tso 


。 事务 7 在 等 竺 事务 Pu 。 
由 于 该 等 待 图 无 环 ， 因 此 系统 没有 处 于 死 锁 状态 ， @ 
现在 假设 事务 Tu 申请 事务 Ti 持 有 的 数据 项 。 边 Ty Ty, BEIM A SE (a) 
图 中 ， 得 到 图 15-14 所 示 的 系统 新 状态 。 此 时 ， 该 等 待 图 包含 环 : 
Ts 一 72 一 To 一 Ts 图 15-13 无 环 等 待 图 

意味 着 事务 Ta, To 7 都 处 于 死 锁 状态 。 

由 此 ， 引 出 下 面 的 问题 : 我 们 何 时 激活 检测 算法 ? 答案 取决 于 两 个 因素 : 

1. 死 锁 发 生 频 度 怎样 ? 

2. 有 多 少 事务 将 受到 死 锁 的 影响 ? 

如 果 死 锁 频繁 发 生 ， 则 检测 算法 应 比 通常 情况 下 激活 得 更 频繁 。 分 配给 处 于 死 锁 状 态 的 事务 的 数 
据 项 在 死 锁 解除 之 前 不 能 为 其 他 事务 获取 。 此 外 ， 等待 图 中 环 的 数目 也 可 能 增 大 。 在 最 坏 的 情况 下 ， 
我 们 要 在 每 个 分 配 请 求 不 能 立即 满足 时 激活 检测 算法 。 

15. 2. 2.2 从 死 锁 中 恢复 

当 一 个 检测 算法 判定 存在 死 锁 时 ， 系 统 必须 从 死 锁 中 恢复 a) (Ta) 
( recover) 。 解 除 死 锁 最 通常 的 做 法 是 回 滚 一 个 或 多 个 事务 。 需 采取 的 动 a) / 
作 有 三 个 。 

1. 选择 牺牲 者 ; 给 定 处 于 死 锁 状态 的 事务 集 ， 为 解除 死 锁 ， 我 们 g> 
必须 决定 回 滚 哪 一 个 (或 哪 一 些 ) 事 务 以 打破 死 锁 。 我 们 应 使 事务 回 滚 
带 来 的 代价 最 小 。 可 惜 “ 最 小 代价 "这 个 词 并 不 准确 。 很 多 因素 影响 事 
务 回 滚 代价 ， 其 中 包括 : 

a 事务 已 计算 了 多 久 ， 并 在 完成 其 指定 任务 之 前 该 事务 还 将 计算 多 长 时 间 。 

b. 该 事务 已 使 用 了 多 少数 据 项 。 

c. 为 完成 事务 还 需 使 用 多 少数 据 项 。 

d 回 滚 时 将 牵涉 多 少 事务 。 

2. DBR: 一 旦 我 们 决定 了 要 回 滚 哪个 事务 ， 就 必须 决定 该 事务 回 滚 多 远 。 
最 简单 的 方法 是 彻底 回 滚 (total rollback); 中 止 该 事务 ， 然 后 重新 开始 。 然 而 ， 事 务 只 回 滚 到 可 以 解除 
死 锁 处 会 更 有 效 。 这 种 部 分 回 滚 (partial rollback) 要 求 系统 维护 所 有 正在 运行 事务 的 额外 状态 信息 。 确 
切 地 说 ， 需 要 记录 锁 的 申请 /授予 序列 和 事务 执行 的 更 新 。 死 锁 检 测 机 制 应 当 确定 ， 为 打破 死 锁 ， 选 定 
的 事务 需要 释放 哪些 锁 。 选 定 的 事务 必须 回 滚 到 获得 这 些 锁 的 第 一 个 之 前 ， 并 取消 它 在 此 之 后 的 所 有 
动作 。 恢 复 机 制 必须 能 够 处 理 这 种 部 分 回 滚 。 而 且 ， 事 务必 须 能 够 在 部 分 回 滚 之 后 恢复 执行 。 有 关 参 [678 
考 文献 见 文献 注解 。 

3. RHE: 在 系统 中 ， 如 果 选 择 牺 牲 者 主要 基于 代价 因素 ， 有 可 能 同一 事务 总 是 被 选 为 牺牲 者 。 这 
样 一 来 ， 该 事务 总 是 不 能 完成 其 指定 任务 ， 这 样 就 发 生 饿 死 ( starvation ) 。 我 们 必须 保证 一 个 事务 被 选 
为 牺牲 者 的 次 数 有 限 ( 且 较 少 ) 。 最 常用 的 方案 是 在 代价 因素 中 包含 回 滚 次 数 。 


15.3 多 粒度 


到 目前 为 止 所 讲 的 并 发 控制 机 制 中 ， 我 们 将 一 个 个 数据 项 作为 进行 同步 执行 的 单元 。 

然而 ， 某 些 情况 下 需要 把 多 个 数据 项 聚 为 一 组 ， 将 它们 作为 一 个 同步 单元 ， 因 为 这 样 会 更 好 。 例 
如 ， 如 果 事 务 T, 需要 访问 整个 数据 库 ， 使 用 的 是 一 种 封锁 协议 ， 则 事务 T, 必须 给 数据 库 中 每 个 数据 项 
加 锁 。 显 然 ， 执 行 这 些 加 锁 操 作 是 很 费时 的 。 要 是 7, 能 够 只 发 出 单个 封锁 整个 数据 库 的 加 锁 请 求 ， 那 
会 更 好 。 另 一 方面 ， 如 果 事 务 T, 只 需要 存 取 少量 数据 项 ， 就 不 应 要 求 给 整个 数据 库 加 锁 ， 否 则 并 发 性 
MERT. 


图 15-14 有 一 个 环 的 等 待 图 
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我 们 需要 的 是 一 种 允许 系统 定义 多 级 粒度 ( granularity) 的 机 制 。 这 通过 允许 各 种 大 小 的 数据 项 并 定 
义 数 据 粒 度 的 层次 结构 ， 其 中 小 粒度 数据 项 能 套 在 大 粒度 数据 项 中 来 实现 。 这 种 层次 结构 可 以 图 形 化 
地 表示 为 树 。 注 意 ， 这 里 所 描述 的 树 与 树 形 协议 ( 见 15. 1. 5 节 ) 所 用 的 树 的 概念 完全 不 同 。 多 粒度 树 中 
的 非 叶 结 点 表示 与 其 后 代 相 联系 的 数据 。 在 树 形 协议 中 ， 每 个 结 点 是 一 个 相互 独立 的 数据 项 。 





图 15-15 粒度 层次 图 


作为 例子 ， 考 虑 图 15-15 所 示 的 树 。 它 由 4 层 结 点 组 成 ， 最 高 层 表示 整个 数据 库 ， 其 下 是 area 类 
型 的 结 点 ， 数 据 库 恰好 由 这 些 区 域 组 成 。 每 个 区 域 又 以 file 类 型 结 点 作为 子 结 点 ， 每 个 区 域 恰好 由 作 
为 其 子 结 点 的 文件 结 点 组 成 。 没 有 任何 文件 处 于 一 个 以 上 区 域 中 。 最 后 ， 每 个 文件 由 record 类 型 的 结 
点 组 成 。 和 前 面 一 样 ， 文 件 恰好 由 作为 其 子 结 点 的 记录 组 成 ， 并 且 任何 记录 不 能 同时 属于 多 个 文件 。 
树 中 每 个 结 点 都 可 以 单独 加 锁 。 正 如 我 们 在 两 阶段 封锁 协议 中 所 做 的 那样 ， 我 们 将 使 用 共享 
(shared) 锁 与 排他 (exclusive) 锁 。 当 事务 对 一 个 结 点 加 锁 ， 或 为 共享 锁 或 为 排他 锁 ， 该 事务 也 以 同样 类 
型 的 锁 隐 式 地 封锁 这 个 结 点 的 全 部 后 代 结 点 。 例 如 ， 若 事务 7 给 图 15-15 中 的 F, 显 式 (explicit lock) Hb 
[679] 加 排他 锁 ， 则 事务 7, 也 给 所 有 属于 该 文件 的 记录 隐 式 (implicit lock) 地 加 排他 锁 。 没 有 必要 显 式 地 给 P, 
中 的 单条 记录 逐个 加 锁 。 
假设 事务 7 希望 封锁 文件 F, 的 记录 六 o BFT, 显 式 地 给 F, 加 锁 ， 因 此 意味 着 六 也 被 加 锁 ( 隐 式 
地 ) 。 但 是 ， 当 了 发 出 对 六 加 锁 的 请 求 时 , r, 没有 显 式 加 锁 ! 系统 如 何 判定 是 否 T, 可 以 封锁 7 呢 ? T, 
必须 从 树 根 到 n, 进行 遍历 ， 如 果 发 现 此 路 径 上 某 个 结 点 的 锁 与 要 加 的 锁 类 型 不 相 容 ， 则 7 必须 延迟 。 


IS IX S SIX X 
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图 1S-16 AER 


现 假设 事务 T, 希望 封锁 整个 数据 库 。 为 此 ， 它 只 需 给 层次 结构 图 的 根 结 点 加 锁 。 不 过 ， 请 注意 7, 
给 根 结 点 加 锁 不 会 成 功 ， 因 为 目前 也 在 树 的 某 部 分 持 有 锁 ( 具体 地 说 ， 对 文件 F, 持 有 锁 ) 。 但 是 ， 系 
统 是 怎样 判定 根 结 点 是 否 可 以 加 锁 呢 ? 一 种 可 能 的 方法 是 搜索 整 棵 树 。 然 而 ， 这 个 方法 破坏 了 多 粒度 
封锁 机 制 的 初 囊 。 获 取 这 种 知识 的 一 个 更 有 效 的 方法 是 引入 一 种 新 的 锁 类 型 ， 即 意向 锁 类 型 (intention 
lock mode) 。 如 果 一 个 结 点 加 上 了 意向 锁 ， 则 意味 着 要 在 树 的 较 低 层 进行 显 式 加 锁 ( 也 就 是 说 ， 以 更 小 
的 粒度 加 锁 )。 在 一 个 结 点 显 式 加 锁 之 前 ， 该 结 点 的 全 部 祖先 结 点 均 加 上 了 意向 锁 。 因 此 ， 事 务 不 必 搜 
索 整 棵 树 就 能 判定 能 否 成 功 地 给 一 个 结 点 加 锁 。 和 希望 给 某 个 结 点 (如 8) 加 锁 的 事务 必须 遍历 从 根 到 0 
的 路 径 。 在 遍历 树 的 过 程 中 ， 该 事务 给 各 结 点 加 上 意向 锁 。 

与 共享 锁 相 关联 的 是 一 种 意向 锁 ， 与 排他 锁 相 关联 的 是 另 一 种 意向 锁 ， 如 果 一 个 结 点 加 上 了 共享 
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型 意向 (intention-shared (IS) mode) 锁 ， 那 么 将 在 树 的 较 低 层 进行 显 式 封锁 ， 但 只 能 加 共享 锁 。 类 似 地 ， 
如 果 一 个 结 点 加 排他 型 意向 (intention-exclusive( IX) mode) 锁 ， 那 么 将 在 树 的 较 低 层 进 行 显 式 封 锁 ， 可 
以 加 排他 锁 或 共享 锁 。 最 后 ， 若 一 个 结 点 加 上 了 共享 排他 型 意向 锁 ( shared and intention-exclusive ( SIX ) 
mode) ， 则 以 该 结 点 为 根 的 子 树 显 式 地 加 了 共享 锁 , 并 且 将 在 树 的 更 低层 显 式 地 加 排他 锁 。 这 些 锁 类 
型 的 相 容 函 数 如 图 15-16 所 示 。 [680 | 
多 粒度 封锁 协议 ( multiple-granularity locking protocol) 采 用 这 些 锁 类 型 保证 可 串 行 性 。 每 个 事务 了. 要 
求 按 如 下 规则 对 数据 项 0 加 锁 : 
1. 事务 7 必须 遵从 图 15-16 所 示 的 锁 类 型 相 容 函数 。 
. 事务 T, 必须 首先 封锁 树 的 根 结 点 ， 并 且 可 以 加 任意 类 型 的 锁 
. 仅 当 7 当前 对 O 的 父 结 点 具有 IX 或 IS BUT, T, 对 结 点 @ aA S ak IS Mi. 
. 仅 当 7 当前 对 O 的 父 结 点 具有 IX 或 SIX giit, T, 对 结 点 @ 可 加 X、SIX 或 IX Bi. 
. 仅 当 了 未曾 对 任何 结 点 解锁 时 ，7, 可 对 结 点 加 锁 (也 就 是 说 ，7. 是 两 阶段 的 )。 
. 仅 当 7; 当前 不 持 有 Q 的 子 结 点 的 锁 时 ，7, 可 对 结 点 0 解锁 。 
多 粒度 协议 要 求 加 锁 按 自 顶 向 下 的 顺序 ( 根 到 叶 ) ， 而 锁 的 释放 则 按 自 底 向 上 的 顺序 ( 叶 到 根 ) < 
作为 该 协议 的 例子 ， 考 虑 图 15-15 所 示 的 树 及 下 面 的 事务 : 
。 假设 事务 Ta EXIF F, 的 记录 r。。 那 么 ,TD, 需 给 数据 库 、 区 域 4,， 以 及 ,加 IS 锁 ( 按 此 顺 
FF), 最 后 给 7 加 S 锁 。 
。 假设 事务 7,, 要 修改 文件 的 记录 7。 那么 ，7;, 需 给 数据 库 、 区 域 4 ， 以 及 文件 F,( 按 此 顺 
FF) On IX $i, 最 后 给 记录 7 加 X 锁 。 
。 假设 事务 7 要 读 取 文件 F, 的 所 有 记录 。 那 么 ，7,; 需 给 数据 库 和 区 域 4,( 按 此 顺序 ) 加 IS Bi, [681] 
最 后 给 Ff 加 S 锁 。 
。 假设 事务 7 要 读 取 整个 数据 库 。 它 在 给 数据 库 加 S 锁 后 就 可 读 取 。 
我 们 注意 到 事务 Ta, T5 7 可 以 并 发 地 存 取 数 据 库 。 事 务 7 可 以 与 7 并 发 执行 ， 但 不 能 与 Ta 
或 7 并 发 执行 。 
该 协议 增强 了 并 发 性 ， 减 少 了 锁 开 销 。 它 在 由 如 下 事务 类 型 混合 而 成 的 应 用 中 尤其 有 用 : 
© 只 访问 几 个 数据 项 的 短 事务 。 
。 由 整个 文件 或 一 组 文件 来 生成 报表 的 长 事务 。 
类 似 的 封锁 协议 可 以 用 于 数据 粒度 按 有 向 无 环 图 组 织 的 数据 库 系 统 中 ， 人 参考 文献 见 文献 注解 。 与 
在 两 阶段 封锁 协议 中 一 样 ， 在 多 粒度 协议 中 也 可 能 存在 死 锁 。 有 多 种 技术 可 以 用 来 减少 多 粒度 协议 中 
死 锁 发 生 的 频 度 ， 甚 至 可 以 彻底 消除 死 锁 。 文 献 注 解 给 出 了 这 些 技术 的 相关 资料 。 


15.4 基于 时 间 戳 的 协议 


到 目前 为 止 我 们 所 讲述 的 封锁 协议 中 ， 每 一 对 冲突 事务 的 次 序 是 在 执行 时 由 二 者 都 申请 的 ， 但 类 
型 不 相 容 的 第 一 个 锁 决 定 的 。 另 一 种 决定 事务 可 串 行 化 次 序 的 方法 是 事先 选 定 事务 的 次 序 。 其 中 最 党 
FAAS PTE SE wt le] HE AP BL fl 
15.4.1 HEIR 

对 于 系统 中 每 个 事务 了. ， 我 们 把 一 个 唯一 的 固定 时 间 惟 和 它 联系 起 来 ， 此 时 间 戳 记 为 TS(7,)。 该 
时 间 戳 是 在 事务 T, 开始 执行 前 由 数据 库 系统 赋予 的 。 若 事务 T, 已 赋予 时 间 戳 人 (7 ) ， 此 时 有 一 新 事 
务 7 进入 系统 ， 则 TS(7,) < TS(T,) 。 实 现 这 种 机 制 可 以 采用 下 面 这 两 个 简单 的 方法 : 

1. 使 用 系统 时 钟 ( system clock) MIAVE AAT AR; 即 ， 事 务 的 时 间 戳 等 于 该 事务 进入 系统 时 的 时 
钟 值 。 

2. 使 用 逻辑 计数 器 (logical counter) ， 每 赋予 一 个 时 间 戳 ， 计 数 器 增加 计数 ; 即 ， 事 务 的 时 间 戳 等 
于 该 事务 进入 系统 时 的 计数 器 值 。 682 

事务 的 时 间 戳 决定 了 串 行 化 顺序 。 因 此 , Æ TSC) < TS(7T ) ， 则 系统 必须 保证 所 产生 的 调度 等 价 
于 事务 7 出 现在 事务 T, 之 前 的 某 个 串 行 调度 。 
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要 实现 这 个 机 制 ， 每 个 数据 项 0 需要 与 两 个 时 间 戳 值 相关 联 : 

e W-timestamp( 0) 表 示 成 功 执行 write( Q) 的 所 有 事务 的 最 大 时 间 戳 。 

e R-timestamp( 0) 表示 成 功 执行 read( 0) 的 所 有 事务 的 最 大 时 间 截 。 

每 当 有 新 的 read( 0) 或 write( Q) 指令 执行 时 ， 这 些 时 间 戳 就 更 新 。 

15. 4.2 ”时间 戳 排序 协议 

时 间 戳 排序 协议 (timestamp-ordering protocol ) 保证 任何 有 冲突 的 read 或 write 操作 按时 间 戳 顺序 执 
行 。 该 协议 运作 方式 如 下 : 

1. 假设 事务 T, 发 出 read( 0)。 

a. # TS(T,) < W-timestamp(Q ) M 7, 需要 读 和 的 OE RMR. A, read 操作 被 拒绝 ，7 
回 滚 。 

b. # TS(T,) =>W-timestamp(Q), ， 则 执行 read 操作 ，R -timestamp( 0) 被 设置 为 R-timestamp(O) 
与 TS(7,) 两 者 的 最 大 值 。 

2. 假设 事务 T, 发 出 write( Q). 

a. # TS(T,) < R-timestamp(Q), MW 7, 产生 的 Q 值 是 先前 所 需要 的 值 ， 且 系统 已 假定 该 值 不 会 
再 产生 。 因 此 ，write 操作 被 拒绝 ，T. AR. 

b. # TS(T,) < W-timestamp(Q), ， 则 T, 试图 写 入 的 OE. Alt, write 操作 被 拒绝 ，7 
回 滚 。 

c. 其 他 情况 ， 系 统 执行 write 操作 ， 将 W-timestamp( Q) REX TS(T,) . 

如 果 事 务 T, 由 于 发 出 read 或 write 操作 而 被 并 发 控制 机 制 回 滚 ， 则 系统 赋予 它 新 的 时 间 戳 并 重新 
启动 。 

683 为 说 明 这 个 协议 , 我 们 考虑 事务 Tp Tyo PI 7 显示 账户 4 与 也 的 内 容 : 
Ty: read ( B) ; 
read (A); 
display(4 + B). 
事务 Ts MAIKE BFR 50 美元 到 账户 4， 然 后 显示 两 个 账户 的 内 容 : 
Tx: read( B); 
B:= B -50; 
write( B) ; 
read (A); 
A:=A+ 50; 
write( A) ; 
display(A + B). 

在 说 明 时 间 戳 协议 下 的 调度 时 ， 我 们 将 假设 事务 在 执行 第 一 条 指令 之 前 的 那 一 刻 被 赋予 时 间 
惟 。 因 此 ， 在 如 图 15-17 所 示 的 调度 3 H, TST) <TS(7) ， 这 是 满足 时 间 戳 协议 的 一 个 可 能 
的 调度 。 

我 们 注意 到 前 面 的 执行 过 程 也 可 以 由 两 阶段 封锁 协议 产生 。 不 过 ， 存 在 满足 两 阶段 封锁 协议 却 不 





满足 时 间 惟 协议 的 调度 ， 反 之 亦 然 (见习 题 15. 29) 。 Ts Tas 
时 间 稚 排序 协议 保证 冲突 可 串 行 化 ， 这 因为 冲突 操作 按时 间 戳 顺 pega) 

序 进行 处 理 。 
该 协议 保证 无 死 锁 ， 因 为 不 存在 等 待 的 事务 。 但 是 ， 当 一 系列 冲 write(B) 

突 的 短 事务 引起 长 事务 反复 重启 时 ， 可 能 导致 长 事务 饿 死 的 现象 。 如 aA) oaks 

果 发 现 一 个 事务 反复 重启 ， 与 之 冲突 的 事务 应 当 暂 时 阻塞 ， 以 使 该 事  display(A + B) 

务 能 够 完成 。 ee a 
该 协议 可 能 产生 不 可 恢复 的 调度 。 然 而 ， 该 协议 可 以 进行 扩展 ， display(4 + B) 

用 以 下 几 种 方法 之 一 来 保证 调度 可 恢复 : 图 15-17 调度 3 


。 在 事务 末尾 执行 所 有 的 写 操作 能 保证 可 恢复 性 和 无 级 联 性 ， 这 
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些 写 操作 必须 具有 下 述 意 义 的 原子 性 : 在 写 操 作 正 在 执行 的 过 程 中 ， 任 何事 务 都 不 许 访问 已 写 
完 的 任何 数据 项 。 
© 可 恢复 性 和 无 级 联 性 也 可 以 通过 使 用 一 个 受 限 的 封锁 形式 来 保证 ， 由 此 ， 对 未 提交 数据 项 的 读 
操作 被 推迟 到 更 新 该 数据 项 的 事务 提交 之 后 ( 见习 题 15. 30) 。 
。 可 恢复 性 可 以 通过 跟踪 未 提交 写 操作 来 单独 保证 ， 一 个 事务 T, 读 取 了 其 他 事务 所 写 的 数据 ， 只 
有 在 其 他 事务 都 提交 之 后 ，7, 才能 提交 。15. 1. 5 节 概 述 过 的 提交 依赖 可 以 用 作 这 个 目的 。 
15.4.3 Thomas 与 规则 


我 们 现在 给 出 对 时 间 戳 排序 协议 的 一 种 修改 ， 它 允许 的 并 发 程度 比 15. 4. 2 节 中 的 协议 要 高 。 让 我 
们 考虑 图 15-18 所 示 的 调度 4， 并 应 用 时 间 戳 排序 协议 。 由 于 OT, SOF Ts 开始 ， 因 此 假定 TS(T) < TS 
(Ty). Tr 的 read(O) 操 作成 功 ，T2 的 write( Q) 操作 也 成 功 。 当 7 试图 进行 write( 0) 操作 时 ， 我 们 发 
L TS(T,,) < W-timestamp(Q), ly W-timestamp(Q) = TS(7T,,). PUA, Tn HI write( Q) 操作 被 拒绝 且 
事务 Ty 回 滚 。 


虽然 事务 Ty, 回 滚 是 时 间 戳 排序 协议 所 要 求 的， 但 这 是 不 必要 的 。 由 于 Ta r a 
已 经 写 人 了 Q, Ast TARG AWERI ERARE, 满足 TS(7,) <TS read) 
(Ts) 的 任何 事务 T, 试图 进行 read ( 0) 操作 时 均 回 深 ， 因 为 TS(7.) < W- ee write(Q) 
timestamp(O) Æ TS(T,) > TS( Ta ) 的 任何 事务 7 必须 读 由 Ta SAW Q 值 ， | 
而 不 是 T, BEBE AME. Æ 15-18 调度 4 


根据 以 上 分 析 ， 我 们 可 以 修改 时 间 截 排序 协议 而 得 到 一 个 新 版 本 的 协议 ， 

该 协议 在 某 些 特定 的 情况 下 忽略 过 时 的 write 操作 。 协 议 中 有 关 read 操作 的 规则 保持 不 变 ; 但 write 
操作 的 协议 规则 与 15. 4. 2 节 中 的 时 间 惟 排序 协议 略 有 区 别 。 

时 间 惟 排序 协议 所 做 的 这 种 修改 称 为 Thomas 写 规则 (Thomas' write rule): 假设 事务 7 发 出 write 
(Q). 

1. 4# TS(T,) < R-timestamp(Q), Wl 7, 7°42 85 Q 值 是 先前 所 需要 的 值 ， 且 系统 已 假定 该 值 不 会 再 
产生 。 因 此 ，write 操作 被 拒绝 ，7, ALR. 

2. # TS(T,) < W-timestamp(Q), W T, 试图 写 人 的 Q 值 已 过 时 。 因 此 ， 这 个 write 操作 可 忽略 。 

3. 其 他 情况 ， 执 行 write 操作 ， 将 W-timestamp( 0) 设 置 为 TS(7,)。 

以 上 规则 与 15. 4. 2 节 中 规则 的 区 别 在 第 二 条 ， 时 间 戳 排序 协议 在 T, 发 出 write(O) 且 TS(7 ) <W - 
timestamp (Q) 时 要 求 7, 回 滚 。 而 在 修改 后 协议 对 这 种 情况 的 处 理 是 , 在 TS(7,) > R-timestamp(O) 时 ， 
我 们 忽略 过 时 的 write 操作 。 

通过 忽略 写 ，Thomas 写 规 则 人 允许 非 冲 突 可 串 行 化 但 是 正确 的 调度 。 这 些 允 许 的 非 冲 突 可 串 行 化 调 
度 满 足 视图 可 串 行 化 调度 的 概念 ( 见 示例 框 ) Thomas 写 规则 实际 上 是 通过 删除 事务 发 出 的 过 时 的 
write 操作 来 使 用 视图 可 串 行 性 。 对 事务 的 这 种 修改 使 得 系统 可 以 产生 本 章 中 其 他 协议 所 不 能 产生 的 可 
BAT (CVA BE. PAGO, Fl 15-18 所 示 调 度 4 是 非 冲突 可 串 行 化 的 ， 因 此 在 两 阶段 封锁 协议 、 树 形 封锁 协 
议 或 时 间 戳 排序 协议 中 都 是 不 可 能 的 。 在 Thomas SHF, Ty 的 write( O ) 操作 将 忽略 ， 产 生 视 图 等 
价 于 串 行 调度 < Ta, Tx > 的 一 个 调度 。 


视图 可 串 行 化 
有 一 种 等 价 形式 比 冲突 等 价 的 限制 要 宽松 ， 但 这 种 等 价 形式 与 冲突 等 价 一 样 只 基于 事务 的 read 
与 write 操作 。 
考虑 两 个 调度 5 与 8'， 参 与 两 个 调度 的 事务 集 是 相同 的 ， 若 满足 下 面 三 个 条 件 ， 调 度 S 与 S' 就 
称 为 视图 等 价 (view equivalent) 的 : 
1. 对 于 每 个 数据 项 0， 若 事务 了. 在 调度 $ 中 读 取 了 Q@ 的 初始 值 ， 那 么 在 调度 S P T, 也 必须 读 
RQ 的 初始 值 。 
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2. 对 于 每 个 数据 项 O, FEARS PEST, 执行 了 read(Q@) 并 且 读 取 的 值 是 由 事务 T, 执行 
write(Q) 操作 产生 的 ; 则 在 调度 S P, T, 的 read(Q@) 操 作 读 取 的 值 0 也 必须 是 由 的 同一 个 write 
(Q) 操作 产生 的 。 

3. 对 于 每 个 数据 项 Q， 若 在 调度 S 中 有 事务 执行 了 最 后 的 write(Q@) 操 作 ， 则 在 调度 S 中 该 事务 

也 必须 执行 最 后 的 write(@) 操 作 。 

条 件 1 与 2 保证 在 两 个 调度 中 的 每 个 事务 都 读 取 相 同 的 值 ， 从 而 进行 相同 的 计算 。 条 件 3 与 条 
件 1、2 一 起 保证 两 个 调度 得 到 相同 的 最 终 系 统 状态 。 

视图 等 价 的 概念 引出 了 视图 可 串 行 化 的 概念 。 如 果 某 个 调度 视图 等 价 于 一 个 串 行 调度 ， 则 我 们 
说 这 个 调度 是 视图 可 串 行 化 (view serializable) 的 。 

举 个 例子 ， 假 设 我 们 在 调度 4 中 增加 事务 7 ， 由 此 得 到 以 下 视图 可 串 行 化 的 调度 (调度 5) : 





read (Q) 


write (Q) 5 
write (Q) 


实际 上 ， 调度 5 视图 等 价 于 囊 行 调度 <T,,， Tx, Tyo > ， 因 为 在 两 个 调度 中 read( O) 指令 均 是 读 
J Q 的 初始 值 ， 两 个 调度 中 729 均 最 后 写 入 @ 值 。 

每 个 冲突 可 串 行 化 调度 都 是 视图 可 串 行 化 的 ， 但 存在 非 冲 突 可 串 行 化 的 视图 可 囊 行 化 调度 。 事 
实 上 ， 调 度 5 就 不 是 冲突 可 囊 行 化 的 ， 因 为 每 对 连续 指令 均 冲 突 ， 从 而 交换 指令 是 不 可 能 的 。 

注意 ， 在 调度 5 中 ， 事 务 7 与 To 执行 write(Q@) 操 作 之 前 没有 执行 read(Q) 操 作 。 这 样 的 写 操 
作 称 作 盲 目 写 操作 (blind write)。 讶 目 写 操作 存在 于 任何 非 冲突 可 串 行 化 的 视图 可 串 行 化 调度 中 。 


15.5 基于 有 效 性 检查 的 协议 


在 大 部 分 事务 是 只 读 事 务 的 情况 下 ， 事 务 发 生 冲 突 的 频率 较 低 。 因 此 ， 许 多 这 样 的 事务 ， 即 使 在 
没有 并 发 控制 机 制 监控 的 情况 下 执行 ， 也 不 会 破坏 系统 的 一 致 状态 。 并 发 控制 机 制 带 来 代码 执行 的 开 


686 | 销 和 可 能 的 事务 延迟 ， 采 用 开销 较 小 的 机 制 是 我 们 所 希望 的 。 减 小 开销 面临 的 困难 是 我 们 事先 并 不 知 


687 | 道 哪些 事务 将 陷 人 冲突 中 。 为 获得 这 种 知识 ， 我 们 需要 一 种 监控 系统 的 机 制 。 

有 效 性 检查 协议 (validation protocol) 要 求 每 个 事务 T, 在 其 生命 周期 中 按 两 个 或 三 个 阶段 执行 ， 这 
取决 于 该 事务 是 一 个 只 读 事 务 还 是 一 个 更 新 事务 。 这 些 阶 段 顺 序 地 列 在 下 面 。 

1. 读 阶段 (read phase); 在 这 一 阶段 中 ， 系 统 执 行事 务 7,。 各 数据 项 值 被 该 入 并 保存 在 事务 Ti 的 
局 部 变量 中 。 所 有 write 操作 都 是 对 局 部 临时 变量 进行 的 ， 并 不 对 数据 库 进行 真正 的 更 新 。 

2. 有 效 性 检查 阶段 (validation phase): 对 事务 T, 进行 有 效 性 测试 (下 面 将 会 介绍 ) 。 判 定 是 否 可 以 
执行 write 操作 而 不 违反 可 串 行 性 。 如 果 事 务 有 效 性 测试 失败 ， 则 系统 终止 这 个 事务 。 

3. 写 阶 段 (write phase); 若 事务 T, 已 通过 有 效 性 检查 (第 2 步 ) ， 则 保存 了 任何 写 操作 结果 的 临时 
局 部 变量 值 被 复制 到 数据 库 中 。 只 读 事务 忽略 这 个 阶段 。 

每 个 事务 必须 按 以 上 顺序 经 历 这 些 阶段 。 然 而 ， 并 发 执行 的 事务 的 三 个 阶段 可 以 是 交叉 执行 的 。 

为 进行 有 效 性 检测 ， 我 们 需要 知道 事务 T, 的 各 个 阶段 何 时 进行 。 为 此 ， 我 们 将 三 个 不 同 的 时 间 戳 
与 事务 T, 相关 联 。 

1. Start(7,); 事务 T, 开始 执行 的 时 间 。 

2. Validation(7,): 事务 T, 完成 读 阶段 并 开始 其 有 效 性 检查 的 时 间 。 

3. Finish(7,): 事务 7, 完成 写 阶 段 的 时 间 。 

我 们 利用 时 间 戳 Validation( 7, ) 的 值 ， 通 过 时 间 戳 排序 技术 决定 可 串 行 性 顺序 。 因 此 , 4E TS(T,) = 
Validation(7,), HÆ TS(T,) <TS(T,) ， 则 产生 的 任何 调度 必须 等 价 于 事务 T, 出 现在 T, 之 前 的 某 个 
串 行 调度 。 我 们 选择 Validation( 7, ) 而 不 是 Start( 7 ) 作为 事务 T, 的 时 间 惟 是 因为 在 冲突 频 度 很 低 的 情况 
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下 期 望 有 更 快 的 响应 时 间 。 

BS 7, 的 有 效 性 测试 (validation test) 要 求 任何 满足 TS( 7,) <TS(7,) 的 事务 7, 必须 满足 下 面 两 条 件 
之 一 : 

1. Finish(7,) <Start(7,), AW T, 在世 开始 之 前 完成 其 执行 ， 所 以 可 串 行 性 次 序 得 到 了 保证 。 

2.7, 所 写 的 数据 项 集 与 了 , 所 读数 据 项 集 不 相交 ， 并 且 T, 的 写 阶 段 在 7 开始 其 有 效 性 检查 阶段 之 
前 完成 (Start(7,) < Finish( T,) < Validation( 7,))。 这 个 条 件 保证 7 与 7 HSRBE. AAT, 的 写 不 





影响 7, 的 读 ， 又 因为 7, 不 可 能 影响 T, 的 读 ， 从 而 保证 了 可 串 行 性 次 序 。 
作为 例子 ， 我 们 再 一 次 考虑 事务 Ts, 与 事务 Tuo 假设 TS(T,;) < TS Tos | Ts 

(7T%) ， 则 有 效 性 检查 阶段 成 功 地 产生 调度 6， 如 图 15-19 所 示 。 注 意 ， read(B) 

只 有 在 Ty 的 有 效 性 检查 阶段 之 后 才 写 实际 的 变量 。 因 此 ，7,s 读 取 B 与 4 ea 

的 旧 值 ， 且 该 调度 是 可 串 行 化 的 。 read(A) 
有 效 性 检查 机 制 自动 预防 级 联 回 滚 ， 因 为 只 有 发 出 写 操作 的 事务 提 站 


交 后 实际 的 写 才 发 生 。 然 而 ， 存 在 长 事务 俄 死 的 可 能 ， 原 因 是 一 系列 冲 。 Svsldutes 
突 的 短 事务 引起 长 事务 反复 重启 。 为 了 避免 狐 死 ， 与 之 冲突 的 事务 应 当 SPATE) 
暂时 阻塞 ， 以 使 该 长 事务 能 够 完成 。 write(B) 
在 有 效 性 检查 机 制 中 ， 由 于 事务 乐观 地 执行 ， 假 定 它们 能 够 完成 执 ie 
行 并 且 最 终 有 效 ， 因 此 也 称 为 乐观 的 并 发 控制 (optimistic concurrency 图 15-19 调度 6， 采 用 有 效 
control) 机 制 。 与 之 相反 ， 封 锁 和 时 间 惟 排序 是 斐 观 的 ， 因 为 当 它们 检测 。 ”性 检查 得 到 的 一 个 调度 
到 一 个 冲突 时 ,它们 强迫 事务 等 待 或 回 深 ， 即 使 该 调度 有 可 能 是 冲突 可 
串 行 化 的 。 


15.6 多 版 本 机 制 


目前 为 止 讲述 的 并 发 控制 机 制 要 么 延迟 一 项 操作 要 么 中 止 发 出 该 操作 的 事务 来 保证 可 串 行 性 。 例 
如 ，read 操作 可 能 由 于 相应 值 还 未 写 人 而 延迟 ; 或 因为 它 要 读 取 的 值 已 被 覆盖 而 被 拒绝 执行 ( 即 ， 发 
出 read 操作 的 事务 必须 中 止 ) 。 如 果 每 一 数据 项 的 旧 值 拷贝 保存 在 系统 中 ， 这 些 问题 就 可 以 避免 。 

在 多 版 本 并 发 控制 (multiversion concurrency control) 机 制 中 ， 每 个 write( O) 操 作 创建 0 的 一 个 新 版 
本 (version) 。 当 事务 发 出 一 个 read(Q) 操作 时 ， 并 发 控制 管理 器 选择 0 的 一 个 版 本 进行 读 取 。 并 发 控 
制 机 制 必须 保证 用 于 读 取 的 版 本 的 选择 能 保持 可 串 行 性 。 由 于 性 能 原因 ， 一 个 事务 能 容易 而 快速 地 判 
定 读 取 哪 个 版 本 的 数据 项 也 是 很 关键 的 。 

15.6.1 多 版 本 时 间 戳 排序 

时 间 截 排序 协议 可 以 扩展 为 多 版 本 的 协议 。 对 于 系统 中 的 每 个 事务 7 ， 我们 将 一 个 唯一 的 静态 时 
间 惟 与 之 关联 ， 记 为 TS(T ) 。 如 15. 4 TAR, 数据 库 系统 在 事务 开始 前 赋予 该 时 间 蕉 。 

对 于 每 个 数据 项 0， 有 一 个 版 本 序列 < 0, Q, 0> 与 之 关联 ， 每 个 版 本 0, 包含 三 个 数据 
FR: 

e Content 是 Q, 版 本 的 值 。 

e W-timestamp( 0) 是 创建 Q, 版 本 的 事务 的 时 间 戳 。 

e R-timestamp(Q) : 所 有 成 功 地 读 取 Q, 版 本 的 事务 的 最 大 时 间 戳 。 

事务 (如 7 ) 通 过 发 出 write(@O) 操 作 创建 数据 项 O 的 一 个 新 版 本 Q, WER content 字段 保存 事务 
T, 写 入 的 值 ， 系 统 将 W-timestamp 与 R-timestamp 初始 化 为 TS(7)-。 每 当 事 务 T, ERO, WAH R- 
timestamp(Q,) < TS(T) 时 ，R-timestamp 的 值 就 更 新 。 

下 面 展示 的 多 版 本 时 间 惟 排序 机 制 ( multiversion timestamp-ordering scheme ) 保证 可 串 行 性 。 该 机 制 
运作 如 下 : 假设 事务 T, 发 出 read( 0) 或 write(Q)#E, SQ, 表示 0 满足 如 下 条 件 的 版 本 ， 其 写 时 间 
Bie /\F REF TS(T,) 的 最 大 写 时 间 戳 。 

1. 如 果 事 务 T, 发 出 read(@) ， 则 返回 值 是 Q, HAR. 

2. 如 果 事 务 7 发 出 write(Q0), HÆ TS(T,) < R-timestamp(O,) ， 则 系统 回 滚 事务 7 ， 另 一 方面 ， 
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# TS(T,) = W-timestamp(Q,), WAR HO, WAR; 否则 ( 若 TS(7 ) > R-timestamp(Q,)), 创建 0 
的 一 个 新 版 本 。 

规则 1 的 理由 是 显然 的 ， 一 个 事务 读 取 位 于 其 前 的 最 近 版 本 。 第 二 条 规则 规定 当 一 个 事务 执行 写 
操作 “ 太 迟 "时 将 强迫 中 止 , 更 确切 地 说 ， 如 果 T, 试图 写 和 其 他 事务 应 该 已 读 取 了 的 版 本 ， 则 我 们 不 允 
许 该 写 操作 成 功 。 

[690] 不 再 需要 的 版 本 根据 以 下 规则 删除 : 假设 有 某 数据 项 的 两 个 版 本 Q, 与 0;,， 这 两 个 版 本 的 W- 
timestamp 都 小 于 系统 中 最 老 的 事务 的 时 间 戳 ,那么 0; AO, 中 较 旧 的 版 本 将 不 会 再 用 到 ， 因 而 可 以 
删除 。 

多 版 本 时 间 戳 排序 机 制 有 一 个 很 好 的 特性 : 读 请 求 从 不 失败 且 不 必 等 待 。 在 典型 的 数据 库 系统 中 ， 
读 操作 比 写 操作 频繁 ， 因 而 这 个 优点 对 于 实践 来 说 至 关 重 要 。 

然而 这 个 机 制 也 存在 两 个 不 好 的 特性 。 首 先 ， 读 取 数 据 项 要 求 更 新 R-timestamp 字段 ， 于 是 产生 两 
次 潜在 的 磁盘 访问 而 不 是 一 次 。 其 次 ， 事 务 间 的 冲突 通过 回 滚 而 不 是 等 待 来 解决 。 这 种 做 法 开销 可 能 
很 大 。15. 6. 2 节 讲 述 一 个 可 以 减轻 这 个 问题 的 算法 。 

多 版 本 时 间 惟 排序 机 制 不 保证 可 恢复 性 和 无 级 联 性 。 按 照 与 基本 的 时 间 戳 排序 机 制 一 样 的 方法 进 
行 扩充 ， 我 们 可 以 使 之 成 为 可 恢复 的 和 无 级 联 的 。 

15.6.2 多 版 本 两 阶段 封锁 

多 版 本 两 阶段 封锁 协议 ( multiversion two-phase locking protocol) 希 望 将 多 版 本 并 发 控制 的 优点 与 两 阶 
段 封 锁 的 优点 结合 起 来 。 该 协议 对 只 读 事 务 (read-only transaction) 与 更 新 事务 (update transaction ) 加 以 
区 从 

更 新 事务 执行 强 两 阶段 封锁 协议 ; 即 它们 持 有 全 部 锁 直到 事务 结束 。 因 此 ， 它们 可 以 按 提交 的 次 
序 进 行 串 行 化 。 数 据 项 的 每 个 版 本 有 一 个 时 间 戳 ， 这 种 时 间 戳 不 是 真正 基于 时 钟 的 时 间 戳 ， 而 是 一 个 
计数 器 ， 我 们 称 之 为 ts-counter ， 这 个 计数 器 在 提交 处 理 时 增加 计数 。 

只 读 事务 在 开始 执行 前 ， 数 据 库 系统 读 取 ts-counter 的 当前 值 来 作为 该 事务 的 时 间 惟 。 只 读 事务 
在 执行 读 操作 时 遵从 多 版 本 时 间 惟 排序 协议 。 因 此 ， 当 只 读 事务 T, 发 出 read(Q) 时 ,返回 值 是 小 于 TS 
CT, ) 的 最 大 时 间 戳 的 版 本 的 内 容 。 

当 更 新 事务 读 取 一 个 数据 项 时 ， 它 在 获得 该 数据 项 上 的 共享 锁 后 读 取 该 数据 项 最 新 版 本 的 值 。 当 
更 新 事务 想 写 一 个 数据 项 时 ， 它 首先 要 获得 该 数据 项 上 的 排他 锁 ， 然 后 为 此 数据 项 创建 一 个 新 版 本 。 
写 操作 在 新 版 本 上 进行 ， 新 版 本 的 时 间 戳 最 初 置 为 ， 它 大 于 任何 可 能 的 时 间 戳 值 。 

当 更 新 事务 T, 完成 其 任务 后 ， 它 按 如 下 方式 进行 提交 : 首先 ，7, 将 它 创 建 的 每 一 版 本 的 时 间 截 设 
置 为 ts-counter 的 值 加 1; 然后 ，7 将 ts-counter 增加 1。 在 同一 时 间 内 只 允许 有 一 个 更 新 事务 进行 
提交 。 

这 样 ,在 了 .增加 了 ts-counter 之 后 启动 的 只 读 事务 将 看 到 了 更 新 的 值 ， 而 那些 在 7, 增加 ts-counter 

[691] 之 前 就 启动 的 只 读 事务 将 看 到 7 更 新 之 前 的 值 。 无 论 哪 种 情况 ， 只 读 事务 均 不 必 等 待 加 锁 。 多 版 本 两 
阶段 封锁 也 保证 调度 是 可 恢复 的 和 无 级 联 的 。 

版 本 删除 类 似 于 多 版 本 时 间 戳 排序 中 采用 的 方式 。 假 设 有 某 数据 项 的 两 个 版 本 Q 与 Qi ， 两 个 版 本 
的 时 间 截 都 小 于 或 等 于 系统 中 最 老 的 只 读 事务 的 时 间 戳 。 则 两 个 版 本 中 较 旧 的 将 不 会 再 使 用 ， 可 以 
删除 。 


15.7 快照 隔离 


快照 隔离 是 一 种 特殊 的 并 发 控制 机 制 ,并 且 在 商业 和 开源 系统 中 广泛 接受 ,包括 Oracle, 
PostgreSQL 和 SQL Server。14. 9. 3 节 介 绍 了 快照 隔离 。 这 儿 将 更 详细 地 观察 它 如 何 工 作 。 

从 概念 上 讲 ， 快 照 隔离 在 事务 开始 执行 时 给 它 数 据 库 的 一 份 “快照 ”"。 然 后 ， 事 务 在 该 快照 上 操 
作 ， 和 其 他 并 发 事务 完全 隔离 开 。 快 照 中 的 数据 值 仅 包括 已 经 提交 的 事务 所 写 的 值 。 这 种 隔离 对 于 只 
读 事 务 来 说 是 理想 的 ， 因 为 它们 不 用 等 待 ， 也 不 会 被 并 发 管理 器 中 止 。 当 然 ， 更 新 数据 库 的 事务 在 将 
更 新 写 人 数据 库 之 前 ， 必 须 处 理 与 其 他 并 发 更 新 的 事务 之 间 存 在 的 潜在 冲突 。 更 新 操作 发 生 在 事务 的 
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私有 工作 空间 中 ， 直 到 事务 成 功 提交 ， 此 时 更 新 写 人 数据 库 。 当 人 允许 事务 7 提交 时 ， 事 务 了 变 为 提交 
状态 ， 并 且 了 对 数据 库 的 所 有 写 操作 都 必须 作为 一 个 原子 操作 执行 ， 以 保证 其 他 事务 的 快照 要 么 包括 
了 的 所 有 更 新 ， 要 么 任何 都 不 包括 。 

15.7.1 更 新 事务 的 有 效 性 检验 步骤 

决定 是 否 允 许 一 个 更 新 事务 的 提交 需要 小 心 。 潜 在 地 ， 两 个 并 发 执行 的 事务 可 能 会 更 新 同一 个 数 
据 项 。 由 于 两 个 事务 的 操作 用 它们 各 自 的 私有 快照 隔离 ， 因 此 任何 事务 都 看 不 到 对 方 所 做 的 更 新 。 如 
果 两 个 事务 都 允许 写 人 数据 库 ， 第 一 个 更 新 的 写 人 将 被 第 二 个 覆盖 。 结 果 导 致 一 个 更 新 丢失 (1lost 
update) 。 显 然 地 ， 这 必须 预防 。 快 照 隔离 有 两 个 变种 ， 都 防止 了 更 新 丢失 。 它 们 称 为 先 提交 者 获胜 和 
先 更 新 者 获胜 。 两 种 方法 都 基于 检查 事务 的 并 发 事务 。 一 个 事务 称 为 与 了 并 发 ( concurrent with T) ， 如 
果 在 从 了 开始 到 执行 这 个 检查 之 间 的 任何 时 刻 该 事务 是 活跃 的 或 者 部 分 提交 的 。 

按照 先 提 交 者 获胜 ( first committer wins ) 方 法 ， 当 事务 T 进 入 部 分 提交 状态 ， 以 下 操作 作为 一 个 原 
子 操作 执行 : 

。 检查 是 否 有 与 了 并 发 执行 的 事务 ， 对 于 了 打算 写 和 人 的 某 些 数 据 ， 该 事务 已 经 将 更 新 写 和 人 数 

据 库 。 

。 如 果 发 现 这 样 的 事务 ， 则 了 中 止 。 

。 如 果 没 有 发 现 这 样 的 事务 ， 则 了 提交 ， 并 且 将 更 新 写 入 数据库 。 

这 种 方法 称 为 “ 先 提交 者 获胜 ”， 因 为 如 果 事 务 发 生 冲 突 ， 第 一 个 使 用 上 述 规则 检查 的 事务 成 功 地 
写 人 更 新 ， 而 随后 的 事务 则 被 迫 中 止 。 有 关 如 何 实现 以 上 检查 的 细节 在 习题 15. 19 中 讨论 。 

按照 先 更 新 者 获胜 ( first updater wins) 方法， 系统 采用 一 种 仅 用 于 更 新 操作 的 锁 机 制 ( 读 操作 不 受 此 
影响 ， 因 为 它们 不 获得 锁 ) 。 当 事务 7; 试图 更 新 一 个 数据 项 时 ， 它 请 求 该 数据 项 的 一 个 写 锁 。 如 果 没 
有 另 一 个 并 发 事务 持 有 该 锁 ， 则 获得 锁 后 执行 以 下 步 又: 

© 如 果 这 个 数据 项 已 经 被 任何 并 发 事务 更 新 ， 则 T, 中止 。 

。 否则 T, 能 够 执行 其 操作 ， 可 能 包括 提交 。 

然而 ， 如 果 另 一 个 并 发 事务 T, 已 经 持 有 该 数据 项 的 写 锁 ， 则 T, 不 能 执行 ， 并 且 执 行 以 下 规则 : 

。 T, 等 待 直到 T, 中 止 或 提交 。 

口 如 果 T, 中 止 ， 则 锁 被 释放 并 且 7; 可 以 获得 锁 。 当 获得 锁 后 ， 执 行 前 面 描述 的 对 于 并 发 事务 
的 更 新 检查 : 如 果 有 男 一 个 并 发 事务 更 新 过 该 数据 项 ， 则 T, Pik; 否则 ， 执 行 其 操作 。 
O WR T EX, W T 必须 中 止 。 

当 事 务 提交 或 中 止 时 ， 锁 被 释放 。 

这 种 方法 称 为 先 更 新 者 获胜 ”， 因 为 如 果 事 务 发 生 冲 突 ， 人 允许 第 一 个 获得 锁 的 事务 提交 并 完成 其 
更 新 。 其 后 试图 更 新 的 事务 中 止 ， 除 非 第 一 个 更 新 者 随后 由 于 其 他 原因 中 止 。( 除 了 等 待 看 第 一 个 事务 
7 是否 中 止 ， 其 后 的 更 新 者 7; 可 以 在 发 现 它 所 想 要 的 写 锁 被 7 持 有 时 立刻 中 止 。) 

15.7.2 串 行 化 问题 

快照 隔离 在 实践 中 很 有 吸引 力 ， 因 为 其 开销 低 并 且 没 有 中 止 发 生 ， 除 非 两 个 并 发 的 事务 更 新 同一 
个 数据 项 。 

然而 ， 我 们 前 面 所 给 出 的 ， 以 及 在 实践 中 实现 的 快照 隔离 机 制 存在 一 个 严重 的 问题 : 快照 隔离 不 
能 保证 可 串 行 化 。 即 使 在 将 快照 隔离 作为 串 行 化 隔离 级 别 实现 的 Oracle 中 也 是 如 此 ! 下 面 举 例 说 明快 
照 隔 离 下 可 能 的 非 可 串 行 化 执行 ， 并 且说 明 如 何 解决 。 

1. 假设 有 两 个 并 发 事务 7, MT, URANA A AB. 假设 7T 读 取 4 和 B， 然 后 更 新 B, 而 7 
读 取 4 和 B， 然 后 更 新 4。 简单 起 见 ， 假 设 没 有 其 他 并 发 事务 。 由 于 7; AT, 是 并 发 的 ， 因 此 任何 事务 
在 其 快照 内 不 能 看 到 对 方 的 更 新 。 但 是 ， 因 为 它们 更 新 的 是 不 同 数据 项 ， 不 管 系统 采用 先 提交 者 获胜 
或 者 先 更 新 者 获胜 ， 两 者 都 可 以 提交 。 

然而 ， 优 先 图 有 一 个 环 。 优 先 图 中 从 7, 到 7 有 一 条 边 ， 因 为 7 在 7 写 4 之 前 读 取 4 的 值 。 同样， 
优先 图 中 从 也 到 7 也 有 一 条 边 ， 因 为 7 在 7, 写 8 之 前 读 取 8B 的 值 。 由 于 优先 图 中 存在 环 ， 因 此 结果 
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是 非 可 串 行 化 的 。 

一 对 事务 中 的 每 一 个 都 读 取 对 方 写 的 数据 ， 但 是 不 存在 两 者 同时 写 的 数据 ， 这 种 情况 称 为 写 偏 斜 
(write skew) 。 举 一 个 写 偏 斜 的 具体 例子 ， 考 虑 一 个 银行 场景 。 假 设 银 行 通过 完整 性 约束 限制 一 个 客户 
的 支票 账户 和 储蓄 账户 的 余额 之 和 不 能 为 负 。 假设 一 个 客户 的 支票 账户 余额 和 储蓄 账户 余额 分 别 为 
100 美元 和 200 美元 。 假 设 事务 Ts 读 这 两 个 余额 ， 进 行 完整 性 约束 核实 ， 从 支票 账户 中 取出 200 美元 
假设 另 一 个 并 发 执行 的 事务 7 也 经 过 完整 性 约束 核实 ， 从 储蓄 账户 中 取出 200 美元 。 由 于 每 个 事务 都 
在 其 快照 上 进行 完整 性 约束 检验 ， 如 果 它 们 同时 执行 ， 任 何 一 方 都 会 相信 取款 后 的 余额 之 和 为 100 美 
元 ， 因 此 取款 并 不 违反 完整 性 约束 。 由 于 两 个 事务 更 新 不 同 的 数据 项 ， 它 们 之 间 不 存在 更 新 冲突 ， 因 
此 在 快照 隔离 下 两 者 都 可 以 提交 。 

遗憾 的 是 ， 在 Ty 和 7 都 提交 后 的 状态 中 ， 余 额 之 后 为 -100 美元 ,违反 了 完整 性 约束 。 这 种 违反 
不 可 能 出 现在 7 和 7* 的 串 行 执行 中 。 

值得 注意 的 是 ， 由 数据 库 强 制 执行 的 完整 性 约束 ， 例 如 主键 和 外 键 约束 ， 不 能 在 快照 上 进行 检查 ; 
否则 将 可 能 有 两 个 并 发 事务 同时 插入 主键 相同 的 记录 ， 或 者 一 个 事务 插入 一 个 外 键 值 ， 而 另 一 个 并 发 
事务 从 引用 的 表 中 删除 该 值 。 相 反 ， 数 据 库 系统 必须 在 数据 库 的 当前 状态 下 检查 约束 ， 作 为 提交 时 有 
效 性 检验 的 一 部 分 。 

694 2. 在 接 下 来 的 例子 中 ,我 们 考虑 两 个 并 发 更 新 事务 本 身 是 可 串 行 化 的 且 不 存在 任何 问题 ， 但 是 当 
一 个 只 读 事务 出 现在 某 个 时 刻 时 正好 会 造成 问题 。 

假设 有 两 个 并 发 事务 T, 和 7 ， 以 及 两 个 数据 项 4 和 B。 假设 7 ERB, REES B, m T 读 取 4 
和 B， 然 后 更 新 4。 同 时 并 发 执行 这 两 个 事务 没有 问题 。 由 于 7 只 访问 数据 项 B， 在 数据 项 4 上 没有 冲 
突 ， 因 此 优先 图 中 没有 环 。 优 先 图 中 唯一 的 边 是 从 7; 指向 7;:， 因 为 7 在 7; 写 入 B 前 读 取 8B 的 值 。 

然而 ,假设 7; 提交 时 T, 仍然 活跃。 假设 7; 提交 后 但 T, 尚未 提交 时 ， 一 个 新 的 只 读 事务 7 进入 系 
统 ， 而 且 T, 读 取 4 和 8。 它 的 快照 包括 T, HES, ATT, CARR. Ail, ATT ARR, CHE 
新 还 未 写 和 数据库 ， 因 此 不 包含 在 T, 的 快照 中 。 

考虑 优先 图 中 添加 的 与 7 相关 的 边 。 优 先 图 中 有 一 条 从 7; BT, 的 边 ， 因 为 7 在 7, 读 取 B 之 前 
写 人 8 的 值 。 优 先 图 中 还 有 一 条 从 T, 到 7 的 边 ， 因 为 7 在 7 写 4 之 前 读 取 4 的 值 。 这 导致 优先 图 中 
出 现 环 , 说明 调度 是 非 可 串 行 化 的 。 

上 述 异 常 可 能 不 像 它 们 乍 一 看 起 来 那样 麻烦 。 回 想 串 行 化 的 原因 是 为 了 确保 在 事务 并 发 执行 时 的 
数据 库 保持 一 致 性 。 因 为 一 致 性 是 目标 ， 所 以 我 们 可 以 接受 潜在 的 非 可 串 行 化 执行 ， 如 果 我 们 确信 那 
些 可 能 出 现 的 非 可 串 行 化 执行 不 会 导致 不 一 致 。 上 述 第 二 个 例子 只 有 在 提交 只 读 事务 (7,) 的 应 用 关心 
A FIB 的 更 新 出 现 乱 序 时 才 会 出 现 问题 。 在 这 个 例子 中 ,我们 没有 指定 每 个 事务 必须 保持 的 数据 库 一 
致 性 约束 。 如 果 我 们 是 在 处 理 一 个 金融 数据 库 ，7, 读 取 非 可 串 行 的 更 新 时 会 出 现 严 重 问题 。 而 如 果 A 
和 B 是 同一 个 课程 的 两 次 开课 的 注册 数 ， 则 到 不 要 求 理想 的 可 串 行 化 ， 并 且 我 们 可 以 从 应 用 中 得 知 更 
新 频率 足够 低 ， 因 此 T, 读 取 中 的 不 准确 也 是 不 重要 的 。 

数据 库 必须 在 提交 时 而 非 快 照 上 检查 完整 性 约束 这 一 事实 也 帮助 避免 在 某 些 情况 下 的 不 一 致 。 一 
些 金融 应 用 程序 创建 连续 的 序列 号 ， 例 如 在 给 账单 编号 时 ， 将 新 账单 号 设置 为 当前 最 大 账单 号 加 1。 
如 果 两 个 事务 并 发 执行 ， 每 一 方 在 其 快照 中 都 会 看 到 相同 的 账单 集合 ， 每 一 方 都 会 创建 具有 相同 账单 

号 的 新 账单 。 两 个 事务 都 通过 快照 隔离 的 有 效 性 检验 ， 因 为 它们 不 更 新 相同 的 元 组 。 然 而 ， 执 行 是 非 
串 行 化 的 。 由 此 产生 的 数据 库 状 态 无 法 从 两 个 事务 的 任何 串 行 执行 中 得 到 。 创 建 两 个 具有 相同 账单 号 
的 账单 可 能 会 导致 严重 的 法 律 后 果 。 

上 述 问 题 是 一 个 幻象 的 例子 ，15. 8. 3 节 将 描述 它 ， 因 为 任何 一 个 事务 执行 的 插入 操作 都 会 和 另 一 
个 事务 读 取 最 大 账单 号 的 读 操作 冲突 ,但 是 这 种 冲突 不 能 通过 快照 隔离 检测 到 。 

幸运 的 是 ,在 大 多 数 应 用 程序 中 账单 号 会 声明 为 主键 ， 数 据 库 系统 会 在 快照 之 外 检查 主键 冲突 ， 








© SQL 标准 中 的 术语 幻象 问题 指 非 可 重复 谓词 读 ， 导 致 一 些 人 声称 快照 隔离 避免 了 幻象 问题 。 然 而 ， 根 据 我 们 对 弥 
象 冲突 的 定义 ， 该 声称 是 无 效 的 。 
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并 且 回 滚 事 务 中 的 一 方 。 = 
程序 开发 人 员 可 以 通过 将 以 下 for update 子 句 附加 到 SQL 查询 语句 之 后 来 防止 这 种 快照 异常 : 
select” 
from instructor 
where ID = 22222 
for update ; 
添加 for update 子 句 会 使 系统 出 于 并 发 控制 的 目的 将 读 取 的 数据 作为 刚 被 更 新 来 对 待 。 在 第 一 个 
关于 写 偏 斜 的 例子 中 ， 如 果 for update 子 句 附 加 到 查询 账户 余额 的 查询 语句 之 后 ， 那 么 两 个 并 发 事务 
中 只 有 一 个 允许 提交 ， 因 为 看 起 来 两 个 事务 都 对 支票 账户 和 储蓄 账户 余额 进行 更 新 。 
在 第 二 个 非 可 串 行 化 执行 的 例子 中 ， 如 果 事 务 T, 的 发 起 者 希望 避免 异常 ，for update 子 句 可 以 附 
加 到 查询 语句 之 后 ， 尽 管事 实 上 没有 更 新 。 在 该 例子 中 ， 如 果 T, 采用 select for update， 则 当 它 读 取 4 
和 B 时 作为 对 它们 的 更 新 。 结 果 将 是 或 者 T, RAT, 中 止 ， 并 稍 后 作为 一 个 新 事务 重 试 。 这 将 会 得 到 
一 个 可 串 行 化 的 执行 。 在 这 个 例子 中 ， 另 外 两 个 事务 中 的 查询 不 需要 添加 for update 子 句 ， 不 必要 的 
for update 子 句 会 导致 并 发 度 的 显著 下 降 。 
存在 规范 的 方法 ( 见 文献 注解 ) 用 来 判断 给 定 一 个 事务 的 混合 运行 ， 是 否 存在 快照 隔离 下 非 可 串 行 
化 执行 的 风险 ， 并 且 决 定 引 入 何 种 冲突 (例如 采用 for update 子 句 ) 来 保证 可 串 行 化 。 当 然 ， 这 些 方 法 
只 有 在 我 们 事先 知道 要 执行 什么 事务 时 才 有 效 。 在 一 些 应 用 中 ， 所 有 事务 都 是 预先 确定 的 事务 集中 的 事 
务 ， 这 使 得 这 种 分 析 成 为 可 能 。 然 而 ， 如 果 应 用 允许 不 受 限制 的 、 临 时 的 事务 ， 则 这 种 分 析 是 不 可 能 的 。 [696 | 
在 三 个 广泛 应 用 的 支持 快照 隔离 的 系统 中 ，SQL Server 提供 了 一 个 可 串 行 化 隔离 级 别 选项 ， 它 能 
真正 保证 可 串 行 化 ， 以 及 一 个 快照 隔离 级 别 选 项 ， 它 提供 快照 隔离 的 性 能 优势 (连同 上 面 讨论 的 潜在 异 
常 )。 在 Oracle 和 PostgreSQL 中 ， 可 串 行 化 隔离 级 别 仅 提 供 快 照 隔离 。 


15.8 插入 操作 、 删 除 操作 与 谓词 读 


目前 为 止 我 们 一 直 把 注意 力 集中 在 read 与 write 操作 上 。 这 就 限制 了 事务 只 能 处 理 已 存在 于 数据 
库 中 的 数据 项 。 一 些 事务 不 仅 要 求 访问 已 存在 的 数据 项 ， 而 且 要 求 创 建新 的 数据 项 ; 还 有 一 些 事 务 要 
求 能 删除 数据 项 。 为 考察 这 样 的 事务 如 何 影响 并 发 控制 ， 我 们 引入 如 下 操作 。 

© delete(Q): 从 数据 库 中 删除 数据 项 Q。 

。 insert( Q): 插入 一 个 新 的 数据 项 Q 到 数据 库 中 并 赋予 0 一 个 初 值 。 

事务 T, 试图 在 O 被 删除 后 执行 read(@ ) 操作 将 导致 7 中 的 逻辑 错误 。 类 似 地 ， 事 务 7 在 0 被 插 
入 之 前 执行 read( 0) 操 作 也 会 导致 7 中 的 逻辑 错误 。 试 图 删除 并 不 存在 的 数据 项 也 是 一 个 逻辑 错误 。 
15.8.1 删除 

要 理解 delete 指令 怎样 影响 并 发 控制 ， 我 们 必须 弄 清 delete 指令 何 时 与 另 一 指令 发 生 冲 突 。 S 1 
与 1 分 别 是 7 与 7 的 指令 ,它们 连续 地 出 现 于 调度 5S 中 。 令 /=delete(Q)。 我 们 考虑 几 条 指令 了/ 
I =read( Q): 1 与 1 冲突。 如 果 1 出 现在 1 之前, 事务 7 将 出 现 逻 辑 错误 。 如 果 出 现在 了/ 
之 前 , 事务 7 可 以 成 功 执行 read 操作 。 
I, = write(Q): 1, GU, 冲突。 如 果 7 出 现在 7 之 前 , 事务 7 将 出 现 逻 辑 错 误 。 如 果 7 出现 在/ 
之 前 , 事务 7 可 以 成 功 执行 write 操作 。 
I, =delete(Q) : 1 与 1 wh. WRI 出 现在 1 之前, 事务 7 将 出 现 逻 辑 错误 。 如 果 了 出 现在 1/ 
之 前 , 事务 T, 将 出 现 逻 辑 错误 。 
厂 =insert(@) : I, 5 1, 冲突 。 假 设 数据 项 0 在 执行 1 与 1 之 前 不 存在 。 那么 ,车 7; 出 现在 7 之 
前 ,事务 T, 将 出 现 逻 辑 错误 。 如 果 7 出 现在 7; 之 前 ， 则 没有 逻辑 错误 。 类 似 地 ， 如 果 0 在 执 
行 1. 与 1 之 前 已 存在 ， 则 如 果 出 现在 7; 之 前 会 出 现 逻 辑 错 误 ， 反 过 来 则 不 会 。 





-O KASEMAA I. LT. Bombay 金融 应 用 中 实际 发 生 过 几 次 ， 其 账单 号 不 是 作为 主键 (原因 过 于 复杂 ， 不 在 此 讨 
论 ) ， 问 题 是 由 财务 审计 员 发 现 的 。 
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697 我 们 可 以 总 结 如 下 : 
。 在 两 阶段 封锁 协议 下 ， 一 数据 项 可 以 删除 之 前 ， 在 该 数据 项 上 必须 请 求 加 排他 锁 
© 在 时 间 惟 排序 协议 下 ， 必 须 执行 类 似 于 为 write 操作 进行 的 测试 。 假 设 事务 T, 发 出 delete( 0): 
O 如 果 TS(T,) < R-timestamp( Q)， 则 7 将 要 删除 的 0 值 已 被 满足 TS(T)>TS(7) 的 事务 7 读 
取 。 因 此 ，delete 操作 被 拒绝 ，7, 回 滚 。 
O 如 果 TS(T,) < W-timestamp( Q), WI Æ TS(T,) >TS(T ) 的 事务 7 已 经 写 过 Q. At, delete 
操作 被 拒绝 ，7, ER. 
口 否则 ， 执 行 delete 操作 。 
15. 8.2 插入 
我 们 已 经 看 到 insert (Q) 操作 与 delete(Q) 操作 冲突 。 类 似 地 ，insert(O ) 操作 与 read(O@) 操作 或 
write( Q) 操作 冲突 。 在 数据 项 存在 之 前 不 能 进行 read 或 write 操作 。 
由 于 insert( 0) 给 数据 项 0 赋值 ， 在 并 发 控制 中 应 当 类 似 于 处 理 write 操作 那样 处 理 insert 操作 : 
。 在 两 阶段 封锁 协议 下 ， 如 果 T, 执行 insert( 0 ) 操 作 ， 就 在 新 创建 的 数据 项 0 上 赋予 7, 排他 锁 。 
。 在 时 间 惟 排序 协议 下 ， 如 果 了 执行 insert( 0) 操 作 ， 就 把 R-timestamp( Q) 455 W-timestamp( Q ) AY) 
值 设置 成 TS(7.)。 
15.8.3 ”谓词 读 和 幻象 现象 
考虑 事务 T,,， 它 在 大 学 数据 库 上 执行 以 下 SQL 查询 : 
select count( ` ) 


from instructor 
where dept_name = 'Physics’ ; 


事务 Ty fe Vii lA] instructor KA PAG Physics 系 相关 的 所 有 元 组 。 
考虑 事务 Ta, CHITA F SQL 插入 : 
insert into instructor 
values(11111,’Feynman’,'Physics’, 94000) ; 
BE] 令 $ 是 包含 事务 7 与 7 的 调度 。 由 于 下 面 的 原因 ， 我 们 预计 冲突 是 可 能 存在 的 ; 
。 如 果 7 在 计算 count( * ) 时 使 用 Ta 新近 插入 的 元 组 ， 则 TIT, 写 人 的 值 。 因 此 ， 在 等 价 于 
S 的 串 行 调度 中 ，?, 必须 先 于 Too 
© 如 果 To 在 计算 count( * ) 时 未 使 用 Ta 新近 插入 的 元 组 ， 则 在 等 价 于 S 的 串 行 调度 中 ，7% 必 须 
SEF Tio 

这 两 种 情况 中 的 第 二 种 让 人 感到 奇怪 。T% 与 7 没有 访问 共同 的 元 组 ,但 它们 相互 冲突 ! 事实 上 ， 
7T% 与 7, 在 一 个 幻象 元 组 上 发 生 冲 突 。 如 果 并 发 控制 在 元 组 级 粒度 上 进行 ， 该 冲突 将 难以 发 现 。 结 果 
是 ， 系 统 也 许 不 能 防止 出 现 非 可 串 行 化 调度 。 我 们 把 这 种 现象 称 为 幻象 现象 (phantom phenomenon) . 

除了 幻象 问题 ， 我 们 还 需要 处 理 14. 10 节 中 我 们 看 到 的 情况 ， 一 个 事务 利用 索引 查询 dept_name = 
“Physics ”的 元 组 ， 因 此 它 不 读 取 其 他 系 的 任何 元 组 。 如 果 另 一 个 事务 更 新 这 些 元 组 中 的 一 个 ， 把 它 的 
系 名 称 改 为 Physics， 一 个 相当 于 幻象 问题 的 问题 则 会 出 现 。 这 些 问题 都 是 由 谓词 读 导 致 的 ， 并 且 有 共 
同 的 解决 方法 。 

为 防止 幻象 现象 ， 我 们 允许 Th 阻止 其 他 事务 在 关系 instructor 上 创建 dept_name = “Physics” 的 新 元 
组 , 并 且 阻 止 将 一 个 已 有 的 instructor 元 组 的 系 名 更 新 为 Physics。 

为 找到 关系 instructor 中 满足 条 件 dept_name = “Physics” 的 所 有 元 组 ，7 必须 搜索 整个 instructor 关 
R, 或 至 少 搜 索 关系 上 的 一 个 索引 。 到 现在 为 止 ， 我 们 隐 含 地 假设 事务 所 访问 的 数据 项 仅仅 是 元 组 。 
Ril, BS 7 是 一 个 读 取 关 系 中 有 哪些 元 组 这 一 信息 的 事务 的 例子 ， 而 事务 Ta 则 是 更 新 这 种 信息 的 
事务 的 例子 。 

显然 ， 仅 仅 封 锁 所 访问 的 元 组 是 不 够 的 ; 用 来 找 出 事务 访问 的 元 组 的 信息 也 需要 封锁 。 

封锁 用 来 找 出 要 访问 的 元 组 的 信息 可 以 通过 将 一 个 数据 项 与 关系 关联 在 一 起 来 实现 ; 该 数据 项 代 
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表 一 种 信息 ， 事 务 用 它 来 查找 关系 中 的 元 组 。 读 取 关 系 中 有 哪些 元 组 这 一 信息 的 事务 ， 如 事务 To, V 
须 以 共享 模式 封锁 对 应 于 该 关系 的 数据 项 。 更 新 关系 中 有 哪些 元 组 这 一 信息 的 事务 ， 如 事务 Ti ， 必 须 
以 排他 模式 封锁 对 应 于 该 关系 的 数据 项 加 。 这 样 ， 事 务 7 与 7 将 在 一 个 真实 的 数据 项 上 发 生 冲突 ， 
而 不 是 在 幻象 上 发 生 冲 突 。 类 似 地 ， 使 用 索引 来 检索 元 组 的 事务 必须 封锁 索引 本 身 。 
不 要 将 多 粒度 封锁 中 对 整个 关系 的 封锁 与 这 儿 讲 的 对 对 应 于 关系 的 数据 项 的 封锁 相 混 消 。 通 过 封 
锁 该 数据 项 ， 一 个 事务 只 是 阻止 其 他 事务 对 关系 中 有 哪些 元 组 这 一 信息 的 修改 。 对 元 组 的 封锁 仍 是 需 
要 的 。 直 接 访问 某 个 元 组 的 事务 可 以 被 授予 该 元 组 上 的 锁 ， 即 使 另 一 个 事务 在 对 应 于 关系 本 身 的 数据 [699 | 
项 上 持 有 排他 锁 。 
封锁 对 应 于 关系 的 一 个 数据 项 或 者 封锁 整个 索引 的 主要 缺点 是 并 发 程度 低 一 一 往 关 系 中 插入 不 同 
元 组 的 两 个 事务 也 不 能 并 发 执行 。 
较 好 的 解决 方法 是 使 用 索引 封锁 (index-locking) 技术， 它 避 免 封 锁 整个 索引 。 在 关系 中 插入 元 组 的 
任何 事务 必须 在 该 关系 上 维护 的 每 一 个 索引 中 插入 有 关 信息 。 通 过 使 用 索引 的 封锁 协议 ,我 们 可 以 消 
除 幻象 现象 。 为 简单 起 见 ， 我 们 只 考虑 BWR. 
正如 我 们 在 11 章 中 看 见 的 那样 ， 每 一 个 搜索 码 值 与 索引 中 的 一 个 叶 结 点 相关 联 。 查 询 通常 使 用 一 
个 或 多 个 索引 来 访问 关系 。 插 和 人 操作 必须 在 关系 的 所 有 索引 中 插入 新 元 组 。 在 该 例子 中 ， 假 定 在 关系 
instructor 的 dept_name 上 建立 了 索引 。 那 么 ， 事 务 7 必须 修改 包含 码 值 “Physics” 的 叶 结 点 。 如 果 Ty ik 
取 同 一 叶 结 点 ， 查 找 有 关 Physics 系 的 所 有 元 组 ， 则 7 与 7 在 该 叶 结 点 上 发 生 冲 突 。 
通过 将 幻象 现象 实例 转换 为 对 索引 叶 结 点 上 封锁 的 冲突 ， 索引 封锁 协议 (index-locking protocol ) 利 
用 了 关系 上 索引 的 可 用 性 。 该 协议 运作 如 下 : 
。 每 个 关系 至 少 有 一 个 索引 。 
。 只 有 首先 在 关系 的 一 个 或 多 个 索引 上 找到 元 组 后 ， 事 务 7. 才能 访问 关系 上 的 这 些 元 组 。 为 了 达 
到 索引 封锁 协议 的 目的 ， 全 表 扫 描 看 作 一 个 索引 上 所 有 叶 结 点 的 扫描 。 

。 进行 查找 (不 管 是 区 间 查 找 还 是 点 查找 ) 的 事务 T, 必须 在 它 要 访问 的 所 有 索引 叶 结 点 上 获得 共 
享 锁 。 

。 在 没有 更 新 关系 r 上 的 所 有 索引 之 前 ， 事务 T, 不 能 插入 、 删 除 或 更 新 关系 > 中 的 元 组 i;。 该 事 
务必 须 获得 插入 、 删 除 或 更 新 所 影响 的 所 有 索引 叶 结 点 上 的 排他 锁 。 对 于 插入 与 删除 ， 受 影响 
的 叶 结 点 是 那些 (插入 后 ) 包 含 或 (删除 前 ) 包 含 元 组 搜索 码 值 的 叶 结 点 。 对 于 更 新 ， 受 影响 的 
叶 结 点 是 那些 (修改 前 ) 包 含 搜索 码 旧 值 的 叶 结 点 ， 以 及 (修改 后 ) 包 含 搜索 码 新 值 的 叶 结 点 。 

© 元 组 照常 获得 锁 。 

。 必须 遵循 两 阶段 封锁 协议 规则 。 

请 注意 ， 索 引 封锁 协议 并 不 关注 索引 内 部 结 点 的 并 发 控制 问题 。 最 小 化 锁 冲 突 的 索引 并 发 控制 技 
术 将 在 15. 10 节 介 绍 。 

封锁 一 个 索引 叶 结 点 阻止 了 该 结 点 上 的 任何 更 新 ， 即 使 这 个 更 新 实际 上 并 没有 与 谓词 冲突 。 一 个 
称 为 码 值 封锁 的 变种 将 在 15. 10 节 作为 索引 并 发 控制 的 一 部 分 介绍 ， 它 可 以 使 这 样 的 假 的 锁 冲 突 最 
小 化 。 

如 14. 10 节 所 指出 的 ， 事务 之 间 的 冲突 看 起 来 取决 于 低级 别 的 系统 查询 处 理 决策 ， 而 与 用 户 级 别 
的 事务 含义 无 关 。 另 一 种 并 发 控制 的 方法 允许 给 查询 中 的 谓词 加 共享 锁 ， 如 关系 instructor 上 的 谓词 
“salary > 90000”。 关 系 上 的 插入 和 删除 操作 都 要 检查 是 否 满足 谓词 。 若 满足 ， 则 存在 锁 冲 突 ， 插 入 和 
删除 操作 要 等 待 直到 谓词 锁 被 释放 。 对 于 更 新 操作 ， 元 组 的 初始 值 和 最 终 值 都 要 检查 是 否 满足 谓词 。 
这 些 冲 突 的 插入 、 删 除 和 更 新 操作 影响 谓词 选中 的 元 组 集合 ， 因 此 不 能 允许 它们 与 已 获得 (共享 的 ) 谓 
词 锁 的 查询 并 发 执行 。 我 们 称 以 上 的 协议 为 谓词 锁 ( predicate locking), 谓词 锁 在 实践 中 不 采用 ， 因 
为 相 比 较 于 索引 封锁 机 制 ， 它 的 实现 代价 很 大 ,但 又 不 能 带 来 显著 的 额外 好 处 。 





加 ”术语 谓词 锁 用 于 对 谓词 使 用 共享 锁 和 排他 锁 的 协议 的 一 个 版 本 ， 因 此 更 加 复杂 。 我 们 在 此 给 出 的 版 本 仅 含有 在 
谓词 上 的 共享 锁 ， 因 此 也 叫做 精确 锁 ( precision locking) 
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谓词 锁 技术 存在 一 些 变 种 ， 可 以 用 来 消除 本 章 中 其 他 并 发 控制 协议 下 的 幻象 现象 。 然 而 ， 许 多数 
据 库 ， 如 PostgreSQL (版 本 8. 1) 和 Oracle (版 本 10g) (就 我 们 所 知 ) 都 没有 实现 索引 封锁 和 谓词 锁 ， 而 
且 即 使 将 隔离 性 级 别 设置 为 可 串 行 化 ， 也 很 容易 由 于 幻象 问题 导致 非 可 串 行 性 。 


15.9 实践 中 的 弱 一 致 性 级 别 


14. 5 节 讨 论 了 SQL 标准 中 的 隔离 级 别 : 可 串 行 化 、 可 重复 读 、 已 提交 读 和 未 提交 读 。 本 节 首 先 简 
要 介绍 一 些 比 可 串 行 化 级 别 弱 的 一 致 性 级 别 的 较 老 技 术 ， 并 将 它们 与 SQL 标准 级 别 相 关联 。 然 后 我 们 
将 讨论 在 14. 8 节 中 已 简要 讨论 过 的 涉及 用 户 交互 的 事务 并 发 控制 问题 。 
15.9.1 二 级 一 致 性 

二 级 一 致 性 (degree-two consistency) 的 目的 是 在 不 必 保 证 可 串 行 性 的 前 提 下 防止 发 生 级 联 中 止 。 二 
级 一 致 性 的 封锁 协议 采用 两 阶段 封锁 协议 中 我 们 用 过 的 同样 的 两 类 锁 ， 共 享 锁 (S) AEH BX), SES 
必须 持 有 适当 的 锁 才 能 访问 数据 项 ， 但 是 两 阶段 动作 不 是 必需 的 。 

与 两 阶段 封锁 的 情况 大 不 相同 ， 这 里 共享 锁 可 以 在 任何 时 候 释 放 ， 并 且 锁 可 以 在 任何 时 间 获 得 ， 
而 排他 锁 只 有 在 事务 提交 或 中 止 后 才能 释放 。 该 协议 不 保证 可 串 行 性 。 实 际 上 ， 事 务 有 可 能 两 次 读 取 
同一 数据 项 却 得 到 不 同 结果 ， 如 在 图 15-20 H, TE Ta E Q 值 之 前 和 之 后 读 取 Q 值 。 





显然 ， 读 取 不 是 可 重复 读 ， 但 是 由 于 直到 事务 提交 前 一 直 持 有 排他 锁 ， i ji 
因此 没有 事务 可 以 读 取 未 提交 的 值 。 因 此 ， 二 级 一 致 性 是 已 提交 读 隔 离 性 水 。  locksO) 
平 的 一 种 特殊 实现 。 read(Q) 
unlock(Q) 
15.9.2 游标 稳定 性 lock-x(Q) 
游标 稳定 性 (cursor stability ) 是 二 级 一 致 性 的 一 种 形式 ， 它 是 为 利用 游标 es 
对 关系 中 的 元 组 进行 迭代 的 程序 而 设计 的 。 它 不 封锁 整个 关系 ， 游 标 稳定 性 oso | MOO 
保证 : read(Q) 
。 正 被 迭代 处 理 的 元 组 被 加 上 共享 锁 。 unlock(O) 
e 任何 被 更 改 的 元 组 被 加 上 排他 锁 ， 直 至 事务 提交 。 图 15-20 具有 二 级 一 致 


这 些 规则 保证 了 二 级 一 致 性 ， 不 要 求 两 阶段 封锁 ， 没 有 保证 调度 的 可 串 ”性 的 非 可 串 行 化 调度 
行 性 。 实 践 中 游标 稳定 性 用 于 频繁 访问 的 关系 ， 以 作为 一 种 提高 并 发 性 和 改 
善 系统 性 能 的 方法 。 无 论 是 否 存在 非 可 串 行 化 的 调度 ， 利 用 游标 稳定 性 的 应 用 程序 必须 在 编码 上 确保 
数据 库 的 一 致 性 。 所 以 ， 游 标 稳 定性 的 用 途 局 限于 某 些 专门 的 并 且 具 有 简单 一 致 性 约束 的 情况 。 
15.9.3 ”跨越 用 户 交互 的 并 发 控制 

并 发 控制 协议 通常 考虑 的 是 不 涉及 用 户 交互 的 事务 。 现 在 考虑 14. 8 节 中 涉及 用 户 交 互 的 航空 公司 
座位 选择 的 例子 。 假 设 我 们 从 初始 时 将 座位 空闲 情况 显示 给 用 户 ， 直 到 确定 座位 选择 的 所 有 步骤 看 作 
—T EF 

如 果 使 用 两 阶段 封锁 协议 ， 飞 机 上 所 有 座位 都 被 加 上 共享 锁 ， 直 到 用 户 选择 完 座 位 ， 在 这 期 间 其 
他 事务 不 允许 更 新 座位 分 配 情况 。 显 然 ， 这 种 锁 是 非常 糟糕 的 ， 因 为 用 户 可 能 需要 很 长 的 时 间 来 做 出 
选择 ， 甚 至 放弃 交易 但 不 显 式 地 取消 。 可 以 采用 时 间 戳 协议 或 者 有 效 性 检验 来 代替 ， 避 兔 加 锁 出 现 的 
问题 , 但 是 这 两 种 协议 会 在 另 一 个 用 户 B 更 新 座位 分 配 信 息 时 中 止 用 户 4 的 事务 ， 即 使 用 户 B 选择 的 
座位 和 用 户 4 选择 的 座位 并 不 冲突 。 快 照 隔离 是 在 这 种 情况 下 最 好 的 选择 ， 因 为 只 要 用 户 B 没有 选择 
和 用 户 4A 相同 的 座位 ，4 的 事务 就 不 会 中 止 。 

然而 ， 快 照 隔离 要 求 数据 库 记录 一 个 事务 的 更 新 信息 ， 即 便 该 事务 已 经 提交 ， 但 只 要 任何 其 他 并 
发 的 事务 仍然 是 活路 的， 这 对 于 长 事务 会 存在 问题 。 

另 一 种 方法 是 将 涉及 用 户 交 互 的 事务 划分 成 两 个 或 者 更 多 的 事务 ， 使 得 没有 事务 跨越 用 户 交 互 。 
如 果 我 们 的 座位 选择 事务 按照 这 样 进行 划分 ， 则 第 一 个 事务 将 读 取 空 闲 座位 ， 第 二 个 事务 将 完成 分 配 
选择 的 座位 。 如 果 第 二 个 事务 编写 不 慎 ， 会 出 现在 分 配 座位 给 用 户 的 时 候 ， 没 有 检查 该 座位 是 否 同时 
分 配给 其 他 用 户 ， 导 致 更 新 丢失 的 问题 。 为 避免 这 个 问题 ， 正 如 14. 8 节 所 述 ， 第 二 个 事务 只 有 在 座位 
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没有 同时 分 配给 其 他 用 户 时 才能 将 其 分 配 。 

上 述 思想 在 另 一 种 并 发 控制 机 制 中 概 化 了 ， 该 机 制 使 用 存储 在 元 组 中 的 版 本 号 来 避免 更 新 丢失 。， 
每 个 关系 模式 中 添加 一 个 额外 的 版 本 号 属性 ， 当 创建 元 组 时 初始 化 为 0。 当 一 个 事务 (第 一 次 ) 读 取 它 
试图 更 新 的 一 个 元 组 时 ， 它 记录 该 元 组 的 版 本 号 。 读 操作 作为 一 个 独立 的 数据 库 事 务 执行 ， 因 此 任何 
所 获得 的 锁 被 立即 释放 。 更 新 操作 在 本 地 完成 ， 并 作为 提交 过 程 的 一 部 分 拷贝 到 数据 库 中 ， 采 用 作为 
原子 执行 的 以 下 步骤 ( 即 作为 数据 库 事务 的 一 部 分 ) : 

。 对 于 每 个 更 新 的 元 组 ， 事 务 检查 当前 的 版 本 号 是 否 等 于 第 一 次 读 取 事务 时 的 版 本 号 。 

1. 如 果 版 本 号 匹配 ， 则 执行 数据 库 中 该 元 组 的 更 新 ， 并 且 它 的 版 本 号 加 1。 
2. 如 果 版 本 号 不 匹配 ， 事 务 中 止 ， 回 滚 它 所 执行 的 所 有 更 新 。 

如 果 对 于 所 有 更 新 元 组 的 版 本 号 检查 成 功 ， 事 务 提 交 。 值 得 一 提 的 是 时 间 戳 可 以 用 来 代替 版 本 号 ， 
而 对 机 制 没 有 任何 影响 。 

注意 到 上 述 机 制 和 快照 隔离 的 相似 性 。 版 本 号 检查 实现 了 快照 隔离 中 的 先 提 交 者 获胜 规则 ， 而 且 
在 事务 活跃 时 间 很 长 的 情况 下 也 可 使 用 。 然 而 ， 与 快照 隔离 不 同 ， 事 务 的 读 操 作 可 能 不 对 应 数据 库 中 
的 一 个 快照 。 与 有 效 性 检验 协议 不 同 ， 事 务 的 读 操作 不 进行 检验 。 

我 们 将 以 上 的 机 制 称 为 不 做 读 有 效 性 检查 的 乐观 并 发 机 制 ( optimistic concurrency control without read 
validation ) 。 不 做 读 有 效 性 检验 的 乐观 并 发 控制 机 制 提供 了 一 种 弱 的 串 行 化 水 平 ， 并 不 保证 可 串 行 化 。 
该 机 制 的 一 个 变种 是 在 提交 的 时 候 ， 除 了 检验 写 操作 外 ， 还 采用 版 本 号 来 检验 读 操作 ， 以 保证 事务 读 
取 的 元 组 在 初次 读 取 之 后 没有 更 新 。 这 种 机 制 即 我 们 前 面 看 到 的 乐观 并 发 控制 机 制 。 

上 述 机 制 已 经 被 应 用 程序 开发 人 员 广泛 地 用 在 涉及 用 户 交互 的 事务 处 理 中 。 该 机 制 的 一 个 诱 人 的 
特点 是 它 可 以 轻松 地 实现 在 数据 库 系统 顶层 。 作 为 提交 过 程 的 一 部 分 ， 检 验 和 更 新 操作 作为 一 个 单独 
的 数据 库 事务 执行 ， 并 采用 数据 库 的 并 发 控制 机 制 保持 提交 过 程 的 原子 性 。 以 上 机 制 同 样 用 在 
Hibernate 对 象 关 系 映射 系 统 ( 见 9.4.2 节 ) 和 其 他 对 象 关系 映射 系统 中 ， 并 称 为 乐观 并 发 控制 (即使 默 
认 读 操作 不 检验 ) 。 在 Hibernate 中 涉及 用 户 交 互 的 事务 称 为 对 话 ( conversation) ， 以 区 分 它们 和 采用 版 
本 号 的 常规 事务 检验 。 对 象 关系 映射 系统 还 将 数据 库 元 组 在 内 存 中 以 对 象 的 形式 进行 缓存 ， 在 缓存 的 
对 象 上 执行 事务 。 对 象 上 的 更 新 在 事务 提交 时 转化 为 数据 库 上 的 更 新 。 数 据 可 能 会 在 缓存 中 存在 很 长 
的 时 间 ， 如 果 事 务 更 新 缓存 的 数据 ， 则 会 有 更 新 丢失 的 风险 。 因 此 ，Hibernate 和 其 他 关系 对 象 映射 系 
统 采用 透明 的 版 本 号 检查 作为 提交 过 程 的 一 部 分 。( 如 果 需 要 可 串 行 化 ，Hibemate 允许 程序 员 绕 开 缓 
存 ， 直 接 在 数据 库 上 执行 事务 。) 


15.10 ”索引 结构 中 的 并 发 


对 索引 结构 访问 的 处 理 可 以 像 处 理 访问 其 他 数据 库 结构 那样 进行 ， 并 应 用 前 面 讲述 过 的 并 发 控制 
技术 。 然 而 ， 由 于 索引 访问 频繁 ， 它 们 将 成 为 封锁 竞争 的 集中 点 ， 从 而 导致 低 并 发 度 。 幸 运 的 是 ， 索 
引 不 必 像 其 他 数据 库 结 构 那样 处 理 。 事 务 在 两 次 索引 查找 期 间 ， 发 现 索引 结构 发 生 了 变化 ， 这 是 完全 
可 以 接受 的 ， 只 要 索引 查找 返回 正确 的 元 组 集 。 因 此 ， 只 要 维护 索引 的 准确 性 ， 对 索引 进行 非 可 串 行 
化 并 发 存 取 是 可 接受 的 。 

我 们 讲述 两 种 并 发 访问 B * 树 的 技术 。 关 于 处 理 B * 树 的 其 他 技术 ， 以 及 处 理 其 他 索引 结构 的 技术 
可 参阅 的 相关 文献 请 参见 文献 注解 。 

我 们 所 讲述 的 处 理 B * 树 的 技术 基于 封锁 机 制 ， 但 既 不 采用 两 阶段 封锁 也 不 采用 树 形 协议 。 用 于 碍 
找 、 插 入 与 删除 的 算法 是 第 11 章 中 使 用 的 算法 ， 只 是 做 了 小 小 的 修改 。 

第 一 中 技术 叫 作 蟹 行 协议 ( crabbing protocol ) : 

。 当 查 找 一 个 码 值 时 ， 稻 行 协议 首先 用 共享 模式 锁 住 根 结 点 。 沿 树 向 下 遍历 ， 它 在 子 结 点 上 获得 

一 个 共享 锁 ， 以 便 向 更 远 处 遍历 ， 在 子 结 点 上 获得 锁 以 后 ， 它 释放 父 结 点 上 的 锁 。 它 重复 该 过 
程 直至 叶 结 点 。 
。 当 插 入 或 删除 一 个 码 值 时 ， 秘 行 协议 采取 如 下 行动 : 

口 采取 与 查找 相同 的 协议 直至 希望 的 叶 结 点 ， 到 此 为 止 ， 它 只 获得 (和 释放 ) 共享 锁 。 
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它 用 排他 锁 封 锁 该 叶 结 点 ， 并 且 插 入 或 删除 码 值 。 
O 如 果 需 要 分 裂 一 个 结 点 或 将 它 与 兄弟 结 点 合并 ,或 者 在 兄弟 结 点 之 间 重 新 分 配 码 值 ， 蟹 行 协 
议 用 排他 锁 封 锁 父 结 点 ， 在 完成 这 些 操作 后 ， 它 释放 该 结 点 和 兄弟 结 点 上 的 锁 。 
如 果 父 结 点 需要 分 裂 、 合 并 或 重新 分 布 码 值 ， 该 协议 保留 父 结 点 上 的 锁 ， 以 同样 方式 分 
裂 、 合 并 或 重新 分 布 码 值 ， 并 且 传 播 更 远 。 否 则 ， 该 协议 释放 父 结 点 上 的 锁 。 
该 协议 的 名 字 来 源 于 螃蟹 走路 的 方式 : 先 移动 一 边 的 腿 ， 然 后 另 一 边 的 ， 如 此 交 蔡 进行 。 该 协议 
的 封锁 过 程 ， 从 上 往 下 和 从 下 往 上 (发 生 分 裂 、 合 并 或 重新 分 布 的 情况 ) ， 就 像 螃蟹 移 动 一 样 。 











一 且 某 个 操作 释放 了 一 个 结 点 上 的 锁 ， 别 的 操作 就 可 以 访问 该 结 点 。 在 向 下 的 搜索 操作 和 由 于 分 
裂 、 合 并 或 重新 分 布 传播 向 上 的 操作 之 间 有 可 能 出 现 死 锁 ， 系 统 能 很 容易 地 处 理 这 种 死 锁 ， 它 先 让 搜 
索 操 作 释 放 锁 ， 然 后 从 树 根 重启 它 。 

第 二 种 技术 使 用 一 个 改进 版 本 的 B 树 ， 称 为 B-link 树 (B-link tree) ， 避 免 了 在 获取 另 一 个 结 点 的 
锁 时 还 占有 一 个 结 点 的 锁 ， 获 得 更 多 的 并 发 性 。B-link 树 要 求 每 个 结 点 (包括 内 部 结 点 ， 不 仅仅 是 叶 结 
点 ) 维护 一 个 指向 右 兄 弟 结 点 的 指针 ， 这 个 指针 是 必要 的 ， 因 为 在 一 个 结 点 正在 分 裂 时 进行 的 查找 可 能 
不 仅 要 查找 该 结 点 而 且 可 能 要 查找 该 结 点 的 右 兄 弟 结 点 (如 果 存 在 的 话 ) 。 我 们 以 后 将 用 一 个 例子 来 说 
明 这 个 技术 。 但 首先 我 们 列 出 修改 后 的 B-link 树 封 锁 协 议 ( B-link-tree locking protocol) 。 

。 ER: B 树 的 每 个 结 点 在 访问 之 前 必须 加 共享 锁 。 非 叶 结 点 上 的 锁 应 该 在 对 B 树 的 其 他 任何 

结 点 发 出 加 锁 请 求 前 释放 。 如 果 结 点 分 裂 与 查找 同时 发 生 ， 所 希望 的 搜索 码 值 可 能 不 再 位 于 查 
找 过 程 中 所 访问 的 某 个 结 点 所 代表 的 那些 值 的 范围 内 。 在 这 种 情况 下， 搜索 码 值 在 兄弟 结 点 所 
代表 的 范围 内 ， 系 统 循 着 指向 右 兄 弟 结 点 的 指针 能 找到 该 兄弟 结 点 。 不 过 ， 叶 结 点 的 封锁 遵循 
两 阶段 封锁 协议 以 避免 幻象 现象 ， 如 15. 8. 3 节 所 述 。 

。 插入 与 删除 : 系统 遵循 查找 规则 ， 定 位 要 进行 插入 或 删除 的 叶 结 点 。 该 结 点 的 共享 锁 升 级 为 排 
他 锁 ， 然 后 进行 插入 或 删除 。 受 插入 或 删除 影响 的 叶 结 点 封锁 遵循 两 阶段 封锁 协议 ， 以 避免 幻 
象 现象 ， 如 15. 8. 3 节 所 述 。 

。 分 裂 : 如 果 事务 使 一 个 结 点 分 裂 ， 则 按 11. 3 节 的 算法 创建 新 结 点 并 作为 原 结 点 的 右 兄 弟 。 设 
置 原 结 点 和 新 产生 结 点 的 右 兄弟 指针 。 接 着 ， 事 务 释放 原 结 点 的 排他 锁 ( 假若 它 是 一 个 内 部 结 
点 ; 叶 结 点 以 两 阶段 形式 加 锁 ) ， 然 后 发 出 对 父 结 点 加 排他 锁 的 请 求 ， 以 便 插 入 指向 新 结 点 的 
指针 。( 没 有 必要 对 新 结 点 加 锁 或 解锁 ,) 

。 合并 : 执行 删除 后 ， 如 果 一 个 结 点 的 搜索 码 值 太 少 ， 则 必须 将 要 与 之 合并 的 那个 结 点 加 上 排他 

锁 。 一 旦 这 两 个 结 点 合并 ， 就 发 出 对 父 结 点 加 排他 锁 的 请 求 ， 以 便 删除 要 被 删除 的 结 点 。 此 
时 ,事务 释放 已 合并 结 点 的 锁 。 除 非 父 结 点 也 需 再 合并 ， 不 然 释放 其 锁 。 

注意 这 个 重要 的 事实 : 插 人 与 删除 操作 可 能 封锁 一 个 结 点 ， 释 放 该 结 点 ， 然 后 又 对 它 重 新 封锁 。 
此 外 ， 与 分 裂 或 合并 操作 并 发 执行 的 查找 可 能 发 现 所 需 搜索 码 值 被 分 裂 或 合并 操作 移 到 右 兄 弟 结 点 。 

为 说 明 这 一 点 ， 考 虑 图 15-21 所 示 的 B-link 树 。 假 设 有 两 个 针对 该 B-link 树 的 并 发 操作 : 





15-21 department 文件 的 n=3 的 B-link 树 


1. 插入 “Chemistry”。 
2. 查找 “Comp. Sci. ”。 
我 们 假设 插入 操作 首先 开始 。 它 为 “Chemistry” 执行 查找 ， 发 现 要 插入 “Chemistry” 的 结 点 已 满 。 于 
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是 它 将 该 结 点 的 共享 锁 转 换 为 排他 锁 ， 并 创建 新 结 点 。 这 样 ， 原 结 点 包含 搜索 码 值 Biology ”与 
“Chemistry”。 新 结 点 包含 搜索 码 值 *Comp. Sci. ”。 

现在 假设 发 生 上 下 文 切换 ， 导 致 控制 传递 给 查找 操作 。 该 查找 操作 访问 根 结 点 ， 然 后 沿 指向 根 结 
点 左 子 结 点 的 指针 而 下 。 接 着 访问 那个 结 点 ， 并 得 到 指向 左 子 结 点 的 指针 。 该 左 子 结 点 原先 包含 搜索 
码 值 * Biology” =j“ Comp. Sci. ” 。 由 于 该 结 点 目前 被 插入 操作 以 排他 方式 封锁 ， 因 此 查找 操作 必须 等 待 。 
注意 ， 此 时 查找 操作 不 持 有 任何 锁 ! 

插入 操作 现在 释放 了 叶 结 点 并 重新 对 父 结 点 加 锁 ， 这 次 以 排他 方式 封锁 。 它 完成 了 插入 操作 ， 得 
到 图 15-22 所 示 的 B-link 树 。 查 找 操作 继续 进行 。 然 而 ， 它 拥有 的 指针 指向 错误 的 叶 结 点 。 于 是 它 顺 
着 右 兄 弟 结 点 指针 定位 下 一 个 结 点 。 如 果 该 结 点 仍 不 正确 ， 则 继续 顺 着 该 结 点 的 右 兄 弟 指针 查找 。 可 
以 证 明 ， 如 果 查 找 操作 拥有 指向 错误 结 点 的 指针 ， 则 沿 着 右 兄 弟 结 点 指针 ， 查 找 操 作 最 终 可 以 到 达 正 
确 的 结 点 。 





15-22 4A “Chemistry” 到 图 15-21 所 示 的 B-link 树 中 


查找 与 插入 不 会 引起 死 锁 。 删 除 操作 时 的 结 点 合并 可 能 引起 不 一 致 性 ， 因 为 查找 操作 可 能 在 父 结 
点 更 新 前 已 经 从 父 结 点 读 取 了 指向 被 删除 结 点 的 指针 ， 然 后 试图 访问 被 删除 的 结 点 ， 查 找 操 作 将 必须 
从 根 结 点 重新 开始 。 不 对 结 点 进行 合并 可 以 避免 这 样 的 不 一 致 性 。 这 个 解决 方案 使 某 些 结 点 包含 的 搜 
RUA, GAS B ' 树 的 某 些 特性 。 然 而 ， 在 大 部 分 数据 库 中 ， 插 入 操作 比 删除 操作 频繁 ， 因 此 包 
含 搜索 码 值 太 少 的 结 点 可 能 较 快 地 得 到 更 多 的 值 。 

一 些 索引 并 发 控制 机 制 不 是 以 两 阶段 形式 封锁 索引 叶 结 点 ， 而 是 对 个 别 的 码 值 使 用 码 值 封锁 ( key- 
value locking) ， 允 许 其 他 码 值 从 同一 个 叶 结 点 插入 或 删除 ， 这 样 码 值 封锁 提供 了 增强 了 的 并 发 性 。 但 
是 ， 朴 素 地 使 用 码 值 封锁 可 能 引发 幻象 现象 ; 为 防止 幻象 现象 可 以 采用 下 一 码 封锁 ( next-key locking) 
技术 。 在 这 个 技术 中 ,每 一 次 索引 查找 不 仅 封锁 查找 范围 内 的 多 个 码 (或 单个 码 ， 在 点 查找 时 ) ， 而 且 
封锁 下 一 个 码 值 一 一 也 就 是 刚好 比 范围 内 最 后 一 个 码 值 大 的 码 值 ; 并 且 ， 每 一 次 插入 必须 不 仅 封锁 要 
插入 的 值 ， 而 且 包 括 下 一 个 码 值 。 这 样 ， 如 果 一 个 事务 试图 插入 一 个 值 到 另 一 个 事务 的 索引 查找 范围 
之 内 时 ， 这 两 个 事务 将 在 插入 码 值 的 下 一 个 码 值 上 冲突 。 同 样 ， 删 除 也 必须 封锁 被 删除 值 的 下 一 个 码 
值 ， 来 保证 检测 得 到 它 与 别 的 查询 的 查找 范围 的 并 发 冲突 。 


15. 11 总 结 


当 多 个 事务 在 数据 库 中 并 发 地 执行 时 ， 数 据 的 一 致 性 可 能 不 再 维持 。 系 统 有 必要 控制 各 事务 之 间 的 
相互 作用 ， 这 是 通过 称 为 并 发 控制 机 制 的 多 种 机 制 中 的 一 种 来 实现 的 。 

为 保证 可 串 行 性 ， 我 们 可 以 使 用 多 种 并 发 控制 机 制 。 所 有 这 些 机 制 要 么 延迟 一 个 操作 ， 要 么 中 止 发 
出 该 操作 的 事务 。 最 常用 的 机 制 是 各 种 封锁 协议 、 时 间 惟 排序 机 制 、 有 效 性 检查 技术 与 多 版 本 机 制 。 
封锁 协议 是 一 组 规则 ， 这 些 规则 阐明 了 事务 何 时 对 数据 库 中 的 数据 项 进行 加 锁 和 解锁 。 

两 阶段 封锁 协议 仅 在 一 个 事务 未 曾 释放 任何 数据 项 上 的 锁 时 才 允 许 该 事务 封锁 新 数据 项 。 该 协议 保 
证 可 串 行 性 ， 但 不 能 避免 死 锁 。 在 没有 关于 数据 项 访问 方式 信息 的 情况 下 ， 两 阶段 封锁 协议 对 于 保 
证 可 串 行 性 既是 必要 的 又 是 充分 的 。 


度 的 可 恢复 性 和 无 级 联 性 ， 强 两 阶段 封锁 协议 要 求 事务 持 有 的 所 有 锁 必须 在 事务 结束 时 方 可 释放 。 
基于 图 的 封锁 协议 对 访问 数据 项 的 顺序 加 以 限制 ， 从 而 不 需要 使 用 两 阶段 封锁 还 能 够 保证 可 串 行 性 ， 
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而 且 又 能 够 保证 不 会 产生 死 锁 。 

许多 种 封锁 协议 都 不 能 防止 死 锁 。 一 种 可 以 防止 死 锁 的 方法 是 使 用 数据 项 的 一 种 顺序 ， 并 且 按 与 该 
顺序 一 致 的 次 序 申 请 加 锁 。 

另 一 种 防止 死 锁 的 方法 是 使 用 抢占 与 事务 回 滚 。 为 控制 抢占 ， 我 们 给 每 个 事务 赋予 一 个 唯一 时 间 戳 。 
这 些 时 间 玲 用 于 决定 事务 是 等 待 还 是 回 滚 。 如 果 一 个 事务 回 滚 ， 它 在 重启 时 保持 原 有 时 间 崔 。 
wound-wait 机 制 是 一 个 抢占 机 制 。 

如 果 没 有 预防 死 锁 ， 系 统 必须 用 死 锁 检测 与 恢复 机 制 来 处 理 它们 。 为 此 ， 系 统 构 造 了 一 个 等 待 图 。 
当 且 仅 当 等 待 图 包含 环 时 ， 系 统 处 于 死 锁 状态 。 当 一 个 检测 算法 判定 死 锁 存在 ， 系 统 必须 从 死 锁 中 
恢复 。 系 统 通过 回 滚 一 个 或 多 个 事务 来 解除 死 锁 。 

某 些 情况 下 把 多 个 数据 项 聚 为 一 组 ， 将 它们 作为 聚集 数据 项 来 处 理 ， 其 效果 可 能 更 好 ， 这 就 导致 了 
粒度 的 多 个 级 别 。 我 们 允许 各 种 大 小 的 数据 项 ， 并 定义 数据 项 的 层次 ， 其 中 小 数据 项 艇 套 于 大 数据 
项 之 中 。 这 种 层次 结构 可 以 图 形 化 地 表示 为 树 。 封 锁 按 从 根 结 点 到 叶 结 点 的 顺序 进行 ; 解锁 则 按 从 
叶 结 点 到 根 结 点 的 顺序 进行 。 该 协议 保证 可 串 行 性 ， 但 不 能 避免 死 锁 。 

时 间 戳 排序 机 制 通过 事先 在 每 对 事务 之 间 选 择 一 个 顺序 来 保证 可 串 行 性 。 系 统 中 的 每 个 事务 对 应 一 
个 唯一 的 固定 时 间 戳 。 事 务 的 时 间 戳 决定 了 事务 的 可 串 行 化 顺序 。 这 样 ， 如 果 事 务 T, 的 时 间 惟 小 于 
事务 T 的 时 间 戳 ， 则 该 机 制 保证 产生 的 调度 等 价 于 事务 T, 出 现在 事务 7 之 前 的 一 个 串 行 调度 。 该 
机 制 通过 回 滚 违反 该 次 序 的 事务 来 保证 这 一 点 。 

在 大 部 分 事务 是 只 读 事务 的 情形 下 ， 冲 突 频 度 较 低 ， 这 种 情况 下 有 效 性 检查 机 制 是 一 个 适当 的 并 发 
控制 机 制 。 系 统 中 的 每 个 事务 对 应 一 个 唯一 的 固定 时 间 戳 。 串 行 性 次 序 是 由 事务 的 时 间 戳 决定 的 。 
在 该 机 制 中 ， 事 务 不 会 延迟 。 不 过 ， 事 务 要 完成 必须 通过 有 效 性 检查 。 如 果 事 务 未 通过 有 效 性 检查 ， 
则 该 事务 回 滚 到 初始 状态 。 

多 版 本 并 发 控制 机 制 基 于 在 每 个 事务 写 数 据 项 时 为 该 数据 项 创建 一 个 新 版 本 。 读 操作 发 出 时 ， 系 统 
选择 其 中 的 一 个 版 本 进行 读 取 。 利 用 时 间 惟 ， 并 发 控制 机 制 保证 按 确保 可 串 行 性 的 方式 选取 要 读 取 
的 版 本 。 读 操作 总 能 成 功 。 

O 在 多 版 本 时 间 截 排序 中 ， 写 操作 可 能 引起 事务 的 回 滚 。 

O 在 多 版 本 两 阶段 封锁 中 ， 写 操作 可 能 导致 封锁 等 待 或 死 锁 。 

快照 隔离 是 一 种 基于 有 效 性 检验 的 多 版 本 并 发 控制 协议 ， 与 多 版 本 两 阶段 封锁 协议 不 同 ， 它 不 需要 
将 事务 声明 为 只 读 或 更 新 的 。 快 照 隔 离 不 保证 可 串 行 化 ， 但 是 许多 数据 库 系统 仍然 支持 它 。 

仅 当 要 删除 元 组 的 事务 在 该 元 组 上 具有 排他 锁 时 ，delete 操作 才能 够 进行 。 在 数据 库 中 插入 新 元 组 的 
事务 在 该 元 组 上 被 授予 排他 锁 。 

插入 操作 可 能 导致 幻象 现象 ， 这 时 插入 操作 与 查询 发 生 逻 辑 冲 突 ， 尽 管 两 个 事务 可 能 没有 存 取 共同 
的 元 组 。 如 果 封 锁 仅 加 在 事务 访问 的 元 组 上 ， 这 种 冲突 就 检测 不 到 。 关 系 中 用 于 查找 元 组 的 数据 需 
要 加 锁 ， 索 引 封锁 技术 要 求 对 某 些 索引 结 点 加 锁 来 解决 这 个 问题 。 所 加 的 这 些 锁 保 证 所 有 事务 在 实 
际 的 数据 项 上 发 生 冲 突 ， 而 不 是 在 幻象 上 。 

弱 级 别 的 一 致 性 用 于 一 些 应 用 中 ， 在 这 些 应 用 中 ， 查 询 结果 的 一 致 性 不 是 至 关 重 要 的 ， 而 使 用 可 串 
行 性 会 使 查询 对 事务 的 处 理 起 反作用 。 二 级 一 致 性 是 这 种 弱 级 别 的 一 致 性 之 一 ， 游 标 稳 定性 是 二 级 
一 致 性 的 一 个 特例 ， 而 且 已 广泛 应 用 。 

跨越 用 户 交互 的 事务 并 发 控制 是 一 个 有 挑战 性 的 任务 。 应 用 程序 通常 实现 一 种 基于 采用 元 组 中 存储 
的 版 本 号 来 验证 写 操作 的 机 制 。 这 种 机 制 提供 了 弱 可 串 行 化 水 平 ， 而 且 可 以 实现 在 应 用 层 ， 而 无 需 
修改 数据 库 。 

可 以 为 特殊 的 数据 结构 开发 特殊 的 并 发 控制 技术 。 通 常 ， 特 殊 的 技术 用 到 B' 树 上 ， 以 允许 较 大 的 并 
发 性 。 这 些 技术 允许 对 B * 树 进行 非 可 串 行 化 访问 ， 但 它们 保证 B 树 结构 是 正确 的 ， 并 保证 对 数据 
库 本 身 的 存 取 是 可 串 行 化 的 。 


术语 回顾 
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锁 类 型 

o 共享 (5S) 锁 
口 排他 (X) 锁 
锁 








两 阶段 封锁 协议 
口 增长 阶段 

口 缩减 阶段 

口 封锁 点 

口 严格 两 阶段 封锁 
口 强 两 阶段 封锁 
锁 转 换 

口 升级 

口 降级 
基于 图 的 协议 
口 树 形 协议 

口 提交 依赖 
死 锁 处 理 

口 预防 

口 检测 

口 恢复 

死 锁 预 防 





实践 习题 
证 明 两 阶段 封锁 协议 保证 冲突 可 串 行 化 ， 并 且 事 务 可 以 根据 其 封锁 点 串 行 化 。 


15. 1 
15.2 


15.3 
15.4 


考虑 下 面 两 个 事务 : 


给 事务 Tat 7 3 增加 加 锁 、 解 锁 指令 ， 使 它们 遵从 两 阶段 封锁 协议 。 这 两 个 事务 会 引起 死 锁 吗 ? 


口 顺序 加 锁 

口 抢占 锁 

口 wait-die 机 制 

口 wound-wait 机 制 
口 基于 超时 的 机 制 
死 锁 检 测 

口 等 待 图 
死 锁 恢复 

口 全 部 回 滚 

口 部 分 回 滚 

多 粒度 

口 显 式 锁 

口 隐 式 锁 

口 意向 锁 
意向 型 锁 

O 共享 型 意向 (1S) 
口 排他 型 意向 (IX) 





多 粒度 封锁 协议 

基于 时 间 截 的 协议 
HEJER 

O 系统 时 钟 

口 逻辑 计数 器 

O W-timestamp( Q) 
O R-timestamp( Q) 
时 间 戳 排序 协议 

O Thomas 写 规则 


基于 有 效 性 检查 的 协议 


O 读 阶段 


Ty: read(A) ; 


read(B) ; 


if A=0 then B:= B+1; 


write( B) ; 


Tı: read(B) ; 


read(A) ; 


if B=0 then 4:= A+1; 


write( A). 


口 共享 排他 型 意向 (SIX) 
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口 有 效 性 检查 阶段 
O 写 阶段 

口 有 效 性 测试 
多 版 本 并 发 控制 
多 版 本 时 间 戳 排序 
多 版 本 两 阶段 封锁 
口 只 读 事 务 

口 更 新 事务 
快照 隔离 

口 更 新 丢失 

O 先 提交 者 获胜 
口 先 更 新 者 获胜 
T tat 

O select for update 
插入 和 删除 操作 
幻象 现象 

索引 封锁 协议 
谓词 锁 

弱 一 致 性 级 别 

口 二 级 一 致 性 

口 游标 稳定 性 




















不 做 读 有 效 性 验证 的 乐观 


并 发 控制 
对 话 
索引 中 的 并 发 
O 蟹 行 协议 
O B-link 树 











口 下 一 码 封锁 


强 两 阶段 封锁 协议 带 来 什么 好 处 ? 它 与 其 他 形式 的 两 阶段 封锁 协议 相 比 有 何 异 同 ? 
考虑 一 个 按 有 根 树 方式 组 织 的 数据 库 。 假 设 我 们 在 每 对 结 点 之 间 插 入 一 个 虚 结 点 。 证 明 ， 如 果 我 们 在 


口 B-link 树 封 锁 协 议 
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73 
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15. 


15. 
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© 


10 


15 


由 此 构成 的 新 树 上 遵从 树 形 协议 ， 我 们 可 以 得 到 的 并 发 度 比 在 原始 树 上 遵从 树 形 协 议 的 更 高 。 
用 例子 证 明 : 存在 在 树 形 封锁 协议 下 可 行 ， 而 在 两 阶段 封锁 协议 下 不 可 行 的 调度 ， 反 之 亦 然 。 
考虑 以 下 对 树 形 封锁 协议 的 扩展 ， 它 既 允 许 使 用 共享 锁 又 允许 使 用 排他 锁 : 
。 事务 可 以 是 只 读 事务 ， 在 这 种 情况 下 它 只 申请 共享 锁 ; 也 可 以 是 更 新 事务 ， 此 时 只 申请 排他 锁 。 
。 每 个 事务 必须 遵从 树 形 协议 规则 。 只 读 事 务 可 以 首先 封锁 任何 数据 项 ， 而 更 新 事务 必须 首先 封锁 
根 结 点 。 
证 明 该 协议 保证 可 串 行 性 并 能 避免 死 锁 。 
考虑 以 下 基于 图 的 封锁 协议 ， 它 只 允许 加 排他 锁 ， 并 且 在 带 根 有 向 无 环 数据 图 上 运作 : 
。 事务 首先 可 以 封锁 任何 结 点 。 
。 要 封锁 任何 其 他 的 结 点 ， 事 务必 须 在 该 结 点 的 大 部 分 父 结 点 上 持 有 锁 
证 明 该 协议 保证 可 串 行 性 并 能 避免 死 锁 。 
考虑 以 下 基于 图 的 封锁 协议 ， 它 只 允许 加 排他 锁 ， 并 且 在 带 根 有 向 无 环 数据 图 上 运作 : 
。 事务 首先 可 以 封锁 任何 结 点 。 
。 要 封锁 任何 其 他 的 结 点 ， 事 务必 须 已 经 访问 该 结 点 的 所 有 父 结 点 ， 并 且 必 须 在 该 结 点 的 一 个 父 结 
点 上 持 有 锁 。 
证 明 该 协议 保证 可 串 行 性 并 能 避免 死 锁 。 
在 持久 化 程序 设计 语言 中 封锁 不 是 显 式 进行 的 。 访 问 对 象 ( 或 相应 页 ) 时 必须 加 锁 。 大 部 分 现代 操作 
系统 允许 用 户 对 页 面 设置 访问 保护 (不 许 访问 、 读 、 写 )， 并且 违 反 存 取 保护 的 内 存 访问 将 导致 违反 
保护 错误 ( 如， 参见 UNIX 的 mprotect 命令 )。 说 明 访问 保护 机 制 在 持久 化 程序 设计 语言 中 如 何 用 于 页 
级 封锁 。 
考虑 除 read 与 write 操作 之 外 还 包含 原子 操作 increment 的 一 个 数据 库 系 统 。 令 V 是 数据 项 X 的 值 。 
操作 : 
increment(X) by C 
在 一 个 原子 步骤 中 将 X 的 值 设 为 V+ C。 如 果 事 务 不 执行 read(X) ， 则 事务 不 能 获知 的 值 。 图 
15-23 表 示 三 种 锁 类 型 的 锁 相 容 阵 : 共享 型 、 排 他 型 和 增 量 型 。 
a. 证 明 : 如 果 所 有 事务 按 相应 的 类 型 封锁 它们 所 访问 的 数据 项 ， 则 两 阶段 封锁 保证 可 串 行 性 。 
b. 证 明 : 包含 增 量 型 锁 可 以 增加 并 发 度 。( 提示 : 在 所 举 的 银行 例子 中 ， 考 虑 支票 的 票据 交换 事务 ) 。 
在 时 间 戳 排序 中 ，W-timestamp( Q) 表示 成 功 执行 write( Q) 的 所 有 
事务 的 最 大 时 间 截 。 现 在 ， 假 设 我 们 将 之 定义 为 最 近 成 功 执行 write 
(Q) 的 事务 的 时 间 惟 。 这 种 措辞 上 的 变化 会 带 来 什么 不 同 ? 解释 你 






X 


5 
false false 







的 答案 false 
采用 多 粒度 封锁 机 制 比 采 用 单 封锁 粒度 的 等 价 系统 需要 更 多 或 更 少 


的 锁 。 针 对 每 种 情况 各 举 一 例 ， 并 比较 所 允许 的 相对 并 发 量 。 

考虑 15.5 节 基 于 有 效 性 检查 的 并 发 控制 机 制 。 证 明 : 若 选择 
Validation( 7, ) 而 不 是 Start( 7, ) 作为 事务 7; 的 时 间 戳 ， 则 如 果 事 务 间 发 生 冲突 的 次 数 确实 很 低 ， 我 们 
可 望 有 较 好 的 响应 时 间 。 

对 于 下 面 的 每 个 协议 ,说 明 促 使 你 使 用 某 个 协议 的 实际 应 用 原因 以 及 不 使 用 的 原因 : 

。 两 阶段 封锁 。 

。 具有 多 粒度 封锁 的 两 阶段 封锁 。 

。 树 形 协 议 。 

© 时 间 截 排序 。 

。 有 效 性 检查 。 

© 多 版 本 时 间 戳 排序。 

。 多 版 本 两 阶段 封锁 。 

解释 为 什么 使 用 下 述 事务 执行 技术 会 比 仅 仅 使 用 严格 两 阶段 封锁 能 够 得 到 更 好 的 性 能 : 跟 基于 有 效 
性 检查 技术 中 一 样 ， 首 先 执行 事务 而 无 须 获得 任何 锁 ， 也 不 向 数据 库 执行 任何 写 操作 。 但 跟 有 效 性 


图 15-23 ” 锁 相 容 和 矩阵 
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检查 技术 中 不 一 样 的 是 它 既 不 检查 有 效 性 也 不 在 数据 库 上 执行 写 操作 ， 而 是 采用 严格 两 阶段 封锁 重 
新 运行 事务 。( 提示 : 考虑 磁盘 VO 等 待 。) 
15.16 ”考虑 时 稚 排 序 协 议 ， 以 及 两 个 事务 ， 一 个 执行 写 两 个 数据 项 Pp 和 4， 另 一 个 执行 读 这 两 个 数据 项 。 
试 给 出 一 个 调度 ， 使 得 第 一 个 事务 写 操作 的 时 间 戳 测试 失败 ， 引 起 该 事务 重启 ， 并 依次 引起 另 一 个 
事务 的 级 联 中 止 。 并 说 明 是 怎样 导致 这 两 个 事务 都 俄 死 的 。( 两 个 或 多 个 进程 执行 ， 但 它们 都 由 于 
与 其 他 进程 的 交互 作用 而 无 法 完成 它们 的 任务 ， 这 种 情形 叫做 活 锁 (livelock ) 。) 
15. 17 ”设计 一 个 基于 时 间 戳 的 能 避免 幻象 现象 的 协议 。 
15. 18 ”假设 我 们 采用 15. 1. 5 节 中 的 树 形 协议 来 管理 对 B ` 树 的 并 发 访问 ， 由 于 在 影响 到 根 结 点 的 插入 中 也 
可 能 发 生 分 裂 ， 因 此 看 来 插入 操作 在 整个 操作 完成 之 前 都 不 能 释放 锁 。 在 什么 情况 下 有 可 能 提前 释 
放 锁 呢 ? 
15.19 快照 隔离 采用 有 效 性 检验 步骤 ， 当 事务 了 写 数 据 项 之 前 ， 检 查 了 是 否 有 其 他 并 发 事务 已 经 写 过 该 数 
据 项 。 
a. 一 种 简单 的 实现 方式 对 于 每 个 事务 采用 一 个 开始 时 间 惟 和 一 个 提交 时 间 戳 ， 另 外 还 有 一 个 更 新 集 
合 来 记录 事务 更 新 的 数据 项 。 解 释 如 何 利 用 事务 时 间 戳 和 更 新 集合 来 实现 先 提 交 者 获胜 机 制 中 的 
检验 。 你 可 以 假设 检验 和 其 他 提交 过 程 是 串 行 执行 的 ， 即 一 次 只 有 一 个 事务 。 715 
b. 解释 如 何 修改 上 述 机 制 ， 不 用 更 新 集合 ， 而 为 每 个 数据 项 分 配 一 个 写 时 间 戳 ,来 实现 先 提交 者 获 
胜 机 制 下 有 效 性 检验 步骤 作为 提交 过 程 的 一 部 分 。 同 样 ， 你 可 以 假设 检验 和 其 他 提交 过 程 是 串 行 
执行 的 。 
c. 先 提 交 者 获胜 机 制 可 以 采用 上 述 时 间 惟 来 实现 ， 除 了 当 获 得 排他 锁 时 立刻 执行 有 效 性 检验 ， 而 不 
是 在 提交 时 执行 。 
i 解释 如 何 给 数据 项 分 配 写 时 间 截 来 实现 先 提交 者 获胜 机 制 。 
ii, 说 明 由 于 锁 机 制 ， 如 果 提 交 时 重复 有 效 性 检验 ， 结 果 不 会 发 生变 化 。 
ii. 解释 在 这 种 情况 下 ， 为 什么 没有 必要 串 行 地 执行 有 效 性 检验 和 其 他 提交 过 程 。 


15.20 ”严格 两 阶段 封锁 协议 带 来 什么 好 处 ? 会 产生 哪些 弊端 ? 

15. 21 大 部 分 数据 库 系 统 实现 采用 严格 两 阶段 封锁 协议 。 说 明 该 协议 流行 的 三 点 理由 。 

15.22 ”考虑 树 形 协议 的 一 个 变种 ， 它 称 为 森林 协议 。 数 据 库 按 有 根 树 的 森林 的 方式 组 织 。 每 个 事务 7; 必须 
遵从 以 下 规则 : 
。 每 棵 树 上 的 首次 封锁 可 以 在 任何 数据 项 上 进行 。 
© 树 上 的 第 二 次 以 及 此 后 的 封锁 申请 仅 当 被 申请 结 点 的 父 结 点 上 有 锁 时 才能 发 出 。 
。 数据 项 解锁 可 在 任何 时 候 进 行 。 
。 事务 7, 释放 数据 项 后 不 能 再 次 封锁 该 数据 项 。 
证 明和 森林 协议 不 保证 可 串 行 性 。 

15.23 ”在 什么 条 件 下 避免 死 锁 比 允许 死 锁 发 生 然 后 检测 的 方式 代价 更 小 ? 

15. 24 ”如 果 通 过 死 锁 避免 机 制 避免 了 死 锁 后 ， 钱 死 仍 有 可 能 吗 ? 解释 你 的 答案 。 

15.25 在 多 粒度 封锁 中 ， 隐 式 封 锁 与 显 式 封锁 有 什么 不 同 ? 

15.26 尽管 SIX 锁 在 多 粒度 封锁 中 很 有 用 ， 但 排他 共享 意向 (XIS ) 锁 则 无 用 。 为 什么 ? 716 

15.27 多 粒度 协议 中 的 规则 指出 ， 仅 当 事 务 T, 当前 对 O 的 父 结 点 持 有 IX BC IS BiR, T, 对 结 点 @ 可 加 5S 或 
IS 锁 。 已 知 SIX 和 S 锁 比 IX ALIS 锁 更 强 ， 为 什么 协议 不 允许 当 父 结 点 持 有 SIX 或 S 锁 时 对 该 结 点 
hii S MIS Bi? 

15.28 ” 当 一 个 事务 在 时 间 惟 排序 协议 下 回 滚 ， 它 被 赋予 新 时 间 戳 。 为 什么 它 不 能 简单 地 保持 原 有 时 间 戳 ? 

15.29 证 明 : 存在 满足 两 阶段 封锁 协议 却 不 满足 时 间 戳 协议 的 调度 ， 反 之 亦 然 。 

15. 30 ”在 时 间 戳 协议 的 一 个 修改 版 中 ， 我 们 要 求 测试 提交 位 以 判定 read 请 求 是 否 必须 等 待 。 解 释 提交 位 如 
何 防止 级 联 中 止 。 为 什么 该 测试 对 write 请 求 是 不 必要 的 。 

15.31 ”如 练习 15.19 讨论 的 ， 快 照 隔离 可 以 通过 时 间 惟 有 效 性 检验 的 形式 来 实现 。 然 而 ， 与 保证 可 串 行 化 
的 多 版 本 时 间 戳 排序 机 制 不 同 ， 快 照 隔离 不 保证 可 串 行 化。 解释 导致 这 种 差异 结果 的 两 种 协议 之 间 
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关键 的 区 别 。 

15.32 列 出 练习 15. 19 描述 的 基于 时 间 戳 实现 的 先 提交 者 获胜 版 本 的 快照 隔离 与 15. 9. 3 节 描 述 的 不 做 读 有 
效 性 检验 的 乐观 并 发 控制 的 主要 相似 点 和 区 别 。 

15.33 ”解释 幻象 现象 。 为 什么 尽管 采用 两 阶段 封锁 协议 ， 该 现象 仍 可 能 导致 不 正确 的 并 发 执行 ? 

15.34 ”解释 使 用 二 级 一 致 性 的 原因 ， 这 种 方法 有 什么 缺点 ? 

15.35 ”请 给 出 码 值 封锁 调度 的 例子 ， 说 明 如 果 查 找 、 插 入 、 删 除 操作 中 的 任何 一 个 不 对 下 一 码 值 进行 封锁 ， 
都 可 能 出 现 未 发 现 的 幻象 。 

15.36 许多 事务 更 新 一 个 公共 数据 项 (例如 ， 一 个 支行 的 现金 余额 ) 和 若干 私有 数据 项 (例如 ， 多 个 个 人 账 
户 余额 ) 。 解 释 如 何 通过 对 事务 操作 进行 排序 来 提高 并 发 度 ( 和 吞吐 量 ) 。 

15.37 ”考虑 下 面 这 个 封锁 协议 : 所 有 数据 项 都 被 编号 ， 并 且 当 解锁 一 个 数据 项 时 ， 只 有 标号 更 大 的 数据 项 
才 可 以 加 锁 。 锁 可 以 在 任何 时 候 释 放 。 只 能 使 用 排他 锁 。 用 例子 说 明 这 个 协议 不 能 保证 可 串 行 化 ， 


文献 注解 


Gray 和 Reuter[ 1993 ] 在 其 教科 书 中 全 面 讨 论 了 事务 处 理 的 概念 ， 包 括 并 发 控制 的 概念 和 实现 细节 ， 
Bernstein 和 Newcomer[ 1997] 在 其 教科 书 中 讨论 了 事务 处 理 的 多 个 方面 ， 包 括 并 发 控制 。 

两 阶段 封锁 协议 由 Eswaran 等 [ 19761 引 入 。 树 形 协议 来 自 Silberschatz 与 Kedem[ 1980 ] 。 其 他 的 工作 在 
更 一 般 的 图 上 的 非 两 阶段 封锁 协议 由 Yannakakis 等 [1979 ] Kedem 与 Sileberschatz[ 1983], ， 以 及 Buchley 与 
Silberschatz[ 1985 ] 提出 。kovth[ 1983 ] 探讨 了 由 基本 的 共享 和 排他 锁 方 式 可 以 得 到 的 多 种 封锁 方式 。 

实践 习题 15.4 来自 Buckley 与 Silberschatz[ 1984 ] 。 实 践 习 题 15.6 来 自 Kedem 与 Silberschatz[ 1983 ] 。 实 
践 习题 15.7 来 自 Kedem 与 Silberschatz[ 1979 ] 。 实 践 习题 15. 8 来 自 Yannakakis 等 [ 1979 ] 。 实 践 习题 15. 10 
来 自 Korth[ 1983 ] 。 

多 粒度 数据 项 封锁 协议 来 自 Gray 等 [1975 ] 。Gray [1976] 给 出 了 详细 的 描述 。Kedem 和 Silberschatz 
[1983 ] 对 任意 封锁 方式 (允许 更 多 的 语义 而 不 仅仅 是 读 和 写 ) 的 多 粒度 封锁 做 了 规范 化 。 这 种 方法 包括 称 为 
更 新 型 锁 的 一 类 锁 ， 以 处 理 锁 转换 。Carey[ 1983 ] 将 多 粒度 的 想法 扩展 到 基于 时 间 惟 的 并 发 控制 。 为 保证 不 
产生 死 锁 而 产生 的 一 种 扩展 协议 由 Korth[ 1982 ] 给 出 。 

基于 时 间 戳 的 并 发 控制 机 制 来 自 Reed[ 1983], Buckley 与 Silberschatz[ 1983 ] 给 出 了 一 种 不 须 回 滚 且 保证 
可 曲 行 化 的 时 间 蕉 算 法 。 有 效 性 检查 的 并 发 控制 机 制 来 自 Kung 与 Robison[ 1981] 。 

多 版 本 时 间 戳 排序 由 Reed[ 1983 ] 引 入 。Silberscatz[ 1982 ] 中 给 出 了 一 种 多 版 本 树 封锁 协议 。 

二 级 一 致 性 在 Gray 等 [1975] 中 介绍 ，SQL 中 的 一 致 性 (或 隔离 性 ) 的 级 别 在 Berenson 等 [1995 ] 中 做 了 
解释 和 评论 。 许 多 商业 数据 库 系 统 使 用 与 加 锁 相 结合 的 基于 版 本 的 方法 。PostgreSQL、Oracle、 和 SQL Server 
全 部 支持 在 15. 6. 2 节 中 提 到 的 快照 隔离 协议 。 细 节 请 分 别 参考 第 27、28 和 30 章 。 

需要 注意 的 是 ， 在 PostgreSQL (版 本 8. 1.4) 和 Oracle (版 本 10g) 中 将 隔离 级 别 设 置 为 串 行 化 的 结果 是 采 
用 快照 隔离 ， 并 不 保证 可 串 行 性 。Fekete 等 [2005 ] 介绍 如 何 通过 重 写 事务 引入 冲突 ， 使 得 在 快照 隔离 下 保 
证 可 串 行 化 执行 。 这 些 冲突 保证 在 快照 隔离 下 事务 不 能 并 发 执行 。Jorwekar 等 [2007] 介 绍 了 一 种 方法 ， 给 定 
一 个 运行 在 快照 隔离 下 的 (参数 化 ) 事 务 集合 ， 该 方法 可 以 检验 这 些 事务 是 否 存在 非 串 行 化 的 风险 。 

Bayer 与 Schkolnick[ 1977 ] 和 Johnson 与 Shasha[ 1993 ] 对 B’ 树 中 的 并 发 作 了 研究 。15. 10 节 所 给 技术 基于 
Kung 与 Lehman[ 1980] ， 以 及 Lehman 与 Yao[ 1981 ] 。ARIES 系统 中 采用 的 码 值 封锁 技术 为 B' 树 访问 提供 了 
极 高 的 并 发 性 ， 在 Mohan[ 1990a] 、Mohan 和 Narang[ 1992 ] 中 描述 。Ellis[ 1987 ] 给 出 了 一 个 用 于 线性 散 列 的 
并 发 控制 技术 。 
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恢复 系统 


计算 机 系统 与 其 他 任何 设备 一 样 易 发 生 故障 。 故 障 的 原因 多 种 多 样 ， 包 括 磁盘 故障 、 电 源 故 障 、 
软件 错误 、 机 房 失火 ， 甚 至 人 为 破坏 。 一 旦 有 任何 故障 发 生 ， 就 可 能 会 丢失 信息 。 因 此 ， 数 据 库 系统 
必须 预先 采取 措施 ， 以 保证 即使 发 生 故 障 ， 也 可 以 保持 第 14 章 所 讲 的 事务 的 原子 性 和 持久 性 。 恢 复 机 
fii] (recovery scheme ) 是 数据 库 系 统 必 不 可 少 的 组 成 部 分 ， 它 负责 将 数据 库 恢复 到 故障 发 生前 的 一 致 的 状 
态 。 恢 复 机 制 还 必须 提供 高 可 用 性 (high availability) ， 即 : 它 必 须 将 数据 库 崩 溃 后 不 能 使 用 的 时 间 缩 减 
到 最 短 。 


16.1 故障 分 类 


系统 可 能 发 生 的 故障 有 很 多 种 ， 每 种 故障 需要 不 同 的 方法 来 处 理 。 在 本 章 中 ， 我 们 将 只 考虑 如 下 
类 型 的 故障 。 
。 事务 故障 ( transaction failure) 。 有 两 种 错误 可 能 造成 事务 执行 失败 : 
口 逻辑 错误 (logical error) 。 事 务 由 于 某 些 内 部 条 件 而 无 法 继续 正常 执行 ,这样 的 内 部 条 件 如 非 
法 输入 、 找 不 到 数据 、 滋 出 或 超出 资源 限制 。 
O 系统 错误 (system error) 。 系 统 进 入 一 种 不 良 状 态 ( 如 死 锁 ) ， 结 果 事 务 无 法 继续 正常 执行 。 但 
该 事务 可 以 在 以 后 的 某 个 时 间 重 新 执行 。 
© 系统 崩溃 (system crash) 。 硬 件 故 障 ， 或 者 是 数据 库 软 件 或 操作 系统 的 漏洞 ， 导 致 易 失 性 存储 器 
内 容 的 丢失 ， 并 使 得 事务 处 理 停 止 。 而 非 易 失 性 存储 器 仍 完好 无 损 。 
硬件 错误 和 软件 漏洞 致使 系统 终止 ， 而 不 破坏 非 易 失 性 存储 器 内 容 的 假设 称 为 故障 - 停止 
假设 (fail-stop assumption) 。 设 计 良 好 的 系统 在 硬件 和 软件 层 有 大 量 的 内 部 检查 ， 一 旦 有 错误 发 
生 就 会 将 系统 停止 。 因 此 ， 故 障 -停止 假设 是 合理 的 。 
© 磁盘 故障 ( disk failure) 。 在 数据 传送 操作 过 程 中 由 于 磁头 损坏 或 故障 造成 磁盘 块 上 的 内 容 丢 失 。 
其 他 磁盘 上 的 数据 拷贝 ， 或 三 级 介质 (如 DVD 或 磁带 ) 上 的 归档 备份 可 用 于 从 这 种 故障 中 恢复 。[721 | 
要 确定 系统 如 何 从 故障 中 恢复 ,我 们 首先 需要 确定 用 于 存储 数据 的 设备 的 故障 方式 。 其 次 ,我 们 
必须 考虑 这 些 故障 方式 对 数据 库 内 容 有 什么 影响 。 然 后 我 们 可 以 提出 在 故障 发 生 后 仍 保证 数据 库 一 致 
性 以 及 事务 的 原子 性 的 算法 。 这 些 算法 称 为 恢复 算法 ， 由 两 部 分 组 成 : 
1. 在 正常 事务 处 理 时 采取 措施 ， 保 证 有 足够 的 信息 可 用 于 故障 恢复 。 
2， 故 障 发 生 后 采取 措施 ， 将 数据 库 内 容 恢 复 到 某 个 保证 数据 库 一 致 性 、 事 务 原 子 性 及 持久 性 的 
状态 。 


16.2 存储 器 


正如 我 们 在 第 10 章 中 所 看 到 的 ， 数 据 库 中 的 各 种 数据 项 可 在 多 种 不 同 存储 介质 上 存储 并 访问 。 在 
14.3 节 中 ， 我 们 看 到 存储 介质 可 以 按照 它们 相对 的 速度 、 容 量 和 顺应 故障 的 能 力 来 划分 。 我 们 把 存储 
© 易 失 性 存储 器 (volatile storage) 
© 非 易 失 性 存储 器 ( nonvolatile storage) 
© 稳定 存储 器 ( stable storage) 
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稳定 存储 器 ， 或 更 准确 地 说 是 接近 稳定 的 存储 器 ， 在 恢复 算法 中 起 到 至 关 重 要 的 作用 。 
16.2.1 稳定 存储 器 的 实现 
要 实现 稳定 存储 器 ， 我 们 需要 在 多 个 非 易 失 性 存储 介质 (通常 是 磁盘 ) 上 以 独立 的 故障 模式 复制 所 


需 信 息 ， 并 且 以 受 控 的 方式 更 新 信息 ， 以 保证 数据 传送 过 程 中 发 生 的 故障 不 会 破坏 所 需 信息 。 
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前 面 (第 10 章 ) 讲 到 RAID 系统 保证 了 单个 磁盘 的 故障 (即使 发 生 在 数据 传送 过 程 中 ) 不 会 导致 数据 
丢失 。 最 简单 并 且 最 快 的 RAID 形式 是 磁盘 镜像 ， 即 在 不 同 的 磁盘 上 为 每 个 磁盘 块 保存 两 个 拷贝 。 
RAID 的 其 他 形式 代价 低 一 些 ， 但 性 能 也 差 一 些 。 

但 是 ，RAID 系统 不 能 防止 由 于 灾难 (如 火灾 或 洪水 ) 而 导致 的 数据 丢失 。 许 多 系统 通过 将 归档 备 
份 存储 在 磁带 上 并 转移 到 其 他 地 方 来 防止 这 种 灾难 。 但 是 ， 由 于 磁带 不 能 被 连续 不 断 地 移 至 其 他 地 方 ， 
最 后 一 次 磁带 被 移 至 其 他 地 方 以 后 所 做 的 更 新 可 能 会 在 这 样 的 灾难 中 丢失 。 更 安全 的 系统 远程 为 稳定 
存储 器 的 每 一 个 块 保存 一 份 拷贝 ， 除 在 本 地 磁盘 系统 进行 块 存储 外 ， 还 通过 计算 机 网 络 写 到 远程 去 。 
由 于 在 往 本 地 存储 器 输出 块 的 同时 也 要 输出 到 远程 系统 ， 一 旦 输出 操作 完成 ， 即 使 发 生火 灾 或 洪水 这 
样 的 灾难 ， 输 出 结果 也 不 会 丢失 。 我 们 在 16. 9 节 学 习 这 种 远程 备份 系统 。 

本 节 剩 余 的 部 分 将 讨论 如 何在 数据 传送 过 程 中 保护 存储 介质 不 受 故障 损害 。 在 内 存 和 磁盘 存储 器 
间 进 行 块 传送 有 以 下 几 种 可 能 结果 : 

© 成 功 完成 (successful completion)。 传 送 的 信息 安全 地 到 达 目 的 地 。 

© 部 分 失败 (partial failure) 。 传 送 过 程 中 发 生 故 障 ， 目 标 块 有 不 正确 信息 。 

。 完全 失败 (total failure) 。 传 送 过 程 中 故障 发 生得 足够 早 ， 目 标 块 仍 完好 无 缺 。 

我 们 要 求 ， 如 果 数 据 传送 故障 ( data-transfer failure) 发 生 ， 系 统 能 检测 到 并 且 调 用 恢复 过 程 将 块 
恢复 成 为 一 致 的 状态 。 为 达到 这 个 要 求 ， 系 统 必 须 为 每 个 逻辑 数据 库 块 维护 两 个 物理 块 ; 若是 镜像 
磁盘 ， 则 两 个 块 在 同一 个 地 点 ; 若是 远程 备份 ， 则 一 个 块 在 本 地 ， 另 一 个 在 远程 节点 。 输 出 操作 的 
执行 如 下 : 

1. 将 信息 写 入 第 一 个 物理 块 。 

2. 当 第 一 次 写成 功 完成 时 ， 将 相同 信息 写 入 第 二 个 物理 块 。 

3. 只 有 第 二 次 写成 功 完成 时 ， 输 出 才 算 完成 。 

如 果 在 对 块 进 行 写 的 过 程 中 系统 发 生 故 障 ， 有 可 能 一 个 块 的 两 个 拷贝 互相 不 一 致 。 在 恢复 过 程 中 ， 
对 于 每 一 个 块 ， 系 统 需要 检查 它 的 两 个 拷贝 。 如 果 它 们 相同 并 且 没 有 检测 到 错误 存在 ， 则 不 需要 采取 
进一步 动作 。( 前 面 讲 到 ， 磁 盘 块 中 的 某 些 错误 ， 如 部 分 写 块 ， 可 由 存储 在 每 个 块 中 的 校 验 和 检测 
到 。) 如 果 系 统 检测 到 一 个 块 中 有 错误 ， 则 可 以 用 另 一 个 块 的 内 容 替 换 这 一 块 的 内 容 。 如 果 两 个 块 都 没 
有 检测 出 错误 ， 但 它们 的 内 容 不 一 致 ， 则 我 们 用 第 二 块 的 值 替 换 第 一 块 的 内 容 ， 或 者 用 第 一 块 的 值 替 
换 第 二 块 的 内 容 。 不 管用 哪个 方法 ， 恢 复 过 程 都 保证 ， 对 稳定 存储 器 的 写 要 么 完全 成 功 ( 即 更 新 所 有 拷 
贝 ) ， 要 么 没有 任何 改变 。 

在 恢复 过 程 中 要 求 比较 每 一 对 相应 块 的 开销 太 大 。 通 过 使 用 少量 非 易 失 性 RAM， 跟 踪 正 在 进行 的 
对 块 的 写 操 作 ， 我 们 可 以 大 大 降低 开销 。 在 恢复 时 ， 只 须 比 较 正 在 写 的 块 。 

将 块 写 到 远程 节点 的 协议 类 似 于 将 块 写 到 镜像 磁盘 系统 的 协议 ， 我 们 在 第 10 章 讨 论 过 了 ， 特 别 是 
实践 练习 10.3 中 。 

我 们 可 以 将 这 个 过 程 很 容易 地 推广 为 允许 为 稳定 存储 器 的 每 一 个 块 使 用 任意 多 的 拷贝 。 尽 管 使 用 
大 量 拷贝 比 使 用 两 个 拷贝 发 生 故障 的 可 能 性 要 低 ， 但 通常 只 用 两 个 拷贝 模拟 稳定 存储 器 是 合理 的 。 
16.2.2 数据 访问 

正如 第 10 章 中 所 看 到 的 ， 数 据 库 系统 常 驻 于 非 易 失 性 存储 器 (通常 为 磁盘 ) ， 在 任何 时 间 都 只 有 数 
据 库 的 部 分 内 容 在 主 存 中 。 O 数据 库 分 成 称 为 块 (block ) 的 定 长 存储 单位 。 块 是 磁盘 数据 传送 的 单位 ， 





昌 ”有 一 类 特殊 的 数据 库 系 统 ， 称 作 主 存 数 据 库 系统 ， 它 的 整个 数据 库 可 以 一 次 全 部 载 人 内 存 。26. 4 节 讨 论 这 样 的 
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可 能 包含 多 个 数据 项 。 我 们 假设 没有 数据 项 跨 两 个 或 多 个 块 。 这 个 假设 对 于 大 多 数 数据 处 理应 用 ， 例 
如 银行 或 大 学 ， 都 是 正确 的 。 

事务 由 磁盘 向 主 存 输入 信息 ， 然 后 再 将 信息 输出 回 磁 
盘 。 输 入 和 输出 操作 以 块 为 单位 完成 。 位 于 磁盘 上 的 块 称 
为 物理 块 (physical block) ， 临 时 位 于 主 存 的 块 称 为 缓冲 块 
(buffer block) 。 内 存 中 用 于 临时 存放 块 的 区 域 称 为 磁盘 缓 
冲 区 (disk buffer) 。 

磁盘 和 主 存 间 的 块 移动 是 由 下 面 两 个 操作 引发 的 : 

1. input( B ) 传 送 物 理 块 BREF. 







input(A) 





output(B) 





2. output(B) 传 送 缓冲 块 B 至 磁盘 ， 并 替换 磁盘 上 相 磁盘 
应 的 物理 块 。 主 存 储 器 
这 一 机 制 如 图 16-1 所 示 。 图 16-1 块 存储 操作 


在 概念 上 ， 每 个 事务 7, 有 一 个 私有 工作 区 ， 用 于 保 
F T, 所 访问 及 更 新 的 所 有 数据 项 的 拷贝 。 该 工作 区 在 事务 初始 化 时 由 系统 创建 ; 在 事务 提交 或 中 止 时 
由 系统 删除 。 事 务 7 的 工作 区 中 保存 的 每 一 个 数据 项 X 记 为 x*; BS 7 通过 在 其 工作 区 和 系统 缓冲 区 
之 间 传 送 数据 ， 与 数据 库 系 统 进行 交互 。 我 们 使 用 下 面 两 个 操作 来 传送 数据 : 
1. read(X) 将 数据 项 开 的 值 赋予 局 部 变量 x, 。 该 操作 执行 如 下 : 
a. Æ X PER By 不 在 主 存 中 ， 则 发 指令 执行 input( Bx ) 。 
b. 将 缓冲 块 中 站 的 值 赋予 x; 。 
2. write(X) 将 局 部 变量 x, 的 值 赋予 缓冲 块 中 的 数据 项 X。 该 操作 执行 如 下 : 
a. Æ X HEH By 不 在 主 存 中 ， 则 发 指令 执行 input( By ) 。 
b. ¥ x, 的 值 赋予 缓冲 块 B; PHY X, 
注意 这 两 个 操作 都 可 能 需要 将 块 从 磁盘 传送 到 主 存 。 但 是 ， 它 们 都 没有 特别 指明 需要 将 块 从 主 存 
传送 到 磁盘 。 
缓冲 块 最 终 写 到 磁盘 ， 要 么 是 因为 缓冲 区 管理 器 出 于 其 他 用 途 需 要 内 存 空间 ， 要 么 是 因为 数据 库 
系统 希望 将 B 的 变化 反映 到 磁盘 上 。 如 果 数 据 库 系统 发 指令 执行 output( B) ， 则 我 们 称 数 据 库 系统 对 组 
冲 块 B 进行 强制 输出 (force-output) 。 
当 事 务 第 一 次 需要 访问 数据 项 时， 它 必须 执行 read (让) 。 该 事务 然后 对 辣 的 所 有 更 新 都 作用 于 


xi 。 在 一 个 事务 执行 中 的 任何 时 间 点 ， 事 务 都 可 以 执行 write(X), ， 以 在 数据 库 中 反映 工 的 变化 ; 在 对 [724 


人 进行 最 后 的 写 之 后 ， 当 然 必须 做 write(X) 。 

Xt X PEM BER By 的 output( By ) 操 作 不 需要 在 write(X) 执 行 后 立即 执行 ， 因 为 块 B; 可 能 包含 
其 他 仍 在 被 访问 的 数据 项 。 因 此 ， 可 能 一 段 时 间 以 后 才 真正 执行 输出 。 注 意 ， 如 果 在 write(X) 操作 执 
行 后 但 在 output( By ) 操 作 执 行 前 系统 崩溃 ,的 新 值 并 未 写 信 磁盘， 于 是 就 丢失 了 的 新 值 。 正 如 我 
们 很 快 就 会 看 到 的 ， 数 据 库 系统 执行 额外 的 动作 来 保证 ， 即 使 发 生 了 系统 崩溃， 由 提交 的 事务 所 做 的 
更 新 也 不 会 丢失 。 


16.3 恢复 与 原子 性 


再 来 考虑 简化 的 银行 系统 和 事务 7, ， 它 将 $50 从 账户 4 转 到 账户 妃 ，4 和 B 的 初始 值 分 别 为 $1000 
和 $2000, (RIFE T, 执行 过 程 中 ， 在 output( B,) 之 后 ，output( Be ) 之 前 ， 发 生 了 系统 崩溃 ， 其 中 B, 和 
Bs 表示 4 和 B 所 在 的 缓冲 块 。 由 于 内 存 的 内 容 丢 失 ， 因 此 我 们 无 法 知道 事务 的 结局 。 

当 系 统 重新 启动 时 ，4 的 值 会 是 $950, if B 的 值 是 $2000， 这 显然 和 事务 7, 的 原子 性 需求 不 一 
致 。 遗 憾 的 是 ， 没 有 办 法 通过 检查 数据 库 状 态 来 找 出 在 系统 崩溃 发 生前 哪些 块 已 经 输出 ， 哪 些 块 还 
没有 。 有 可 能 事务 已 经 完成 了 ， 对 稳定 存储 器 中 的 数据 库 初 始 状态 4 和 8B 的 值 分 别 为 $1000 和 $1950 
进行 了 更 新 ; 也 可 能 事务 没有 对 稳定 存储 器 产生 任何 影响 , 4 和 B 的 值 初始 就 是 $950 A $2000; 或 
者 更 新 后 的 B 已 经 输出 了 ， 而 更 新 后 的 4 还 没有 输出 ,或 更 新 后 的 4 已 经 输出 了 ， 而 更 新 后 的 B 还 
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没有 输出 。 

我 们 的 目标 是 要 么 执行 7, 对 数据 库 的 所 有 修改 ， 要 么 都 不 执行 。 但 是 ， 若 7, 执行 多 处 数据 库 修 
改 ， 就 可 能 需要 多 个 输出 操作 ， 并 且 故 障 可 能 发 生 于 某 些 修 改 完成 后 而 全 部 修改 完成 前 。 

为 达到 保持 原子 性 的 目标 ， 我 们 必须 在 修改 数据 库 本 身 之 前 ， 首 先 向 稳定 存储 器 输出 信息 ， 描 述 
要 做 的 修改 。 我 们 将 看 到 ， 这 种 信息 能 帮助 我 们 确保 已 提交 事务 所 做 的 所 有 修改 都 反映 到 数据 库 中 (或 
者 在 故障 后 的 恢复 过 程 中 反映 到 数据 库 中 ) 。 这 种 信息 还 能 帮助 我 们 确保 中 止 事务 所 做 的 任何 修改 都 
不 会 持久 存在 于 数据 库 中 。 

16.3.1 HSER 

使 用 最 为 广泛 的 记录 数据 库 修 改 的 结构 就 是 日 志 (log) 。 日 志 是 日 志 记录 (log record) 的 序列 ， 它 记 
录 数 据 库 中 的 所 有 更 新 活动 。 

日 志 记 录 有 几 种 。 更 新 日 志 记录 (update log record) 描述 一 次 数据 库 写 操作 ， 它 具有 如 下 几 个 字段: 

e 事务 标识 (transaction identifier) ， 是 执行 write 操作 的 事务 的 唯一 标识 。 

© 数据 项 标识 ( data-item identifier) ， 是 所 写 数据 项 的 唯一 标识 。 通 常 是 数据 项 在 磁盘 上 的 位 置 ， 

包括 数据 项 所 驻 留 的 块 的 块 标识 和 块 内 偏 移 量 。 

。 旧 值 (old value) ， 是 数据 项 的 写 前 值 。 

。 新 值 ( new value) ， 是 数据 项 的 写 后 值 。 

我 们 将 一 个 更 新 日 志 记录 表示 为 < T,,X,,V,,V, > ， 表 明 事 务 7 对 数据 项 蕊 执行 了 一 个 写 操作 ， 
写 操作 前 总 WEE V, SHER X WEE V, 。 其 他 专门 的 日 志 记 录用 于 记录 事务 处 理 过 程 中 的 重要 
事件 ， 如 事务 的 开始 以 及 事务 的 提交 或 中 止 。 如 下 是 一 些 日 志 记 录 类 型 ; 

e < Tstart> 。 事 务 7 开始 。 

e < T, commit > 。 事 务 T, 提交 。 

e < 了 abort > 。 事 务 7 中 止 。 

后 面 将 介绍 几 种 其 他 的 日 志 记 录 类 型 。 

a 必须 在 数据 库 修 改 前 建立 该 次 写 操作 的 日 志 记 录 并 把 它 加 到 日 志 中 。 

志 记 录 已 存在 ， 就 可 以 根据 需要 将 修改 输出 到 数据 库 中 。 并 且 ， 我 们 有 能 力 扳 销 已 经 输出 到 数据 
ey 这 是 利用 日 志 记 录 中 的 旧 值 字段 来 做 的 。 

为 了 从 系统 故障 和 磁盘 故障 中 恢复 时 能 使 用 日 志 记 录 ， 日志 必须 存放 在 稳定 存储 器 中 。 现 在 我 们 
假设 每 一 个 日 志 记 录 创 建 后 立即 写 入 稳定 存储 器 中 的 日 志 的 尾部 ， 在 16. 5 节 中 我 们 将 看 到 什么 时 候 可 
以 放宽 这 个 要 求 ， 以 减少 写 日 志 带 来 的 开销 。 由 于 日 志 包 含 所 有 的 数据 库 活动 的 完整 记录 ， 因 此 日 志 
中 存储 的 数据 量 会 变 得 非常 大 ， 在 16. 3.6 节 我 们 将 看 到 什么 时 候 可 以 安全 删除 日 志 信息 。 


影子 拷贝 和 影子 页 面 

在 影子 拷贝 (shadow-copy) 模式 下 ， 想 要 更 新 数据 库 的 事务 应 首先 创建 数据 库 的 一 个 完整 拷贝 。 
所 有 的 更 新 在 数据 库 的 这 个 新 拷贝 上 进行 ， 而 不 去 动 那个 原来 的 拷贝 WFN (shadow copy), 4 
果 在 任何 一 个 点 上 事务 需要 中 止 ， 系 统 仅仅 删除 这 个 新 拷贝 。 数 据 库 的 旧 找 贝 没有 受到 影响 。 数 据 
库 的 当前 拷贝 由 一 个 指针 来 标识 ， 称 作 数 据 库 指针 ， 它 存放 在 磁盘 上 。 

如 果 事 务 部 分 提交 ( 即 ， 执 行 它 的 最 后 一 条 语句 ) ， 那 么 它 如 下 进行 提交 : 首先 ， 要 求 操作 系统 
确保 数据 库 的 新 找 贝 的 所 有 页 面 都 写 到 磁盘 上 。( 为 此 目的 ，UNIX 系统 使 用 fsyne 命令 。) 在 操作 系 
统 将 所 有 页 面 都 写 到 磁盘 上 之 后 ， 数 据 库 系统 更 新 数据 库 指 针 ， 让 它 指向 数据 库 的 新 拷贝 ; 然后 新 
拷贝 变 成 数据 库 的 当前 拷贝 。 然 后 删除 掉 数 据 库 的 旧 拷 贝 。 在 更 新 后 的 数据 库 指 针 写 到 磁盘 上 这 一 
时 间 点 ， 我 们 说 该 事务 已 经 提交 了 。 


第 16 章 恢复 系统 407 


影子 拷贝 的 实现 实际 上 依赖 于 对 数据 库 指针 的 写 是 原子 的 ; 即 ， 或 者 它 的 所 有 字 节 全 部 写 出 ， 
或 者 没有 任何 字 节 写 出 。 磁 盘 系 统 提 供 对 整个 块 的 原子 更 新 ， 或 至 少 是 对 一 个 磁盘 扇 区 的 。 换 和 句 话 
说 ,磁盘 系统 保证 它 会 原子 地 更 新 数据 库 指针 ， 只 要 我 们 确保 数据 库 指 针 完 全 处 于 单个 户 区 中 ， 而 
这 是 我 们 通过 将 数据 库 指针 存放 在 块 的 开头 所 能 够 保证 的 。 

影子 拷贝 模式 普遍 用 于 正文 编辑 器 (保存 文件 等 价 于 事务 提交 ， 不 保存 文件 就 退出 等 价 于 事务 中 
止 ) 。 影 子 拷贝 可 以 用 于 小 的 数据 库 ， 但 拷贝 一 个 大 型 数据 库 会 是 极其 昂贵 的 。 影 子 拷贝 的 一 个 变 
种 ， 称 作 影子 页 面 (shadow-paging)， 它 采用 如 下 方式 来 减少 拷贝 工作 量 : 此 种 模式 使 用 一 个 包含 指 
向 所 有 页 面 的 指针 的 页 表 ; 页 表 自 身 和 所 有 更 新 的 页 面 被 拷贝 到 一 个 新 的 位 置 。 事 务 没有 更 新 的 任 
何 页 面 都 不 拷贝 ， 而 新 的 页 表 只 存储 一 个 指向 原来 页 面 的 指针 。 当 提交 事务 时 ， 它 原子 地 更 新 指向 
页 表 ( 页 表 的 作用 和 数据 库 指 针 相 同 ) 的 指针 ， 以 指向 新 的 拷贝 。 

遗憾 的 是 ， 影 子 页 面 对 于 并 发 事务 不 能 很 好 地 工作 ， 在 数据 库 中 它 没有 广泛 使 用 。 


16.3.2 数据库 修改 

正如 我 们 前 面 已 经 注意 到 的 ,事务 在 对 数据 库 进行 修改 前 创建 了 一 个 日 志 记 录 。 日志 记录 使 得 系 
统 在 事务 必须 中 止 的 情况 下 能 够 对 事务 所 做 的 修改 进行 撤销 ; 并 且 在 事务 已 经 提交 但 在 修改 已 存放 到 
磁盘 上 的 数据 库 中 之 前 系统 崩溃 的 情况 下 能 够 对 事务 所 做 的 修改 进行 重 做 。 为 了 使 我 们 能 够 理解 恢复 
过 程 中 日 志 记 录 的 作用 ， 我 们 需要 考虑 事务 在 进行 数据 项 修改 中 所 采取 的 步 又: 

1. 事务 在 主 存 中 自己 私有 的 部 分 执行 某 些 计算 。 

2. 事务 修改 主 存 的 磁盘 缓冲 区 中 包含 该 数据 项 的 数据 块 。 

3. 数据 库 系 统 执行 output 操作 ， 将 数据 块 写 到 磁盘 中 。 

如 果 一 个 事务 执行 了 对 磁盘 缓冲 区 或 磁盘 自身 的 更 新 ， 我们 说 这 个 事务 修改 了 数据 库 ; 而 对 事务 
在 主 存 中 自己 私有 的 部 分 进行 的 更 新 不 算数 据 库 修改 。 如 果 一 个 事务 直到 它 提交 时 都 没有 修改 数据 库 ， 
我 们 就 说 它 采 用 了 延迟 修改 ( deferred-modification ) 技术 。 如 果 数 据 库 修 改 在 事务 仍然 活跃 时 发 生 ， 我 
们 就 说 它 采 用 了 立即 修改 (immediate-modification) 技术 。 延 迟 修改 所 付出 的 开销 是 ， 事 务 需 要 创建 更 新 
过 的 所 有 的 数据 项 的 本 地 拷贝 ; 而 且 如 果 一 个 事务 读 它 更 新 过 的 数据 项 ， 它 必须 从 自己 的 本 地 拷贝 
中 读 。 

本 章 描述 的 恢复 算法 支持 立即 修改 。 正 如 所 描述 的 ， 即 使 对 于 延迟 修改 ,它们 也 能 正确 工作 ,但 
是 当 与 延迟 修改 一 起 使 用 时 可 以 进行 优化 ， 以 减少 开销 ; 我 们 将 细节 留 作 练习 。 

恢复 算法 必须 考虑 多 种 因素 ， 包 括 : 

© 有 可 能 一 个 事务 已 经 提交 了 ， 虽 然 它 所 做 的 某 些 数据 库 修 改 还 仅仅 存在 于 主 存 的 磁盘 缓冲 区 

中 ， 而 不 在 磁盘 上 的 数据 库 中 。 
e 有 可 能 处 于 活动 状态 的 一 个 事务 已 经 修改 了 数据 库 ， 而 作为 后 来 发 生 的 故障 的 结果 ， 这 个 事务 
需要 中 止 。 

由 于 所 有 的 数据 库 修改 之 前 必须 建立 日 志 记录 ， 因 此 系统 有 数据 项 修改 前 的 旧 值 和 要 写 给 数据 项 
ae 地 

© undo 使 用 一 个 日 志 记录 ， 将 该 日 志 记录 中 指明 的 数据 项 设置 为 旧 值 。 

BWER, 将 该 日 志 记录 中 指明 的 数据 项 设置 为 新 值 
16.3.3 并 发 控制 和 恢复 

如 果 并 发 控制 模式 允许 一 个 事务 T 修改 过 的 数据 项 X 在 7, 提交 前 进一步 地 由 另 一 个 事务 T 修 
改 ， 那 么 通过 将 式 重 置 为 它 的 旧 值 (7 更 新 XX 之 前 的 值 ) 来 撤销 7, 的 影响 同时 也 会 撤销 7 的 影响 。 为 
避免 这 样 的 情形 发 生 ， 恢 复 算法 通常 要 求 如 果 一 个 数据 项 被 一 个 事务 修改 了 ， 那么 在 该 事务 提交 或 中 
止 前 不 允许 其 他 事务 修改 该 数据 项 。 


— 


727 | 
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这 一 要 求 可 以 通过 对 更 新 的 数据 项 获取 排他 锁 ， 并 且 持 有 该 锁 直 至 事务 提交 来 保证 ; 换 句 话说 ， 


通过 使 用 严格 两 阶段 封锁 。 快 照 隔离 性 和 基于 有 效 性 验证 的 并 发 控制 技术 在 有 效 性 验证 时 ， 在 修改 数 


730 


据 项 之 前 ， 也 要 获取 数据 项 上 的 排他 锁 ， 直 至 事务 提交 ; 其 结果 是 ， 即 使 通过 这 些 并 发 控制 协议 ， 上 
述 要 求 也 能 得 到 满足 。 

后 面 在 16.7 节 讨 论 ， 在 一 定 的 情况 下 可 以 如 何 放松 上 述 要 求 。 

在 采用 快照 隔离 性 或 有 效 性 验证 进行 并 发 控制 时 ， 事务 所 做 的 数据 库 更 新 ( 从 概念 上 ) 是 延迟 到 
事务 部 分 提交 时 ; 延迟 修改 技术 与 这 些 并 发 控制 模式 自然 吻合 。 然 而 ， 值 得 注意 的 是 ， 人 快照 隔离 性 
的 某 些 实现 采用 了 立即 修改 技术 ， 而 根据 需要 提供 了 一 个 逻辑 快照 : 当 事 务 需要 读 被 并 发 的 事务 更 
新 的 一 个 数据 项 时 ， 就 生成 该 数据 项 (已 经 更 新 ) 的 一 个 拷贝 ， 在 这 个 拷贝 上 ， 并 发 事务 所 做 的 更 新 
回 滚 。 类 似 地 ， 数 据 库 的 立即 修改 与 两 阶段 封锁 自然 吻合 ， 但 延迟 修改 也 可 以 和 两 阶段 封锁 一 起 
使 用 。 

16.3.4 事务 提交 
当 一 个 事务 的 commit 日 志 记 录 一 一 这 是 该 事务 的 最 后 一 个 日 志 记 录 
们 就 说 这 个 事务 提交 (commit) 了 ; 这 时 所 有 更 早 的 日 志 记 录 都 已 经 输 出 到 稳定 存储 器 中 。 于 是 ， EH 
志 中 就 有 足够 的 信息 来 保证 ， 即 使 发 生 系统 崩溃 ， 事 务 所 做 的 更 新 也 可 以 重 做 。 如 果 系 统 裔 溃 发 生 在 
日 志 记录 <7. pa gt T T 将 回 滚 。 这 样 ， 包 含 commit 日 志 记 录 的 块 的 
输出 是 单个 原子 动作 ， 它 导致 一 个 事务 的 提交 。 

对 于 大 多 数 基 于 日 志 的 恢复 技术 ,包括 本 章 描述 的 技术 ,不 是 在 一 个 事务 提交 时 必须 将 包含 该 事 
务 修改 的 数据 项 的 块 输出 到 稳定 存储 器 中 ， 可 以 在 以 后 的 某 个 时 间 再 输出 。16. 5. 2 节 进 一 步 讨论 这 个 
问题 。 

16. 3.5 使 用 日 志 来 重 做 和 撤销 事务 

我 们 现在 提供 一 个 关于 如 何 使 用 日 志 来 从 系统 崩溃 中 进行 恢复 以 及 在 正常 操作 中 对 事务 进行 回 滚 
的 概览 。 但 是 ,我 们 将 故障 恢复 和 回 滚 过 程 的 细节 推迟 到 16.4 节 。 

考虑 简化 的 银行 系统 。 令 7, 是 一 个 事务 CH 50 美元 从 账户 A 转 到 账户 B。 















T, : read( A); 
A:= A -50; 
write( A) ; 
read( B) ; 
B:= B +50; 
write( B). 
令 是 一 个 事务 ， 它 从 账户 C 中 取出 100 美元 。 < 
T, : read(C) ; <To, A, 1000, 950> 
C:= C-100; <Ty, B, 2000, 2050> 
write( C). <To commit> 


<T, start> 
<Tı, C, 700, 600> 
<T; commit> 


日 志 包 含 与 这 两 个 事务 相关 信息 的 部 分 如 图 16-2 所 示 。 

16-3 显示 了 一 个 可 能 的 顺序 ， 在 这 个 顺序 中 ， 作 为 7T, 和 7 的 执行 结 
果 ， 对 于 数据 库 系统 和 日 志 的 实际 的 输出 都 发 生 了 。“ 图 16-2 系统 日 志 中 与 

使 用 日 志 ， 系 统 可 以 对 付 任 何故 障 ， 只 要 它 不 导致 非 易 失 性 存储 器 中 信 T 和 7, 相应 的 部 分 
息 的 丢失 。 恢 复 系 统 使 用 两 个 恢复 过 程 ， 它 们 都 利用 日 志 来 找到 每 个 事务 T, 
更 新 过 的 数据 项 的 集合 ， 以 及 它们 各 自 的 旧 值 和 新 值 。 

e redo(T;) HBS 7, 更 新 过 的 所 有 数据 项 的 值 都 设置 成 新 值 。 





O ”一 个 块 的 输出 可 以 通过 对 付 数据 传输 故障 的 技术 而 做 成 原子 的 ， 正 如 16. 2. 1 节 所 描述 的 。 
O ”请 注意 ， 如 果 使 用 延迟 修改 技术 ， 就 不 能 得 到 这 个 顺序 ， 因 为 在 To 提交 之 前 数据 库 不 会 修改 ， 对 于 T 也 一 样 
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通过 redo 来 执行 更 新 的 顺序 是 非常 重要 的 ; 当 从 系统 裔 溃 中 恢复 时 ， 如 果 对 一 个 特定 数据 项 的 多 
个 更 新 的 执行 顺序 不 同 于 它们 原来 的 执行 顺序 ， 那 么 该 数据 项 的 最 
终 状态 将 是 一 个 错误 的 值 。 大 多 数 的 恢复 算法 ， 包 括 16. 4 节 描 述 的 | or star 
算法 ， 都 没有 把 每 个 事务 的 重 做 分 别 执行 ， 而 是 对 日 志 进 行 一 次 扫 <T,, A, 1000, 950> 
描 ， 在 扫描 过 程 中 每 遇 到 一 个 redo 日 志 记录 就 执行 redo 动作 。 这 种 | “Te, B, 2000, 2050> 







方法 能 确保 保持 更 新 的 顺序 ， 并 且 效率 更 高 ， 因 为 仅 需要 整体 读 一 A =950 

遍 日 志 ， 而 不 是 对 每 个 事务 读 一 遍 日 志 。 i B = 2050 
。 ndo(7 ) 将 事务 T, EREEREER. | <T sear o 

在 16. 4 节 中 描述 的 恢复 机 制 中 ; i- C, 700, ane 





undo 操作 不 仅 将 数据 项 恢复 成 它 的 旧 值 ， 而 且 作为 撤销 过 <Ti commit> 
程 的 一 个 部 分 ， 还 写 日 志 记 录 来 记 下 所 执行 的 更 新 。 这 些 图 16-3 457, AIT, 相应 的 
志 记 录 是 特殊 的 redo-only 日 志 记 录 ， 因 为 它们 不 需要 系统 日 志和 数据 库 状 态 
包含 所 更 新 的 数据 项 的 旧 值 。 
与 重 做 过 程 一 样 ， 执 行 更 新 的 顺序 是 非常 重要 的 ; 我 们 还 是 将 细节 推迟 到 16.4 节 中 。 
O 当 对 于 事务 7, 的 undo 操作 完成 后 ， 它 写 一 个 <7, abort > 日 志 记录 ， 表 明 撤 销 完成 了 。 
正如 我 们 将 在 16. 4 节 中 看 到 的 ， 对 于 每 一 个 事务 ，uedo( T) 只 执行 一 次 ， 如 果 在 正常 的 处 
理 中 该 事务 回 滚 ， 或 者 在 系统 骨 溃 后 的 恢复 中 既 没 有 发 现 事务 T, 的 commit 记录 ， 也 没有 发 
现 事 务 7, 的 abort 记录 。 其 结果 是 ,在 日 志 中 每 一 个 事务 最 终 或 者 有 一 条 commit 记录 ， 或 
者 有 一 条 abort 记录 。 
发 生 系统 崩溃 之 后 ， 系 统 查阅 日 志 以 确定 为 保证 原子 性 需要 对 哪些 事务 进行 重 做 ， 对 哪些 事务 进 
e 如 果 日 志 包括 <T start > 记录 ， 但 既 不 包括 <T commit > ， 也 不 包括 <T, abort > 记录 ， 则 需要 
对 事务 T, 进行 撤销 。 
。 如 果 日 志 包 括 <7, start > 记录， 以 及 <T commit > <7, abort > 记录 ， 需 要 对 事务 7, 进行 重 
做 。 如 果 日 志 包 括 <7, abort > 记录 还 要 进行 重 做 ， 看 来 比较 奇怪 。 要 明白 这 是 为 什么 ， 请 注 
意 如 果 在 日 志 中 有 <T, abort > 记录 ， 日 志 中 也 会 有 undo 操作 所 写 的 那些 redo-only 日 志 记录 。 
于 是 ， 这 种 情况 下 最 终结 果 将 是 对 T, 所 做 的 修改 进行 撤销 。 这 一 轻微 的 元 余 简 化 了 恢复 算法 ， 
并 使 得 整个 恢复 过 程 变 得 更 快 。 
作为 一 个 描述 ， 让 我 们 回 到 银行 的 例子 ， 有 事务 TAT, 按照 7 RE T 后 面 的 顺序 执行 。 假 定 
在 事务 完成 之 前 系统 骨 溃 。 我 们 将 要 考虑 三 种 情况 。 在 图 16-4 中 显示 了 各 种 情况 下 的 日 志 。 
首先 ， 我 们 假定 崩溃 恰好 发 生 在 事务 T, 的 
write( B) 
步骤 的 日 志 记 录 已 经 写 到 稳定 存储 器 之 后 ( 见 图 16-4a) 。 当 系统 重新 启动 时 ， 它 在 日 志 中 找到 记 
录 < To start > ， 但 是 没有 相应 的 <T, commit > 或 < Tu abort > 记录。 这 样 , 事务 Tu 必须 撤销 ， 于 是 执 
行 undo( Tu ) 。 其 结果 是 ，( 磁盘 上 ) 账 户 A 和 账户 B 的 值 分 别 恢复 成 $1000 和 $2000, 
其 次 ， 我 们 假定 前 溃 恰 好 发 生 在 事务 T, 的 
write(C ) 
步骤 的 日 志 记 录 已 经 写 到 稳定 存储 器 之 后 ( 见 图 16-4b) 。 当 系统 重新 启动 时 ， 需 要 采取 两 个 恢复 动作 。 
ALA <T, start > 记录 出 现在 日 志 中 ,但 是 没有 <7 commit > 或 < Ti abort > 记录， 所 以 必须 执行 undo 
(Ti ) 。 因 为 日 志 中 既 包 括 < Tu start > 记录 ， 又 包括 < To commit > 记录 ， 所 以 必须 执行 redo( 7,)。 在 
整个 恢复 过 程 结束 时 ， 账 户 A、B、 和 C 的 值 分 别 为 $950 、$2050 和 $700。 
最 后 ,我 们 假定 崩溃 恰好 发 生 在 事务 T, 的 日 志 记录 : 
< 了 commit > 
已 经 写 到 稳定 存储 器 之 后 ( 见 图 16-4c) 。 当 系统 重新 启动 时 ， 因 为 < Tu start > 记录 和 <T, commit > 记 
RAE AHH, IFA <T, start > 记录 和 <T, commit > 记录 也 都 在 日 志 中 ， 所 以 7, AT, 都 必须 重 做 。 
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在 系统 执行 redo(T,) 和 redo(7, ) 过 程 后 ， 账 户 A、B 和 C 的 值 分 别 为 $950 $2050 和 $600. 
<Ty start> <Ty Start> <T start> 
<Ty, A, 1000, 950> <Ty, A, 1000, 950> <Ty, A, 1000, 950> 
<Ty, B, 2000, 2050> <T, B, 2000, 2050> <To, B, 2000, 2050> 


<T) commit> <Ju commit> 
<T start> <T; start> 
<T,, C, 700, 600> <T,, C, 700, 600> 
<T; commit> 
a) b) c) 


图 16-4 在 三 个 不 同时 间 显 示 的 同一 个 日 志 


16. 3.6 检查 点 

当 系统 故障 发 生 时 ， 我 们 必须 检查 日 志 ， 决 定 哪些 事务 需要 重 做 ， 哪 些 需要 撤销 。 原 则 上 ， 我 们 
需要 搜索 整个 日 志 来 确定 该 信息 。 这 样 做 有 两 个 主要 的 困难 : 

1. 搜索 过 程 太 耗 时 。 

2. 根据 我 们 的 算法 ， 大 多 数 需 要 重 做 的 事务 已 把 其 更 新 写 人 数据库 中 。 尽 管 对 它们 重 做 不 会 造成 
不 良 后果 ， 但 会 使 恢复 过 程 变 得 更 长 。 

为 降低 这 种 开销 ， 引 入 检查 点 。 

下 面 描述 一 个 简单 的 检查 点 ， 它 (a) 在 执行 检查 点 操作 的 过 程 中 不 允许 执行 任何 更 新 ，(b) 在 执行 
检查 点 的 过 程 中 将 所 有 更 新 过 的 缓冲 块 都 输出 到 磁盘 。 后 面 会 讨论 如 何 通 过 放松 这 两 条 要 求 来 修改 检 
查 点 和 恢复 过 程 ， 以 提供 更 高 的 灵活 性 。 

检查 点 的 执行 过 程 如 下 : 

1. 将 当前 位 于 主 存 的 所 有 日 志 记 录 输 出 到 稳定 存储 器 。 

2. 将 所 有 修改 的 缓冲 块 输出 到 磁盘 。 

3. 将 一 个 日 志 记录 < checkpoint L > 输出 到 稳定 存储 器 ， 其 中 工 是 执行 检查 点 时 正 活跃 的 事务 的 
列表 。 

在 检查 点 执行 过 程 中 ， 不 允许 事务 执行 任何 更 新 动作 ， 如 往 缓冲 块 中 写 入 或 写 日 志 记 录 。16. 5.2 
节 会 讨论 如 何 强制 满足 这 个 要 求 。 

在 日 志 中 加 入 < checkpoint L > 记录 使 得 系统 提高 恢复 过 程 的 效率 。 考 虑 在 检查 点 前 完成 的 事务 
T, 。 对 于 这 样 的 事务 ，< T, commit > 记录 (或 < T, abort > 记录 ) 在 日 志 中 出 现在 checkpoint > 记录 之 
BU. 7, 所 做 的 任何 数据 库 修 改 都 必然 已 在 检查 点 前 或 作为 检查 点 本 身 的 一 部 分 写 和 人 数据库 。 因 此 ， 在 
恢复 时 就 不 必 再 对 了 执行 redo 操作 了 。 

734 在 系统 崩溃 发 生 之 后 ， 系 统 检查 日 志 以 找到 最 后 一 条 < checkpoint L > 记录 (这 可 以 通过 从 尾 端 开 
始 反 向 搜索 日 志 来 进行 ， 直 至 遇 到 第 一 条 < checkpoint L > 记录 ) 。 
只 需要 对 工 中 的 事务 ， 以 及 < checkpoint L> 记录 写 到 日 志 中 之 后 才 开 始 执 行 的 事务 进行 undo 或 
redo 操作 。 让 我 们 把 这 个 事务 集合 记 为 T。 

e 对 了 中 所 有 事务 7 ， 若 日 志 中 既 没 有 < T, commit > 记录 ， 也 没有 < T, abort > 记录 ， 则 执行 

undo( T, )。 

e。 对 了 中 所 有 事务 T, ， 若 日 志 中 有 < T, commit > 记录 或 < T, abort > 记录 ， 则 执行 redo( T, ) 。 

请 注意 ， 要 找 出 事务 集合 7T， 和 确定 了 中 的 每 个 事务 是 否 有 commit 或 abort 记录 出 现在 日 志 中 ， 我 
们 只 需要 检查 日 志 中 从 最 后 一 条 checkpoint 日 志 记 录 开 始 的 部 分 。 

作为 一 个 例子 ， 考 虑 事务 集合 D.T Tiw | 。 假 设 最 近 的 检查 点 发 生 在 事务 Tea 和 Te 执行 的 过 
程 中 ， 而 Ts 和 下 标 小 于 67 的 所 以 事务 在 检查 点 之 前 都 已 完成 。 于 是 ， 在 恢复 机 制 中 只 需要 考虑 事务 
Tos Tos ts Tio 。 其 中 已 完成 ( 即 已 提交 或 已 终止 ) 的 需要 重 做 ; 否则 就 是 未 完成 的 ， 需 要 撤销 。 

考虑 检查 点 日 志 记 录 中 的 事务 集合 L。 对 于 工 中 的 每 一 个 事务 7,， 如 果 它 没有 提交 ， 那 么 为 了 对 
该 事务 进行 撤销 ， 可 能 需要 该 事务 发 生 在 检查 点 日 志 记 录 之 前 的 所 有 日 志 记 录 。 无 论 如 何 , 一 旦 检查 
点 完成 了 ， 我们 就 不 再 需要 位 于 最 先 出 现 的 日 志 记 录 < T, start > (这 儿 的 了 BL 中 的 任何 事务 ) 之 前 的 
所 有 日 志 记 录 了 。 当 数据 库 系统 需要 回收 这 些 记录 占用 的 空间 时 ， 就 可 以 清 掉 这 些 日 志 记录 。 


第 16 章 恢复 系统 411 


在 检查 点 过 程 中 不 允许 事务 对 缓冲 块 或 日 志 进 行 任 何 更 新 ， 这 一 要 求 会 引起 相当 的 麻烦 ， 因 为 这 
样 一 来 在 检查 点 进行 的 过 程 中 事务 处 理 就 必须 停顿 下 来 。 模 糊 检查 点 (fuzzy checkpoint ) 是 这 样 的 检查 
点 ， 它 即使 在 缓冲 块 正 在 写 出 时 也 允许 事务 执行 更 新 。16. 5. 4 节 对 模糊 检查 点 模式 进行 描述 。 然 后 
16. 8 节 再 描述 一 个 检查 点 模式 ， 它 不 仅 是 模糊 的 ， 而 且 甚至 不 要 求 在 检查 点 时 刻 将 所 有 修改 过 的 缓冲 
块 输出 到 磁盘 中 。 


16.4 恢复 算法 


到 目前 为 止 ， 在 对 故障 恢复 的 讨论 中 ， 我 们 确定 了 需要 对 哪些 事务 进行 重 做 和 需要 对 哪些 事务 进 
行 撤销 ， 但 是 我 们 没有 给 出 进行 这 些 动作 的 详细 算法 。 现 在 我 们 来 给 出 使 用 日 志 记 录 从 事务 故障 中 恢 
复 的 完整 恢复 算法 ， 以 及 将 最 近 的 检查 点 和 日 志 记 录 结 合 起 来 以 从 系统 崩溃 中 进行 恢复 的 算法 。 

本 节 描 述 的 恢复 算法 要 求 未 提交 的 事务 更 新 过 的 数据 项 不 能 被 任何 其 他 事务 修改 ， 直 至 更 新 它 的 
事务 或 者 提交 或 者 中 止 。 这 一 限制 在 16. 3. 3 节 曾 经 讨论 过 。 

16. 4.1 事务 回 滚 
首先 考虑 正常 操作 时 ( 即 不 是 从 系统 崩溃 中 恢复 时 ) 的 事务 回 滚 。 事 务 Ti 的 回 滚 如 下 执行 
1. 从 后 往 前 扫描 日 志 ， 对 于 所 发 现 的 Ti 的 每 一 个 形 如 <7T,, 成 ， 岂 ， 友 > 的 日 志 记 录 : 
a (AV, RS PBEM XP, 并且 
b. 往日 志 中 写 一 个 特殊 的 只 读 日 志 记录 <7,, X, V>, PV, BEAKER PREM A, 恢 
复 成 的 值 。 有 时 这 种 日 志 记录 称 作 补 偿 日 志 记 录 ( compensation log record)。 这 样 的 日 志 记 录 
不 需要 undo 信息 ， 因 为 我 们 绝 不 会 需要 撤销 这 样 的 undo 操作 。 后 面 会 解释 如 何 使 用 这 些 日 
志 记 录 。 

2. 一 旦 发 现 了 <7,，start > 日 志 记 录 ， 就 停止 从 后 往 前 的 扫描 ， 并 往日 志 中 写 一 个 < Ti，abort > 
日 志 记 录 。 

请 注意 ， 现 在 事务 所 做 的 或 者 我 们 为 事务 做 的 每 一 个 更 新 动作 ， 包 括 将 数据 项 恢复 成 其 旧 值 的 动 
作 ， 都 记录 到 日 志 中 了 。 在 16. 4. 2 节 中 我 们 将 看 到 为 什么 这 是 个 好 办 法 
16.4.2 系统 崩溃 后 的 恢复 

月 演 发 生 后 当 数 据 库 系统 重启 时 ， 人 恢复 动作 分 两 阶段 进行 : 

1. 在 重 做 阶段 ， 系 统 通 过 从 最 后 一 个 检查 点 开始 正 向 地 扫描 日 志 来 重 放 所 有 事务 的 更 新 。 重 放 的 

志 记 录 包 括 在 系统 前 溃 之 前 已 回 滚 的 事务 的 日 志 记 录 ， 以 及 在 系统 崩溃 发 生 时 还 没有 提交 的 
事务 的 日 志 记录 。 这 个 阶段 还 确定 在 系统 骨 溃 发 生 时 未 完成 ， 因 此 必须 回 滚 事务 。 这 样 的 未 完 
成 事务 或 者 在 检查 点 时 是 活跃 的 ， 因 此 会 出 现在 检查 点 记录 的 事务 列表 中 ， 或 者 是 在 检查 点 之 
后 开始 的 ; 而 且 ， 这 样 的 未 完成 事务 在 日 志 中 既 没 有 < Ti，abort > 记录 ， 也 没有 <Ti, commit 
> 记录 。 
扫描 日 志 的 过 程 中 所 采取 的 具体 步骤 如 下 : 

a. 将 要 回 滚 的 事务 的 列表 undo-list 初始 设 定 为 < checkpoint L> 日 志 记录 中 的 了 列表 

b. 一 且 遇 到 形 为 < 不 , X, V, V> 的 正常 日 志 记 录 或 形 为 <7T,, X, V, > 的 redo-only 日 志 记 
录 ， 就 重 做 这 个 操作 ; 也 就 是 说 ， 将 值 V 写 给 数据 项 成。 

c. 一 旦 发 现形 为 <7T,，start > H H RER, WIE T, 加 到 undo-list 中 。 

d. 一 旦 发 现形 为 <7T,，abort > 或 <7 ，commit > 的 日 志 记 录 ， 就 把 了 从 undo-list 中 去 掉 。 

在 redo 阶段 的 末尾 ，undo-list 包括 在 系统 崩溃 之 前 尚未 完成 的 所 有 事务 ， 即 ， 既 没有 提交 也 没有 
完成 回 滚 的 那些 事务 。 

2. 在 撤销 阶段 ， 系 统 回 深 undo-list 中 的 所 有 事务 。 它 通过 从 尾 端 开 始 反 向 扫描 日 志 来 执行 回 滚 。 

a. 一 旦 发 现 属 于 undo-list 中 的 事务 的 日 志 记 录 ， 就 执行 undo 操作 ， 就 像 在 一 个 失败 事务 的 回 
滚 过 程 中 发 现 了 该 日 志 记 录 一 样 。 
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b， 当 系统 发 现 undo-list PES T, 的 < 工 ，start > 日 志 记录 ， 它 就 往日 志 中 写 一 个 < 不，abort > 
日 志 记 录 ， 并 且 把 7, 从 undo-list 中 去 掉 。 
c. — H undo-list 变 为 空 表 ， 即 系统 已 经 找到 了 开始 时 位 于 undo-list 中 的 所 有 事务 的 <T,，start > 
日 志 记 录 ， 则 撤销 阶段 结束 。 
当 恢 复 过 程 的 撤销 阶段 结束 之 后 ， 就 可 以 重新 开始 正常 的 事务 处 理 了 。 

请 注意 ， 在 重 做 阶段 从 最 近 的 检查 点 记录 开始 重 放 每 一 个 日 志 记 录 。 换 句 话 说 ， 重 启动 恢复 的 这 
个 阶段 重复 检查 点 之 后 执行 并 且 其 日 志 记 录 已 经 到 达 稳 定 存储 器 中 的 日 志 的 所 有 更 新 动作 。 这 些 动作 
包括 未 完成 事务 的 动作 和 为 回 滚 失败 的 事务 所 执行 的 动作 。 这 些 动 作 按照 它们 原先 执行 的 次 序 重复 ; 
因此 ， 这 一 过 程 称 作 重复 历史 (repeating history ) 。 虽 然 这 看 起 来 是 浪费 ,但 即使 对 失败 事务 也 重复 ， 
这 样 的 做 法 简化 了 恢复 过 程 。 

图 16-5 显示 了 在 正常 操作 中 由 日 志 记 录 下 的 动作 ， 以 及 在 故障 恢复 中 执行 的 动作 的 一 个 例子 。 在 
图 16-1 中 显示 的 日 志 中 ， 在 系统 崩溃 之 前 ， 事 务 7 已 提交 ， FHT, 已 完全 回 滚 。 请 注意 在 T HAR 
中 如 何 恢 复数 据 项 B 的 值 。 还 请 注意 检查 点 记录 ， 它 的 活跃 事务 列表 包含 7, 和 也 。 


日 志 开 始 为 undo list 中 
较 老 < To start> 所 有 事务 找到 
<To, B, 2000, 2050> star 旬 志 记 录 
<T; start> 
<checkpoint { To, T;}> 
<T;, C, 700, 600> 
<T, commit> 








(在 正常 操作 中 ) 
始 回 滚 


Ty 











ae <T start> a 
Rais <T, A, 500, 400> T RRR 
的 结束 点 T B, ar End | 
To abort> a 
恢复 过 程 ng HRT RER undo list: 7- 重 做 阶段 
中 加 入 的 
日 志 记录 


Sta A, 5008: sss 

<T abort> 在 撤销 阶段 
较 新 Y sete 
16-5 记录 在 日 志 中 的 动作 和 恢复 中 的 动作 的 例子 


当 从 崩溃 中 恢复 时 ， 在 重 做 阶段 ， 系 统 对 最 后 一 个 检查 点 记录 之 后 的 所 有 操作 执行 redo。 在 这 个 
阶段 中 ，undo-list 初始 时 包含 T, AT; 4 T, 的 commit 日 志 记 录 被 发 现时 ，7, 先 被 从 表 中 去 掉 ， 而 当 
T, 的 start 日 志 记 录 被 发 现时 ，7, 被 加 到 表 中 。 当 事务 T, 的 abort 日 志 记 录 被 发 现时 ，7, 被 从 undo- 
list HAH, RÆ T, 在 undo-list 中 。 撤 销 阶段 从 尾 端 开始 反 向 扫描 日 志 ， 当 发 现 7 更 新 4 的 日 志 记录 
时 ,将 4 恢复 成 旧 值 ， 并 往日 志 中 写 一 个 redo-only 日 志 记 录 。 当 发 现 T, 开始 的 日 志 记 录 时 ， 就 为 7 
添加 一 条 abort 记录 。 由 于 undo-list 不 再 包含 任何 事务 了 ， 因 此 撤销 阶段 终止 ， 恢 复 完成 。 


16.5 缓冲 区 管理 


在 本 节 中 ， 我 们 考虑 几 个 微妙 的 细节 ， 它 们 对 实现 保证 数据 一 致 性 且 只 增加 少量 与 数据 库 交 互 的 
开销 的 故障 恢复 机 制 非常 重要 。 
16.5.1 日 志 记 录 缓 冲 

迄今 为 止 ， 我 们 假设 每 个 日 志 记 录 在 创建 时 都 输出 到 稳定 存储 器 。 ii 
开销 。 其 原因 是 : 通常 向 稳定 存储 器 的 输出 是 以 块 为 单位 进行 的 。 在 大 多 数 情况 下 ， TERE 
一 个 块 要 小 得 多 ， 因 此 ， 每 个 日 志 记 录 的 输出 转化 成 在 物理 上 大 得 多 的 输出 。 另 外 ， or 1 节 中 
所 看 到 的 ， 向 稳定 存储 器 输出 一 块 在 物理 层 上 可 能 涉及 几 个 输出 操作 。 

将 一 个 块 输出 到 稳定 存储 器 的 开销 非常 高 ， 因 此 最 好 是 一 次 输出 多 个 日 志 记录 。 为 了 达到 这 个 目 
的 ， 我 们 将 日 志 记录 写 到 主 存 的 日 志 缓 冲 区 中 ， 日 志 记 录 在 输出 至 稳定 存储 器 以 前 临时 保存 在 那儿 。 
可 以 集中 多 个 日 志 记 录 在 日 志 缓冲 区 中 ， 然 后 再 用 一 次 输出 操作 输出 到 稳定 存储 器 中 。 稳 定 存储 器 中 
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的 日 志 记录 顺序 必须 与 写 人 日 志 缓冲 区 的 顺序 完全 一 样 。 

由 于 使 用 了 日 志 缓冲 区 ， 日 志 记录 在 输出 到 稳定 存储 器 前 可 能 有 一 段 时 间 只 存在 于 主 存 ( 易 失 性 
存储 器 ) 中 。 由 于 系统 发 生 裔 溃 时 这 种 日 志 记 录 会 丢失 ， 我 们 必须 对 恢复 技术 增加 一 些 要求 以 保证 事务 
的 原子 性 : 

。 在 日 志 记 录 < Ti commit > 输出 到 稳定 存储 器 后 ， 事 务 Ti 进入 提交 状态 。 

。 在 日 志 记 录 < Ti commit > 输出 到 稳定 存储 器 前 ， 与 事务 Ti 有 关 的 所 有 日 志 记 录 必 须 已 经 输出 

到 稳定 存储 器 。 
。 在 主 存 中 的 数据 块 输出 到 数据 库 ( 非 易 失 性 存储 器 ) 前 ， 所 有 与 该 数据 块 中 数据 有 关 的 日 志 记录 
必须 已 经 输出 到 稳定 存储 器 。 
这 一 条 规则 称 为 先 写 日 志 ( Write-Ahead Logging， Re Respite 
求 日 志 中 的 undo 信 息 已 经 输出 到 稳定 存储 器 中 ， 而 redo 信息 允许 以 后 再 写 。 一 区 别 与 ie 
信息 和 redo 信息 分 别 存储 在 不 同 的 日 志 记录 中 的 系统 是 相关 的 。) 

这 三 条 规则 表明 ， 在 某 些 情况 下 某 些 日 志 记 录 必 须 已 经 输出 到 稳定 存储 器 中 。 而 提前 输出 

录 不 会 造成 任何 问题 。 因 此 ， 当 系统 发 现 需要 将 一 个 日 志 记 录 输 出 到 稳定 存储 器 时 ， Peer 
够 的 日 志 记录 可 以 填 满 整个 日 志 记 录 块 ， 就 将 其 整个 输出 。 如 果 没 有 足够 的 日 志 记 录 填 人 该 块 ， 那 么 
就 将 主 存 中 的 所 有 日 志 记 录 填 入 一 个 部 分 填充 的 块 ， 并 输出 到 稳定 存储 器 。 

将 缓冲 的 日 志 写 到 磁盘 有 时 称 为 强制 日 志 (log force) 。 

16.5.2 数据 库 缓 冲 

16. 2. 2 节 描 述 了 两 层 存 储 层 次 结构 的 使 用 。 系 统 将 数据 库存 储 在 非 易 失 性 存储 器 (磁盘 ) 中 ， 并且 
在 需要 时 将 数据 块 调 人 主 存 。 由 于 主 存 通 常 比 整个 数据 库 小 得 多 ， 因 此 可 能 在 需要 将 块 B, 调 人 内 存 的 
时 候 履 盖 主 存 中 的 块 B, 。 如 果 B 已 经 修改 过 ， 那么 B 必须 在 输入 B, 前 就 输出 。 与 10. 8. 1 节 讨 论 的 
一 样 ， 这 个 存储 层次 结构 类 似 于 操作 系统 中 标准 的 虚拟 内 存 概念 。 

人 们 可 能 期 望 事务 在 提交 时 强制 地 将 修改 过 的 所 有 的 块 都 输出 到 磁盘 。 这 样 的 策略 称 作 强制 
(force) 策略。 另 一 种 方法 是 非 强制 (no-force) 策略 ， 即 使 一 个 事务 修改 了 某 些 还 没有 写 回 到 磁盘 的 块 ， 
也 允许 它 提交 。 本 章 描述 的 所 有 恢复 算法 即使 在 非 强制 策略 的 情况 下 也 能 正确 工作 。 非 强制 策略 使 得 
事务 能 更 快速 地 提交 ; 而 且 它 使 得 在 一 个 块 输出 到 稳定 存储 器 之 前 可 以 将 多 个 更 新 积聚 在 一 起 ， 这 可 
以 大 大 减 小 频繁 更 新 的 块 的 输出 操作 的 数目 。 其 结果 是 ， 大 多 数 系 统 所 采用 的 标准 的 方法 是 非 强制 
策略 。 

类 似 地 ， 人 们 可 能 期 望 一 个 仍然 活跃 的 事务 修改 过 的 块 都 不 应 该 写 出 到 磁盘 。 这 一 策略 称 作 非 窃 
取 (no-steal) 策略 。 另 一 种 方法 是 窃取 (steal) 策略 ， 人 允许 系统 将 修改 过 的 块 写 到 磁盘 ， 即 使 做 这 些 修改 
的 事务 还 没有 全 部 提交 。 只 要 遵守 先 写 日 志 规则 ， 本 章 研究 的 所 有 的 恢复 算法 都 能 正确 工作 ， 即 使 采 
用 窃取 策略 。 而 且 ， 非 窃取 策略 不 适合 于 执行 大 量 更 新 的 事务 ， 因 为 缓冲 区 可 能 被 已 更 新 过 但 不 能 逐 
出 到 磁盘 的 页 面 占 满 ， 进 而 使 得 事务 不 能 进展 下 去 。 其 结果 是 ， 大 多 数 系统 所 采用 的 标准 方法 是 窃取 
策略 。 

为 阐明 先 写 日 志 要 求 的 必要 性 ,我 们 考虑 银行 例子 中 的 事务 TAT . 假设 日 志 的 状态 是 

< T, start > 
<T,, A, 1000, 950 > 

并 假设 事务 T, 发 指令 执行 read(B)。 假 设 B 所 在 的 块 不 在 主 存 中 ， 并且 主 存 已 满 。 假 设 选择 4 所 
在 的 块 输出 到 磁盘 上 。 如 果 将 该 块 输 出 到 磁盘 上 后 系统 崩 演 ， 数 据 库 中 账户 A4、B 和 C 的 值 分 别 就 是 
$950. $2000 和 $9700， 这 是 不 一 致 的 数据 库 状态 。 但 是 ， 由 于 有 WAL 要 求 ， 因 此 日 志 记 录 

<T,, A, 1000, 950> 


必须 在 输出 4 所 在 块 之 前 输出 到 稳定 存储 器 中 。 系 统 可 以 在 恢复 时 使 用 该 日 志 记录 将 数据 库 恢 复 
到 一 致 状态 。 
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当 要 将 块 B 输出 到 磁盘 时 ， 所 有 与 块 B, 中 的 数据 相关 的 日 志 记 录 必 须 在 块 B, 输出 之 前 先 输出 到 
稳定 存储 器 中 。 重 要 的 是 ， 在 块 B, 正在 输出 时 ， 不 能 有 往 块 B, 中 的 写 正在 进行 ， 因 为 这 样 的 写 会 违 
反 先 写 日 志 规则 。 我 们 可 以 通过 使 用 特殊 的 封锁 方法 来 保证 没有 正在 进行 的 写 : 

© 在 事务 对 一 个 数据 项 执行 写 操作 之 前 ， 它 要 获得 数据 项 所 在 的 块 的 排他 锁 。 当 更 新 执行 完 后 立 

即 释放 该 锁 。 
© 当 一 个 块 要 输出 时 ,采取 以 下 动作 序列 : 
O 获取 该 块 上 的 排他 锁 ， 以 确保 没有 任何 事务 正在 对 该 块 执行 写 操作 ， 
O 将 日 志 记录 输出 到 稳定 存储 器 ， 直 至 与 块 B, 相关 的 所 有 日 志 记 录 都 输出 了 
将 块 By 输出 到 磁盘 。 
口 一 旦 块 输出 完成 ， 就 释放 锁 

缓冲 块 上 的 锁 与 用 于 事务 并 发 控制 的 山 无 关 ， 按 照 非 两 阶段 的 方式 释放 这 样 的 锁 对 于 事务 可 串 行 
性 没有 任何 影响 。 这 样 的 锁 以 及 其 他 类 似 的 短期 持 有 的 锁 ， 通 常 称 作 门 锁 (latch ) 。 

缓冲 块 上 的 锁 还 可 以 用 来 保证 在 检查 点 进行 的 过 程 中 缓冲 块 不 更 新 ， 而 且 没 有 新 的 日 志 记 录 产 生 。 
可 以 通过 要 求 在 检查 点 操作 开始 执行 之 前 必须 获得 在 所 有 的 缓冲 块 上 的 排他 锁 以 及 对 日 志 的 排他 锁 来 
实施 这 一 限制 。 一 旦 检查 点 操作 完成 就 可 以 释放 这 些 锁 。 

数据 库 系统 通常 有 一 个 不 断 地 在 缓冲 块 间 循环 ， 将 修改 过 的 缓冲 块 输出 到 磁盘 的 过 程 。 在 输出 组 
冲 块 时 当然 必须 遵循 上 述 的 封锁 协议 。 作 为 不 断 地 输出 修改 过 的 缓冲 块 的 结果 ， 缓 冲 区 中 脏 块 ( 即 缓冲 
区 中 修改 过 ， 但 还 没有 输出 的 块 ) 的 数目 极 大 地 减 小 了 。 于 是 ， 在 检查 点 过 程 中 需要 输出 的 块 的 数目 减 
小 了 ; 而 且 ， 当 需要 从 缓冲 区 中 逐 出 一 个 块 时 ， 很 可 能 就 有 不 脏 的 块 可 以 被 逐 出 ， 使 得 输入 马上 可 以 
进行 ， 而 不 必 等 待 输出 的 完成 。 

16.5.3 ”操作 系统 在 缓冲 区 管理 中 的 作用 

我 们 可 以 用 下 面 两 种 方法 之 一 来 管理 数据 库 缓 冲 区 : 

1. 数据 库 系统 保留 部 分 主 存 作 为 缓冲 区 ， 并 对 它 进行 管理 ， 而 不 是 让 操作 系统 来 管理 。 数 据 库 系 
统 按照 16. 5. 2 节 讨论 的 那些 要 求 管理 数据 块 的 传送 。 

这 种 方法 的 缺点 是 限制 了 主 存 使 用 的 灵活 性 。 缓 冲 区 必须 足够 小 ， 使 其 他 应 用 有 足够 的 主 存 满 足 

要 。 但 是 ， 即 使 其 他 应 用 并 未 运行 ， 数 据 库 系统 也 不 能 利用 所 有 可 用 内 存 。 同 样 地 ， 非 数据 库 应 用 
也 不 能 使 用 为 数据 库 缓冲 区 保留 的 那 部 分 主 存 ， 即 使 数据 库 缓 冲 区 的 一 些 页 并 未 使 用 。 

2. 数据 库 系 统 在 操作 系统 提供 的 虚拟 内 存 中 实现 其 缓冲 区 。 因 为 操作 系统 知道 系统 中 的 所 有 进程 

的 内 存 需求 ， 所 以 最 好 由 它 决定 哪个 缓冲 块 在 什么 时 候 必须 强制 输出 到 磁盘 中 。 但 是 ， 为 保证 16. 5. 1 




















[741] 节 讲 到 的 先 写 日 志 要 求 ， 不 应 由 操作 系统 自己 写 数据 库 缓冲 页 ， 而 应 由 数据 库 系 统 强制 输出 缓冲 块 。 


数据 库 系 统 在 将 相关 日 志 记 录 写 人 稳定 存储 器 后 ， 强 制 输出 缓冲 块 至 数据 库 中 。 

遗憾 的 是 ， 几 乎 所 有 当前 的 操作 系统 都 完全 控制 虚拟 内 存 。 操 作 系统 保留 磁盘 空间 以 存储 当前 不 
在 主 存 的 那些 虚拟 内 存 页 ， 这 些 空间 称 为 交换 区 (swap space) 。 如 果 操 作 系 统 决定 输出 一 个 块 B,， 该 
块 就 输出 到 磁盘 交换 区 中 ， 并 且 没 有 办 法 让 数据 库 系统 控制 缓冲 块 的 输出 。 

因此 ， 如 果 数 据 库 缓冲 区 在 虚拟 内 存 中 ， 数 据 库 文件 和 虚拟 内 存 中 的 缓冲 区 之 间 的 数据 传送 必须 
由 数据 库 系 统管 理 ， 它 可 以 实现 前 面 提 到 的 先 写 日 志 的 要 求 。 

这 种 方法 可 能 导致 额外 的 数据 到 磁盘 的 输出 。 如 果 块 B, 由 操作 系统 输出 ， 则 那个 块 不 是 输出 到 数 
据 库 中 ， 而 是 输出 到 为 操作 系统 的 虚拟 内 存 准 备 的 交换 区 中 。 当 数据 库 系统 需要 输出 Br ， 操 作 系统 可 
能 需要 先 从 它 的 交换 区 输入 Bv*。 因 此 ， 这 里 可 能 不 止 一 次 By 输出 ， 而 可 能 需要 两 次 B, 输出 (一 次 是 
由 操作 系统 进行 ， 一 次 是 由 数据 库 系统 进行 ) 和 一 次 By 输入 。 

尽管 两 种 方法 都 有 一 些 缺 点 ， 但 总 要 选择 其 一 ， 除 非 操 作 系 统 设计 成 支持 数据 库 日 志 的 要 求 。 
16.5.4 模糊 检查 点 

16. 3.6 节 描 述 的 检查 点 技术 要 求 对 数据 库 的 所 有 更 新 在 检查 点 进行 过 程 中 暂缓 执行 。 若 缓冲 区 中 
页 的 数量 很 大 ， 则 完成 一 个 检查 点 的 时 间 会 很 长 ， 这 会 导致 事务 处 理 中 不 可 接受 的 中 断 。 
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为 避免 这 种 中 断 ， 可 以 修改 检查 点 技术 ， 使 之 允许 在 checkpoint 记录 写 和 日志 后 ， 但 在 修改 过 的 
缓冲 块 写 到 磁盘 前 开始 做 更 新 。 这 样 产 生 的 检查 点 称 为 模糊 检查 点 ( fuzzy checkpoint) 。 

由 于 只 有 在 写 人 checkpoint 记录 之 后 页 面 才 输 出 到 磁盘 ， 因 此 系统 有 可 能 在 所 有 页 面 写 完 之 前 崩 
溃 。 这 样 ， 磁 盘 上 的 检查 点 可 能 是 不 完全 的 。 一 种 处 理 不 完全 检查 点 的 方法 是 : 将 最 后 一 个 完全 检查 
点 记录 在 日 志 中 的 位 置 存 在 磁盘 上 固定 的 位 置 last_checkpoint Ks RAES A checkpoint 记录 时 不 更 新 
该 信息 ， 而 是 在 写 checkpoint 记录 前 ,创建 所 有 修改 过 的 缓冲 块 的 列表 ， 只 有 在 该 列表 中 的 所 有 缓冲 
块 都 输出 到 磁盘 上 以 后 ，last_checkpoint 信息 才 会 更 新 。 

即使 使 用 模糊 检查 点 ， 正 在 输出 到 磁盘 的 缓冲 块 也 不 能 更 新 ， 虽然 其 他 缓冲 块 可 以 并 发 地 更 新 。 
必须 遵守 先 写 日 志 协议 ， 使 得 与 一 个 块 有 关 的 (undo) 日 志 记录 在 该 块 输出 前 已 写 到 稳定 存储 器 中 。 


16.6 非 易 失 性 存储 器 数据 丢失 的 故障 


到 目前 为 止 ， 我 们 只 考虑 了 一 种 情况 ， 就 是 故障 导致 了 易 失 性 存储 器 中 的 信息 丢失 ， 而 非 易 失 性 存 
储 器 中 的 内 容 完整 无 损 的 情况 。 尽 管 导致 非 易 失 性 存储 器 中 内 容 丢失 的 故障 极 少 ， 我 们 仍然 需要 准备 好 
对 这 种 类 型 的 故障 加 以 处 理 。 本 节 只 讨论 磁盘 存储 器 。 这 些 讨论 也 适用 于 其 他 类 型 的 非 易 失 性 存储 器 。 

基本 的 方法 是 周期 性 地 将 整个 数据 库 的 内 容 转 储 (dump ) 到 稳定 存储 器 中 ， 比 如 一 天 一 次 。 例 如 ， 
我 们 可 以 将 数据 库 转 储 到 一 盘 或 多 盘 磁 带 。 如 果 发 生 了 一 个 导致 物理 数据 库 块 丢失 的 故障 ， 系 统 就 可 
以 用 最 近 的 一 次 转 储 将 数据 库 复原 到 前 面 的 一 致 状态 。 一 旦 复原 完成 ， 系 统 再 利用 日 志 将 数据 库 系 统 
恢复 到 最 近 的 一 致 状态 。 

数据 库 转 储 的 一 种 方法 要 求 在 转 储 过 程 中 不 能 有 事务 处 于 活跃 状态 ， 并 且 必 须 执行 一 个 类 似 于 检 
查 点 的 过 程 : 

1. 将 当前 位 于 主 存 的 所 有 日 志 记录 输出 到 稳定 存储 器 中 。 

2. 将 所 有 缓冲 块 输出 到 磁盘 中 。 

3. 将 数据 库 的 内 容 拷贝 到 稳定 存储 器 中 。 

4. 将 日 志 记录 < dump > 输出 到 稳定 存储 器 中 。 

第 1、2 和 4 步 对 应 于 16. 3. 6 节 中 检查 点 的 那 三 个 步骤 。 

为 从 非 易 失 性 存储 器 数据 丢失 中 恢复 ， 系 统 利用 最 近 一 次 转 储 将 数据 库 复 原 到 磁盘 中 。 然 后 ， 根 
据 日 志 ， 重 做 最 近 一 次 转 储 后 所 做 的 所 有 动作 。 注 意 ， 这 里 不 必 执 行 任何 undo 操作 。 

在 非 易 失 性 存储 器 部 分 故障 的 情况 ， 例 如 单个 块 或 少数 块 故障 ， 只 需要 对 那些 块 进行 复原 ， 并 只 
对 那些 块 进 行 重 做 。 

数据 库 内 容 的 转 储 也 称 为 归档 转 储 ( archival dump ) ， 因 为 我 们 可 以 将 转 储 归 档 ， 以 后 可 以 用 它们 
来 查看 数据 库 的 旧 状 态 。 数 据 库 转 储 和 缓冲 区 的 检查 点 机 制 很 类 似 。 

大 多 数 的 数据 库 系统 还 支持 SQL 转 储 (SQL dump), EH SQL DDL 语句 和 SQL insert 语句 写 到 文件 
中 ， 这 些 语句 可 以 重 执行 ， 以 重新 创建 数据 库 。 当 将 数据 移植 到 数据 库 的 另 一 个 实例 中 或 数据 库 软 件 
的 另 一 个 版 本 中 时 ， 这 样 的 转 储 非 常 有 用 ， 因 为 在 另外 的 数据 库 实例 或 数据 库 软 件 版 本 中 ， 物 理 位 置 
或 布局 可 能 是 不 同 的 。 

这 里 描述 的 简单 转 储 过 程 开 销 较 大 ， 原 因 有 以 下 两 个 。 首 先 ， 整 个 数据 库 都 必须 拷贝 到 稳定 存储 
器 中 ， 这 导致 大 量 的 数据 传送 。 其 次 ， 由 于 在 转 储 过 程 中 要 中 止 事 务 处 理 ， 这 样 就 浪费 了 CPU 周期 。 
模糊 转 储 ( fuzzy dump) 机 制 对 此 作 了 改进 ， 它 允许 转 储 过 程 中 事务 仍 是 活路 的。 这 类 似 于 模糊 检查 点 机 
制 ; 详细 描述 可 参见 文献 注解 。 


16.7 锁 的 提前 释放 和 逻辑 undo 操作 


在 事务 处 理 中 使 用 到 的 任何 索引 ， 例 如 B’ 树 ,都 可 以 当 作 一 般 的 数据 来 对 待 ， 但 是 为 了 提高 并 发 
度 ， 我 们 可 以 采用 15. 10 节 描 述 的 B' 树 并 发 控制 算法 ,允许 按 非 两 阶段 的 方式 提前 释放 锁 。 作 为 提前 
释放 锁 的 结果 ， 有 可 能 一 个 B' 树 结 点 的 值 被 一 个 事务 T 更 新 过 ,插入 项 (V,，R, ) ， 然 后 又 被 男 一 个 
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事务 7, 更新， 在 同一 个 结 点 中 插入 项 (VY,, R), ERETT, 完成 执行 之 前 就 移动 项 (VV, R, ) 。 ~ 在 这 一 
点 上 ， 我 们 不 能 通过 用 7 执行 插入 前 的 旧 值 代替 结 点 的 内 容 来 撤销 事务 7 ， 因 为 这 也 会 撤销 事务 T, 
所 执行 的 插入 ; 事务 T, 可 能 仍然 会 提交 (或 者 可 能 已 经 提交 了 )。 在 这 个 例子 中 ,对 插入 (WV, R ) 的 影 
响 进行 撤销 的 唯一 办 法 是 执行 一 个 对 应 的 删除 操作 。 

本 节 其 余部 分 讨论 如 何 扩充 16. 4 节 讲 的 恢复 算法 ， 来 支持 锁 的 提前 释放 。 
16.7.1 逻辑 操作 

插入 和 删除 操作 是 一 类 操作 的 例子 ， 它 们 需要 逻辑 undo 操作 ， 因 为 它们 提前 释放 锁 ; 我 们 把 这 样 
的 操作 称 作 逻辑 操作 (1logical operation) 。 这 类 提前 的 锁 释 放 不 仅 对 索引 很 重要 ， 而 且 对 于 其 他 频繁 存 取 
和 更 新 的 系统 数据 结构 上 的 操作 也 很 重要 ; 这 样 的 例子 包括 追踪 包含 一 个 关系 中 诸 记 录 的 块 、 一 个 块 
中 的 空闲 空间 、 一 个 数据 库 中 的 空闲 块 的 数据 结构 。 如 果 在 这 样 的 数据 结构 上 执行 操作 后 不 提前 释放 
锁 ， 事 务 就 趋向 于 是 顺序 执行 的 ， 影 响 系 统 性 能 。 

冲突 可 串 行 化 理论 向 操作 做 了 扩展 ， 基 于 什么 操作 与 什么 其 他 操作 有 冲突 。 例 如 ， 如 果 BS 树 的 两 
个 插入 操作 插入 不 同 的 键 值 ， 则 它们 互相 不 冲突 ， 即 使 它们 都 更 新 相同 的 索引 页 中 互相 重 且 的 区 域 。 
但 是 ， 如 果 使 用 相同 的 键 值 ， 则 插入 和 删除 操作 与 其 他 的 插入 和 删除 操作 冲突 ， 也 与 读 操作 冲突 。 关 
于 这 一 话题 ， 请 阅读 文献 注解 以 获取 更 多 的 信息 。 

操作 在 执行 时 需要 获得 低级 别 的 锁 ， 操 作 完成 就 释放 锁 ; 然而 相应 的 事务 必须 按 两 阶段 方式 保持 
高 级 别 的 锁 ， 以 防止 并 发 事务 执行 冲突 动作 。 例 如 ， 当 在 一 个 B 树 页 面 上 执行 插入 操作 时 ， 就 获得 在 
该 页 面 上 的 一 个 短 时 间 的 锁 ， 从 而 允许 该 页 中 的 项 在 插入 过 程 中 在 页 内 移动 ; 一 旦 页 面 更 新 完成 ， 就 
释放 这 个 短 时 间 的 锁 。 这 样 的 提前 释放 锁 使 得 第 二 次 插入 可 以 在 同一 页 面 上 执行 。 但 是 ， 每 个 事务 必 
须 获 得 在 插 人 或 删除 的 键 值 上 的 锁 ， 并 按 两 阶段 方式 持 有 锁 ， 以 防止 并 发 的 事务 在 相同 的 键 值 上 执行 
冲突 的 读 、 插 入、 或 删除 操作 。 

一 旦 释放 了 低级 别 的 锁 ， 就 不 能 用 更 新 的 数据 项 的 旧 值 来 对 操作 进行 撤销 ， 而 必须 通过 执行 一 个 
补偿 操作 来 撤销 ; 这 样 的 操作 称 作 逻 辑 undo 操作 (logical undo operation) 。 重 要 的 是 ， 在 操作 中 获得 的 
低级 别 的 锁 要 足以 执行 后 来 对 操作 的 逻辑 undo ， 理 由 在 16.7.4 节 中 讲 。 

16.7.2 i848 undo 日 志 记录 

要 允许 操作 的 逻辑 undo， 在 执行 修改 索引 的 操作 之 前 ， 事 务 创建 一 个 < 7,, 0,, operation-begin > 日 
志 记 录 ， 其 中 0; 是 该 操作 实例 的 唯一 标识 。” 当 系 统 执行 这 个 操作 时 ， 它 为 这 个 操作 所 做 的 所 有 更 新 
按 正常 方式 创建 更 新 日 志 记 录 。 于 是 ， 对 于 该 操作 所 做 的 所 有 更 新 ， 通 常 的 旧 值 和 新 值 信息 照常 写 出 ; 
在 该 操作 完成 之 前 事务 需要 回 滚 的 情况 下 ， 需 要 旧 值 信息 。 当 操作 结束 时 ， 它 写 一 个 形 如 < 了 也，0,， 
operation-end, U > 的 operation-end 日 志 记 录 ， 其 中 U 表示 undo 信息 。 

例如 ， 如 果 操 作 往 B' 树 中 插入 一 个 项 ， 则 undo 信息 U 会 指出 要 执行 删除 操作 ， 并 指明 是 哪 一 棵 
B 树 ， 以 及 从 树 中 删除 哪个 项 。 记 关于 操作 的 这 类 信息 的 日 志 称 作 逻辑 日 志 (logical logging) 。 与 此 相 
反 ， 记 关于 旧 值 和 新 值 信息 的 日 志 称 作物 理 日 志 (physical logging) ， 对 应 的 日 志 记 录 称 作物 理 日 志 记 录 
(physical logging record) 。 

请 注意 ， 在 上 述 机 制 中 ， 逻 辑 日 志 仅 用 于 撤销 ， 不 用 于 重 做 ;redo 操作 全 部 使 用 物理 日 志 记录 来 

执行 。 这 是 因为 系统 故障 之 后 数据 库 状 态 可 能 反映 一 个 操作 的 某 些 更 新 ， 而 不 反映 其 他 操作 的 更 新 ， 
这 依赖 于 在 故障 之 前 哪些 缓冲 块 已 写 到 磁盘 。 像 B* 树 这 样 的 数据 结构 会 处 于 不 一 致 的 状态 ， 人 逻辑 redo 
和 逻辑 undo 操作 都 不 能 在 不 一 致 状态 的 数据 结构 上 执行 。 要 执行 逻辑 redo MK undo, 磁盘 上 的 数据 库 状 
态 必须 是 操作 一 致 (operation consistent) 的 ， 即 不 应 该 有 任何 操作 的 部 分 影响 。 然 而 ， 正 如 我 们 将 要 看 
到 的 ， 在 逻辑 undo 操作 执行 之 前 ， 恢 复 机 制 的 重 做 阶段 的 物理 redo 处 理 以 及 使 用 物理 日 志 记录 的 undo 





o 请 回忆 ， 一 个 项 包括 一 个 键 值 和 一 个 记录 标识 ， 或 者 在 B* 树 文件 结构 树叶 层次 的 情况 下 包括 一 个 键 值 和 一 个 
记录 。 
© operation-begin 日 志 记录 在 日 志 中 的 位 置 可 以 用 作 唯 一 标识 。 
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处 理 确保 被 一 个 逻辑 undo 操作 存 取 的 数据 库 中 的 部 分 处 于 一 个 操作 一 致 的 状态 。 

如 果 一 个 操作 在 一 行 上 执行 多 次 与 执行 一 次 结果 相同 ， 则 称 该 操作 是 早 等 的 (idempoent) 。 往 B* ff 
中 插入 一 个 项 这 样 的 操作 可 能 不 是 寡 等 的 ， 因 此 恢复 算法 必须 保证 已 经 执行 过 的 操作 不 会 再 执行 。 与 此 
相反 ， 物 理 日 志 记 录 是 寡 等 的 ， 因 为 无 论 所 记录 的 更 新 执行 一 次 或 多 次 ， 对 应 的 数据 项 都 会 是 同样 的 值 。 
16.7.3 24 undo 的 事务 回 滚 

HRES 7, 时 ， 从 后 往 前 扫描 日 志 ， 对 事务 T, 的 日 志 记 录 做 如 下 处 理 : 

1. 在 扫描 中 遇 到 的 物理 日 志 记 录像 以 前 描述 的 那样 处 理 ， 除 了 下 面 马上 要 简短 描述 的 需 跳 过 的 那 
些 记录 。 使 用 由 操作 产生 的 物理 日 志 记 录 对 不 完全 的 逻辑 操作 进行 撤销 。 

2. 由 operation-end 标记 的 已 完成 的 逻辑 操作 的 回 滚 与 此 不 同 。 一 旦 系统 发 现 一 个 < 了 ,0,， 
operation-end, U > 日 志 记 录 ， 就 做 以 下 特殊 动作 : 

a. 它 通过 使 用 日 志 记 录 中 的 undo 信息 尽 来 回 滚 该 操作 。 在 对 操作 的 回 滚 中 ， 它 将 所 执行 的 更 新 
记 和 日志， 就 像 操作 首次 执行 时 进行 的 更 新 一 样 。 

在 操作 回 滚 的 最 后 ， 数据 库 系统 不 产生 <T,, O,, operation-end, U > 日 志 记 录 ， 而 是 产生 <T,, 0, 
operation-abort > 日 志 记 录 。 

b. 随 着 对 日 志 的 反 向 扫描 的 继续 进行 ， 系 统 跳 过 事务 T, 的 所 有 日 志 记 录 ， 直 至 遇 到 < 
operation-begin > 日 志 记 录 。 

请 注意 ， 系 统 在 回 滚 中 将 所 执行 的 更 新 的 物理 undo 信息 记 入 日 志 ， 而 不 是 使 用 一 个 只 读 的 补偿 

志 记 录 。 这 是 因为 在 逻辑 undo 进行 的 过 程 中 可 能 发 生 系统 崩溃 ， Set RAR Dae 
sith 要 做 到 这 一 点 ， 重 启 恢复 将 使 用 物理 undo 信息 撤销 早先 的 undo 的 部 分 影响 ， 然 后 再 重新 执行 
逻辑 undo, 

还 请 注意 ， 在 回 滚 中 当 遇 到 operation-end 日 志 记 录 时 跳 过 物理 日 志 记录 能 保证 ， 一 旦 操作 完成 ， 
物理 日 志 记录 中 的 旧 值 就 不 会 用 来 进行 回 滚 。 

3. 如 果 系 统 遇 到 一 个 < 7,，0,;, operation-abort > 日 志 记 录 ， 它 就 跳 过 前 面 所 有 的 记录 (包括 0, 的 
operation-end 记录 ) ， 直 至 它 找到 <T,, O;, operation-begin > 日 志 记 录 。 

仅 在 要 回 深 的 事务 事先 已 经 部 分 回 滚 的 情况 下 才 会 遇 到 operation-abort 日 志 记 录 。 回 忆 一 下 ， 逮 
辑 操作 可 能 不 是 寡 等 的 ， 因 此 逻辑 undo 操作 不 能 多 次 执行 。 在 前 面 的 回 滚 过 程 中 发 生 崩 演 ， 事 务 已 经 
部 分 回 滚 的 情况 下 ， 前 面 的 日 志 记录 必须 跳 过 ， 以 防止 同一 操作 的 多 次 回 滚 。 

4. 与 前 面 一 样 ， 当 遇 到 <T, stat > 日 志 记 录 时 ， 事 务 回 滚 就 完成 了 ， 系 统 往日 志 中 添加 一 个 
<T,, abort > 日 志 记 录 。 

如 果 在 一 个 逻辑 操作 进行 的 过 程 中 发 生 故 障 ， 则 当 事 务 回 滚 时 不 会 找到 该 操作 的 operation-end 日 
志 记 录 。 但 是 ， 对 于 该 操作 所 执行 的 每 一 个 更 新 ， 在 日 志 中 都 有 其 undo 信息 ， 是 以 物理 日 志 记录 中 的 
旧 值 的 形式 出 现 的 。 物 理 日 志 记 录 将 用 来 回 滚 未 完成 的 操作 。 

现在 假设 当 系 统 前 溃 发 生 时 一 个 undo 操作 正在 进行 中 ， 如 果 裔 溃 发 生 时 一 个 事务 正在 回 滚 ， 就 可 
能 发 生 这 样 的 事情 。 于 是 就 会 发 现在 undo 操作 中 所 写 的 物理 日 志 记 录 ， 使 用 这 些 物理 日 志 记 录 就 能 撤 
销 此 部 分 的 undo 操作 自身 。 继 续 进 行 日 志 的 反 向 扫描 ， 会 遇 到 原来 操作 的 operation-end 日 志 记 录 ， 于 
是 会 再 次 执行 undo 操作 。 使 用 物理 日 志 记 录 回 滚 早先 的 undo 操作 的 部 分 影响 使 数据 库 进 入 一 个 一 致 
状态 ， 从 而 使 得 逻辑 undo 操作 可 以 再 次 执行 。 

16-6 显示 了 由 两 个 事务 产生 的 日 志 的 例子 ， 这 些 事务 对 一 个 数据 项 的 值 进 行 增加 或 减少 。 事 务 
To 在 操作 O, 完成 后 对 数据 项 C 上 锁 的 提前 释放 使 得 事务 7, 能 够 用 0, 更 新 该 数据 项 ， 甚 至 不 用 等 到 事 
7, 完成， 但 这 就 使 逻辑 undo 成 为 必要 。 逻 辑 undo 需要 对 数据 项 增加 或 减少 一 个 值 ， 而 不 是 恢复 数 
据 项 的 旧 值 。 

图 16-6 中 的 注释 说 明 ， 在 操作 完成 之 前 ， 回 滚 可 以 执行 物理 undo; 在 操作 完成 并 释放 低级 别 锁 之 
后 ， 回 滚 必 须 通过 减少 或 增加 一 个 值 来 执行 ， 而 不 是 恢复 旧 值 。 在 图 16-6 中 的 例子 中 ，7 通过 往 C 中 
增加 100 来 回 滚 操作 O,; 与 此 相反 ， 对 于 数据 项 B( 它 没有 涉及 锁 的 提前 释放 )， 进 行 了 物理 的 undo, 
HEE, T 对 C 执行 了 一 个 更 新 并 提交 了 ， 它 的 更 新 0, 在 O; 的 撤销 之 前 执行 ， 往 C 中 增加 了 200, 
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这 个 更 新 保持 下 来 ,尽管 0, 撤销 了 。 













如 果 事 务 7 在 操作 O 
完成 之 前 中 止 , 则 对 C 的 
更 新 的 undo 将 是 物理 的 


日 志 开 始 
<T, start> 
<To B, 2000, 2050> 
<T,, O,, operation-begin> 
<T,, C, 700, 600> 


ea AE TS 7 可 以 更 新 C, RAT EA 
<T,, Oz, operation-begin> 释放 了 在 C 上 低级 别 的 锁 
<T,, C, 600, 400> 

<T,, O», operation-end, (C, +200)> 了, 释放 在 C 上 低级 别 的 锁 


< 万 ,C, 400, 500> | 0 的 逻辑 undo 往 C 中 jnml00 | 
<T,, O,, operation-abort> 


<T», B, 2000> O 的 undo 完 成 


<T, abort> 
图 16-6 有 逻辑 undo 操作 的 事务 回 滚 


<T,, commit> 
图 16-7 显示 了 一 个 使 用 逻辑 undo HMARAEPRKEANAS. ERTS HS, ERAS, 
事务 了 是 活跃 的 ， 正 在 执行 操作 0,。 在 重 做 阶段 ，0, 在 检查 点 日 志 记录 之 后 的 动作 重 做 。 当 系统 骨 溃 
时 , T, 正在 执行 操作 0; ， 但 是 操作 是 不 完全 的 。 在 重 做 阶段 结束 时 ，undo-list 包含 7, 和 7,。 在 撤销 阶 
段 ， 使 用 物理 日 志 记录 中 的 旧 值 对 操作 0O, 进行 撤销 , 将 C 置 成 400; 使 用 redo-only 日 志 记 录 将 这 一 操作 
记 到 日 志 中 。 然 后 遇 到 T, 的 start 记录 ， 导 致 将 <7,, abort > 记 到 日 志 中 ， 并 将 到 从 undo-list 中 去 掉 。 





事务 7 完成 了 对 C 的 操作 0。 
释放 了 低级 别 的 锁 ; 再 也 不 能 
做 物理 undo 了 , 2 undok t 
Cc 中 加 100 

































Bae 为 undo list 中 
<T, start> 所 有 事务 找到 
<T,, B, 2000, 2050> star 旬 志 记 录 
<T, commit> 
<T start> 





<T,, B, 2050, 2100> 

<T, O,, operation-begin> 
<checkpoint {7;}> 

<T,, C, 700, 400> 

<T,, Os, operation-end, (C, +300)> 


<T, start> 
ne <T>, Os, operation-begin> 
结束 点 <T», C, 400, 300> 
undo list: 7, T undo 阶段 
Sla O400> 对 C 的 更 新 是 操作 0 的 一 部 分 ， 
<T, abort> 由 于 0. 没 有 完成 , 在 恢复 时 要 物理 | 
<T,, C, 400, 700> Hthundo 


redo 阶段 





恢复 过 程 


中 加 入 的 
日 志 记录 


扫描 中 遇 到 的 下 一 个 日 志 
(这 件 事 是 物理 地 记 了 日 志 的 )， 
O, 的 一 部 分 的 物理 日 志 记 录 ， 直 至 遇 到 O, 的 operation-begin 日 志 
的 其 他 日 志 记录 ， 但 一 般 说 来 ， 在 我 们 到 达 operation- begin 日 去 


的 逻辑 undo, 








nd, , 
<T, Oh E a 
<T,, B, 2050> p 
<T, abort> 0. 的 逻辑 undo 往 C 中 加 300 


图 16-7 ”有 逻辑 undo 操作 的 故障 恢复 动作 


志 记 录 是 O, 的 operation-end 记录 ; 通过 给 C 的 值 增加 300 来 执行 这 个 操作 
然后 增加 一 个 O, 的 operation- abort 日 志 记 录 。 跳 过 作为 

志 记 录 。 在 这 个 例子 中 ， oti 
志 记 录 之 前 可 能 遇 到 其 他 事务 的 日 志 
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; 当然 这 样 的 日 志 记录 不 应 该 跳 过 (除非 它们 是 相应 事务 已 完成 操作 的 一 部 分 ， 并 且 算 法 跳 过 这 些 记 
ag 在 遇 到 O, 的 operation-begin 日 志 记 录 之 后 ， 又 遇 到 7, 的 一 个 物理 日 志 记录 ， 对 它 物 理 地 回 滚 。 
最 后 遇 到 7, 的 start 日 志 记录 ; 这 导致 往日 志 中 添加 一 个 < 了 7 ，abort > 日 志 记 录 ， 并 且 T, 被 从 undo- 
list 中 删 掉 。 这 时 候 undo-list 为 空 ， 撤 销 阶段 完成 了 。 

16.7.4 24 undo 中 的 并 发 问题 

正如 前 面 已 经 提 到 过 的 ， 操 作 中 获取 的 低级 别 的 锁 要 足以 支持 后 来 对 该 操作 的 逻辑 undo 的 执行 ， 
这 一 点 很 重要 ; 否则 在 正常 处 理 中 的 并 发 操作 可 能 导致 撤销 阶段 中 的 问题 。 例 如 ， 假 设 事务 T 的 操作 
O, 的 逻辑 undo 与 并 发 执行 的 事务 T, 的 操作 O, 会 在 数据 项 层次 上 冲突 ，0, 没完 成 时 0, 完成 了 。 还 假 
设 系 统 朋 演 时 两 个 事务 都 没 提 交 。0, 的 物理 更 新 日 志 记录 可 能 出 现在 O, 的 operation-end 记录 之 前 或 
之 后 ， 在 恢复 过 程 中 0, 的 逻辑 undo 中 所 做 的 更 新 可 能 会 完全 地 或 部 分 地 被 0, 的 物理 undo 中 写 的 旧 
值 所 覆盖 。 如 果 O, 已 获得 了 O, 逻辑 undo 所 需 的 所 有 低级 别 锁 ， 上 述 问 题 就 不 会 发 生 ， 因 为 这 样 的 
话 ， 就 不 会 有 此 类 并 发 执行 的 0, To 

如 果 原 来 的 操作 和 它 的 逻辑 undo 操作 都 访问 同一 个 页 面 (这 样 的 操作 称 作 物理 逻辑 操作 ， 在 16.8 
节 讨 论 ) ， 则 上 述 封 锁 要 求 容易 满足 。 和 否则 ， 在 决定 需要 获得 什么 样 的 低级 别 锁 时 ， 要 考虑 具体 操作 的 
细节 。 例 如 ，B 树 上 的 更 新 操作 可 以 获得 一 个 在 根 结 点 上 的 短 时 间 锁 ， 以 确保 操作 的 串 行 执行 。 关 于 
采用 逻辑 undo 日 志 的 B 树 并 发 控制 和 恢复 ， 请 参看 文献 注解 。 在 文献 注解 中 还 可 以 看 到 一 个 另外 的 
方法 ， 称 作 多 级 恢复 ， 该 方法 放松 对 锁 的 要 求 。 


16.8 ARIES 


ARIES 恢复 方法 是 恢复 方法 的 技术 发 展 水 平 的 最 佳 例 子 。16. 4 节 讨 论 的 恢复 技术 和 16. 7 节 描 述 的 
逻辑 undo 日 志 技 术 是 模仿 ARIES 设计 的 ， 但 为 了 突出 关键 概念 和 便于 理解 ， 它 已 大 大 简化 。 不 同 的 
Æ, ARIES 使 用 了 一 些 减 少 恢复 时 间 ， 以 及 减少 检查 点 开销 的 技术 。 特 别 地 ，ARIES 能 够 避免 重 做 许 
多 已 重 做 过 的 日 志 中 记录 的 操作 ， 并 减少 日 志 信息 量 。 其 代价 是 大 大 增加 了 复杂 度 ， 但 物 有 所 值 。 

与 我 们 先前 给 出 的 恢复 算法 的 主要 区 别 是 ，ARIES: 

1. 使 用 一 个 日 志 顺序 号 (Log Sequence Number，LSN ) 来 标识 日 志 记 录 ， 并 将 LSN 存储 在 数据 库 页 
中 ,来 标识 哪些 操作 已 经 在 一 个 数据 库 页 上 实施 过 了 。 

2. 支持 物理 逻辑 redo( physiological redo) 操作 ， 它 是 物理 的 ， 因 为 受 影响 的 页 从 物理 上 标识 出 来 ， 
但 在 页 内 它 可 能 是 逻辑 的 。 

例如 ， 如 果 采 用 分 槽 的 页 结构 ( 见 10. 5. 2 节 ) ， 从 页 中 删除 一 条 记录 会 导致 该 页 中 的 许多 记录 被 调 
整 。 采 用 物理 redo 日 志 ， 必 须 为 该 页 中 受 调整 影响 的 每 个 字 节 记 录 日 志 ， 而 采用 物理 逻辑 日 志 ， 可 以 
记录 下 删除 操作 ， 其 结果 是 日 志 记 录 会 小 得 多 。 重 做 该 删除 操作 将 删除 那 条 记录 并 根据 需要 调整 其 他 
记录 。 

3. 使 用 脏 页 表 ( dirty page table) 来 最 大 限度 地 减少 恢复 时 不 必要 的 重 做 。 正 如 前 面 所 说 过 的 ， 脏 页 
是 那些 在 内 存 中 已 更 新 ， 而 磁盘 上 的 版 本 还 未 更 新 的 页 。 

4. 使 用 模糊 检查 点 机 制 ， 只 记录 脏 页 信息 和 相关 的 信息 ， 甚 至 不 要 求 将 脏 页 写 到 磁盘 。 它 不 是 在 
检查 点 时 将 脏 页 写 人 磁盘 ， 而 是 连续 地 在 后 台 刷 新 脏 页面 。 

本 节 剩 下 部 分 将 给 出 ARIES 概览 ，ARIES 的 完全 描述 请 参见 文献 注解 。 

16.8.1 数据 结构 

ARIES 中 每 个 日 志 记 录 都 有 一 个 唯一 标识 该 记录 的 日 志 顺 序号 (LSN)， 该 标号 概念 上 只 是 一 个 逻 
辑 标 识 ， 日 志 中 记录 产生 得 越 晚 ， 其 标号 数字 越 大 。 实 际 上 ，LSN 是 以 一 种 可 以 用 来 定位 磁盘 上 的 日 
志 记 录 的 方式 产生 的 。 典 型 地 ，ARIES 将 一 个 日 志 分 为 多 个 日 志文 件 ， 其 中 每 个 文件 有 一 个 文件 号 。 
当 一 个 日 志文 件 增长 到 某 个 限度 ，ARIES 将 后 面 的 日 志 记 录 添 加 到 一 个 新 的 日 志文 件 中 ; 该 新 日 志文 
件 的 文件 号 比 前 个 记录 一 文件 的 大 1。 这 样 LSN 由 一 个 文件 号 以 及 在 该 文件 中 的 偏 移 量 组 成 。 

每 一 页 也 维护 一 个 叫 页 日 志 顺 序号 (PageLSN ) 的 标识 ， 每 当 一 个 更 新 操作 (无 论 物 理 的 还 是 物理 罗 
辑 的 ) 发 生 在 某 页 上 时 ， 该 操作 将 其 日 志 记录 的 LSN 存储 在 该 页 的 PageLSN 域 中 。 在 恢复 的 撤销 阶段 ， 








747) 
|749 | 


[750] 


420 ”第 四 部 分 事务 管理 


LSN 值 小 于 或 等 于 该 页 的 PageLSN 值 的 日 志 记 录 将 不 在 该 页 上 执行 ， 因 为 它 的 动作 已 经 反映 在 该 页 上 
了 。 稍 后 我 们 会 讲 到 ， 通 过 结合 将 记录 PageLSN 作为 检查 点 过 程 的 一 部 分 的 机 制 ，ARIES 甚至 能 够 避 
免 读 其 日 志 记录 的 操作 已 经 在 磁盘 上 反映 的 许多 页 。 这 样 ， 恢 复 时 间 大 量 减少 了 。 

要 在 物理 逻辑 redo 操作 时 保证 适 等 性 ，PageLSN 是 必 不 可 少 的 ， 因 为 对 一 已 实施 物理 逻辑 redo 操 
作 的 页 重新 实施 会 造成 对 页 的 错误 更 改 。 

在 更 新 正在 执行 时 ， 页 不 应 往 磁 盘 上 写 ， 因 为 在 磁盘 上 页 的 部 分 更 新 状态 下 ， 物 理 逻 辑 操作 不 能 
重 做 。 因 此 ，ARIES 在 缓冲 页 上 加 痕 锁 以 阻止 它们 在 正 更 新 时 被 写 往 磁盘 。 只 有 在 更 新 完成 ， 以 及 更 
新 的 日 志 记录 已 写 入 日 志 之 后 ， 才 释放 该 缓冲 页 门 锁 。 

每 个 日 志 记录 也 包含 同一 事务 的 前 一 日 志 记 录 的 LSN， 该 值 存 放 在 PrevLSN 字段 中 ， 它 使 得 一 个 
事务 的 日 志 记录 能 够 由 后 往 前 提取 ， 而 不 必 读 整个 日 志 。 在 事务 回 滚 过 程 中 会 产生 一 些 特殊 的 redo- 
only 日 志 记 录 ， 在 ARIES 中 称 为 补偿 日 志 记录 (Compensation Log Record，CLR) ， 它 和 我 们 前 面 讲 的 恢 
复 机 制 中 的 redo-only 日 志 记 录 的 作用 相同 。 而 且 CLR 还 起 到 该 机 制 中 operation-abort 日 志 记 录 的 作用 。 
CLR 有 一 个 额外 的 字段 ， 叫 做 UndoNextLSN ， 记 录 当 事务 被 回 滚 时 ， 日 志 中 下 一 个 需要 undo 的 日 志 的 
LSN。 该 字段 和 我 们 早先 讲 的 恢复 机 制 中 的 operation- abort 日 志 记 录 中 的 操作 标识 作用 相同 ， 它 有 助 于 
跳 过 那些 已 经 回 滚 的 日 志 记录 。 

脏 页 表 ( DirtyPageTable) 包含 一 个 在 数据 库 缓冲 区 中 已 更 新 的 页 的 列表 ， 它 为 每 一 页 保存 其 
PageLSN 和 一 个 称 为 RecLSN 的 字段 ， 其 中 RecLSN 用 于 标识 已 经 实施 于 该 页 的 磁盘 上 的 版 本 的 日 志 记 
录 。 当 一 页 插入 到 脏 页 表 ( 当 它 首次 在 缓冲 池 中 修改 ) 时 ，RecLSN 的 值 被 设置 成 日 志 的 当前 末尾 。 只 
要 页 被 写 和 磁盘， 就 从 脏 页 表 中 移 除 该 页 。 

检查 点 日 志 记 录 ( checkpoint log record) 包 含 脏 页 表 和 活动 事务 的 列表 。 检 查 点 日 志 记 录 也 为 每 个 事 
务 记 录 其 LastLSN ， 即 该 事务 所 写 的 最 后 一 个 日 志 记 录 的 LSN。 磁 盘 上 一 个 固定 的 位 置 记录 最 后 一 个 
(完整 的 ) 检 查 点 日 志 记 录 的 LSN。 

图 16-8 描述 了 ARIES 中 使 用 的 一 些 数据 结构 。 图 16-8 中 显示 的 日 志 记 录 前 面 加 上 了 其 LSN 作为 
前 级 ; 在 实际 实现 中 ， 这 可 能 并 不 显 式 地 存储 ， 而 是 通过 在 日 志 中 的 位 置 就 能 推断 出 来 。 日 志 记录 中 
的 数据 项 标识 分 两 部 分 显示 ， 例 如 4894. 1; 第 一 部 分 标明 页 码 ， 第 二 部 分 标明 页 中 的 一 条 记录 (假定 
采用 分 槽 的 页 结构 ) 。 请 注意 对 日 志 的 显示 是 最 新 的 记录 在 顶部 ， 磁 盘 上 较 老 的 日 志 记录 在 图 16-8 中 




















较 低 的 位 置 显 示 。 
PagelD| PageLSN | RecLSN 
z567] 4894 7567 7564 
7200 7565 7565 
48947 99237 脏 页 表 
7200 页 7566: <T,ss commit> 
数据 库 缓冲 区 日 志 缓 冲 区 (没有 显示 PrevLSN 和 
UndoNextLSN 字 段 ) 
稳定 的 数据 稳定 的 日 志 
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ed 
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图 16-8 ARIES 中 使 用 的 数据 结构 


7565: <Tisa,7200.2, 60, 80> 
7564: <Tiss,4894.1, 20, 40> 
7563: <Tissbegin> 
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每 个 页 面 (无 论 在 缓冲 区 中 还 是 在 磁盘 中 ) 有 一 个 PageLSN 字段 。 你 可 以 验证 ， 最 后 一 个 日 志 记 录 
是 对 页 面 4894 进行 更 新 ， 它 的 LSN 是 7567。 通 过 将 缓冲 区 中 页 面 的 PageLSN 与 稳定 存储 器 中 对 应 页 面 
的 PageLSN 进行 比较 ， 你 可 以 看 到 脏 页 表 包 含 了 关于 缓冲 区 中 自从 从 稳定 存储 器 中 取 来 后 已 修改 过 的 
所 有 页 面 的 条 目 。 脏 页 表 中 的 RecLSN 条 目 反映 当 页 面 被 加 到 脏 页 表 中 时 日 志 末 端的 LSN， 它 应 该 大 于 
或 等 于 稳定 存储 器 中 该 页 的 PageLSN。 

16. 8.2 恢复 算法 
ARIES 从 系统 前 溃 中 恢复 的 过 程 经 历 三 个 阶段 。 
© 分 析 阶 段 (analysis pass): 这 一 阶段 决定 哪些 事务 要 撤销 ， 哪 些 页 在 崩溃 时 是 脏 的 ， 以 及 重 做 阶 
段 应 从 哪个 LSN 开始 。 
e redo 阶段 (rede pass): 这 一 阶段 从 分 析 阶 段 决 定 的 位 置 开 始 ， 执 行 重 做 ， 重 复 历史 ， 将 数据 库 
D RAS. 

© undo 阶段 (undo pass): 这 一 阶段 回 滚 在 发 生 崩 溃 时 那些 不 完全 的 事务 。 

16.8.2.1 分 析 阶 段 

分 析 阶 段 找到 最 后 的 完整 检查 点 日 志 记 录 ， 并 从 该 记录 读 入 脏 页 表 。 它 然后 将 RedoLSN 设置 为 脏 
页 表 中 页 的 RecLSN 的 最 小 值 ， 如 果 没 有 脏 页 ， 它 就 将 RedoLSN 设置 为 检查 点 日 志 记 录 的 LSN。 重 做 
阶段 从 RedoLSN 开始 扫描 日 志 ， 该 点 之 前 的 日 志 :记录 已 经 反映 到 磁盘 上 的 数据 库 页 中 , 分析 阶段 将 要 
撤销 的 事务 列表 undo-list 初始 设置 为 检查 点 日 志 记 录 中 的 事务 列表 ， 分 析 阶 段 也 为 undo-list 中 的 每 
个 事务 从 检查 点 日 志 记 录 中 读 取 其 最 后 一 个 日 志 记 录 的 LSN, 

分 析 阶 段 从 检查 点 继续 正 向 扫描 ， 只 要 找到 一 个 不 在 undo-list 中 的 事务 的 日 志 记 录 ， 就 把 该 事务 
添加 到 undo-list 中 。 只 要 找到 一 个 事务 的 end 日 志 记录 ， 就 把 该 事务 从 undo-list 中 删除 。 到 分 析 阶 段 结 
束 时 ， 所 有 留 在 undo-list 中 的 事务 将 在 后 面 的 撤销 阶段 中 回 滚 。 分 析 阶 段 也 记录 undo-list 中 每 一 个 事 
务 的 最 后 一 个 记录 ， 它 在 撤销 阶段 中 有 用 。 

一 旦 分 析 阶 段 发 现 一 个 在 页 上 更 新 的 日 志 记 录 ， 它 还 更 新 脏 页 表 。 如 果 该 页 不 在 脏 页 表 中 ， 分析 
阶段 就 将 它 添加 进 脏 页 表 ， 并 设置 该 页 的 RecLSN 为 该 日 志 记 录 的 LSN, 

16.8.2.2 重 做 阶段 

重 做 阶段 通过 重演 所 有 没有 在 磁盘 页 中 反映 的 动作 来 重复 历史 。 重 做 阶段 从 RedoLSN 开始 正 向 扫 
描 日 志 ， 只 要 它 找到 一 个 更 新 日 志 记 录 ， 它 就 执行 如 下 动作 : 

1. 如 果 该 页 不 在 脏 页 表 中 ， 或 者 该 更 新 日 志 记 录 的 LSN 小 于 脏 页 表 中 该 页 的 RecLSN， 重 做 阶段 
就 跳 过 该 日 志 记 录 。 

2. 否则 重 做 阶段 就 从 磁盘 调 出 该 页 ， 如 果 其 PageLSN 小 于 该 日 志 记 录 的 LSN， 就 重 做 该 日 志 记 录 。 

注意 如 果 上 述 两 个 测试 中 的 任何 一 个 是 否定 的 ， 那么 该 日 志 :记录 的 作用 已 经 反映 到 页 面 中 ; 否则 
j ee 由 于 ARIES 人 允许 非 寡 等 性 的 物理 逻辑 日 志 记 录 ， 因 此 如 果 一 

志 记 录 的 影响 已 经 反映 到 页 面 中 ， 该 日 志 记录 就 不 应 该 重 做 。 如 果 第 一 个 测试 是 否定 的 ,那么 甚 
a 它 的 PageLSN。 

16.8.2.3 ”撤销 阶段 和 事务 回 滚 : 

撤销 阶段 比较 直截了当 。 它 对 日 志 进 行 一 遍 反 向 扫描 ， 对 undo-list 中 的 所 有 事务 进行 撤销 。 撤 销 
阶段 仅 检查 undo-list 中 事务 的 日 志 记 录 ; 用 分 析 阶 段 所 记录 的 最 后 一 个 LSN 来 找到 undo-list 中 每 个 日 
志 的 最 后 一 个 日 志 记 录 。 

每 当 找 到 一 个 更 新 日 志 记 录 ， 就 用 它 来 执行 一 个 undo( 无 论 是 在 正常 处 理 过 程 的 事务 回 滚 中 ， 还 
是 在 重启 动 的 撤销 阶段 中 ) 。 撤 销 阶段 产生 一 个 包含 undo 执行 动作 (必须 是 物理 逻辑 的 ) 的 CLR， 并 将 
该 CLR 的 UndoNextLSN 设置 为 该 更 新 日 志 记 录 的 PrevLSN 值 。 

如 果 遇 到 一 个 CLR， 则 它 的 UndoNextLSN 值 指 明了 该 事务 需要 undo 的 下 一 个 日 志 记 录 的 LSN; 该 
事务 的 在 其 后 面 的 日 志 记录 已 经 回 滚 了 。 除 CLR 之 外 的 那些 日 志 记 录 ， es 字段 指明 该 事务 需要 
undo 的 下 一 个 日 志 记录 的 LSN。 在 撤销 阶段 中 的 每 一 站 中 ， 要 执行 的 下 一 志 记 录 是 undo-list 中 所 
有 事务 的 下 一 个 日 志 记录 LSN 中 最 大 的 一 个 。 
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图 16-9 描述 了 ARIES 基于 一 个 样 例 日 志 所 执行 的 恢复 动作 。 假 设 磁盘 上 最 后 一 个 完整 的 检查 点 指 

针 指 向 LSN 为 7568 的 检查 点 日 志 记 录 。 在 图 16-9 中 用 箭头 指示 日 志 记录 中 的 PrevLSN 值 ， 用 虚线 箭 

头 指 示 那 个 LSN 为 7565 的 补偿 日 志 记 录 中 的 UndoNextLSN 值 。 分 析 阶 段 从 LSN 7568 开始 ， 当 分 析 阶 

段 完 成 时 ，RedoLSN 为 7564。 于 是 ， 重 做 阶段 必须 从 LSN 为 7564 的 日 志 记 录 开 始 。 请 注意 ， 该 LSN 

小 于 检查 点 日 志 记录 的 LSN， 因 为 ARIES 检查 点 算法 不 将 修改 过 的 页 面 刷新 到 稳定 存储 器 。 在 分 析 阶 

段 结束 时 脏 页 表 会 包含 检查 点 日 志 记 录 中 的 页 面 4894 和 7200， 以 及 页 面 2390， 它 是 被 LSN 为 7570 的 
志 记 录 修 改过 的 。 在 本 例 中 分 析 阶 段 结束 时 ， 需 要 撤销 的 事务 列表 仅 包括 Taso 


较 新 PrevLSN 
4 崩溃 时 日 志 的 结束 点 指针 


7570: <T146, 2390.4, 50, 90> | 
L 7569: <T146 begin> 
7568: checkpoint 


PageLSN | RecLSN 

4894 7567 7564 撤销 
7200 7565 7565 阶段 

上 一 一 一 一 


7567: <T145,4894.1, 40, 60> K 分 析 阶 段 


7566: <T143 commit> 






























| 7565: <T143,7200.2, 60> 





7564: <T145,4894.1, 20, 40> 
7563: <T145 begin> 
BEE | 7562: <T143,7200.2, 60, 80> 


重 做 阶段 


J [UndoNextLSN 
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上 述 例子 的 重 做 阶段 从 LSN 7564 开始 ， 对 其 页 面 出 现在 脏 页 表 中 的 日 志 记 录 进 行 重 做 。 撤 销 阶段 
仅 需 要 对 事务 7 进行 撤销 ， 因 此 从 它 的 LastLSN 值 7567 开始 ， 反 向 扫描 ， 直 至 在 LSN 7563 处 遇 到 < 
Ts Start > 记录 。 


16. 8.3 其 他 特性 

ARIES 提供 的 其 他 关键 特性 包括 以 下 几 方面 。 

© PEA BIE (nested top action); ARIES 人 允许 对 即使 事务 回 滚 也 不 应 该 撤销 的 那些 操作 记 日 
志 ; 例如 ， 如 果 一 个 事务 分 配 一 个 页 面 给 一 个 关系 ,那么 即使 该 事务 回 滚 ， 此 页 面 分 配 也 不 能 
撤销 ， 因为 其 他 事务 可 能 已 经 存储 记录 在 这 个 页 面 上 了 。 这 样 的 不 应 该 回 滚 的 操作 称 作 艇 套 的 
顶层 动作 。 这 样 的 操作 可 以 模拟 为 其 undo 动作 什么 都 不 做 的 操作 。 在 ARIES 中 ， 这 样 的 操作 
通过 创建 一 个 虚拟 的 CLR 来 实现 ， 设 置 其 UndoNextLSN ， 使 得 事务 回 滚 跳 过 由 此 操作 产生 的 日 
志 记 录 。 

。 恢复 的 独立 性 (recovery independence): 有 些 页 能 够 独立 于 其 他 页 进行 恢复 ， 以 便 它 们 甚至 能 够 
在 别 的 页 正在 恢复 时 使 用 。 如 果 一 张 磁盘 的 某 些 页 出 错 ， 它 们 无 须 停止 其 他 页 上 的 事务 处 理 就 
能 恢复 。 

© 保存 点 (savepoint) : 事务 能 够 记录 保存 点 ， 并 能 部 分 回 滚 到 一 个 保存 点 。 这 对 于 死 锁 处 理 特别 
有 用 ， 因 为 事务 能 够 回 滚 到 某 个 点 来 允许 释放 必要 的 锁 ， 然 后 从 那个 点 重新 开始 。 

程序 员 还 可 以 使 用 保存 点 来 部 分 地 撤销 一 个 事务 ， 然 后 继续 执行 ;对 于 处 理 在 事务 执行 中 
发 现 的 某 些 类 型 的 错误 ， 这 个 方法 会 是 很 有 用 的 。 
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© AAT AY ETH (fine-grained locking) : ARIES 恢复 算法 可 以 和 人 允许 在 索引 中 元 组 级 封锁 而 不 是 页 
级 封锁 的 索引 并 发 控制 算法 一 起 使 用 。 这 大 大 地 提高 了 并 发 性 。 
© 恢复 最 优化 (recovery optimization): 脏 页 表 能 用 于 在 重 做 时 预先 提取 页 ， 而 不 是 只 在 系统 找到 
一 个 要 应 用 到 页 的 日 志 记 录 时 才 提 取 该 页 。 重 做 也 可 能 是 不 按 顺 序 的 ， 当 页 正在 被 从 磁盘 提取 
时 ， 重 做 可 以 推迟 ， 在 页 被 取出 来 后 ， 重 做 再 执行 。 同 时 ， 其 他 日 志 记录 能 够 继续 处 理 . 
总 之 ，ARIES 算法 代表 恢复 算法 的 最 新 技术 发 展 水平 ， 它 综合 运用 了 为 提高 并 发 度 、 减 少 日 志 开 
销 和 缩短 恢复 时 间 所 设计 的 各 种 优化 技术 。 


16.9 远程 备份 系统 


传统 的 事务 处 理 系统 是 集中 式 或 客户 /服务 器 模式 的 系统 。 这 样 的 系统 易 受 自然 灾难 (如 火灾 、 潜 
水 和 地 震 ) 的 攻击 。 要 求 事务 处 理 系统 无 论 系统 故障 还 是 自然 灾难 都 能 运行 的 需求 日 益 高 涨 。 这 种 系统 
必须 提供 高 可 用 性 (high availability) ; 即 系统 不 能 使 用 的 时 间 必 须 非常 地 短 。 

我 们 可 以 这 样 来 获得 高 可 用 性 ， 在 一 个 站 点 执行 事务 处 理 ， 称 为 主 站 点 ( primary site) ， 使 用 一 个 
远程 备份 (remote backup) 站 点 ， 这 里 有 主 站 点 所 有 数据 的 备份 。 远 程 备份 站 点 有 时 也 叫 辅助 站 点 
(secondary site) ， 随 着 更 新 在 主 站 点 上 执行 ， 远 程 站 点 必须 保持 与 主 站 点 同步 。 我 们 通过 发 送 主 站 点 
的 所 有 日 志 记录 到 远程 备份 站 点 来 达到 同步 。 远 程 备 份 站 点 必须 物理 地 与 主 站 点 分 离 一 一 例如 ， 我 们 
可 以 将 它 放 在 一 个 不 同 的 州 ， 这 样 发 生 在 主 站 点 的 灾难 不 会 破坏 远程 备份 站 点 。 图 16- 10 显示 了 远程 
备份 系统 的 体系 结构 。 





图 16-10 远程 备份 系统 的 体系 结构 


当主 站 点 发 生 故 障 ， 远 程 备份 站 点 就 接管 处 理 。 但 它 首先 使 用 源 于 主 站 点 的 (也 许 已 过 时 的 ) 数 据 
拷贝 ， 以 及 收 到 的 来 自主 站 点 的 日 志 记录 执行 恢复 。 事 实 上 ， e 
点 要 恢复 时 需 执行 的 恢复 动作 。 对 于 标准 的 恢复 算法 稍 加 修改 ， 就 可 用 于 远程 备份 站 点 的 恢复 。 一 
恢复 执行 完成 ， 远 程 备份 站 点 就 开始 处 理事 务 。 

即使 主 站 点 的 数据 全 部 丢失 ， 系 统 也 能 恢复 ， 因 此 ， 相 对 于 单 站 点 系统 而 言 ， 系 统 的 可 用 性 大 大 
地 提高 了 。 

在 设计 一 个 远程 备份 系统 时 有 几 个 问题 必须 考虑 。 

© 故障 检测 ( detection of failure) 。 对 于 远程 备份 系统 而 言 ， 检 测 什么 时 候 主 站 点 发 生 故障 是 很 重 

要 的 。 通 信 线 路 故障 会 使 远程 备份 站 点 误 以 为 主 站 点 已 发 生 故 障 。 为 避免 这 个 问题 ， 我 们 在 主 
站 点 和 备份 站 点 之 间 维 持 几 条 具有 独立 故障 模式 的 通信 线路 ， 例 如 ， 可 以 使 用 几 种 互相 独立 的 
网 络 连 接 ， 或 许 包 括 通过 电话 线路 的 调制 解 调 器 连接 。 这 些 连接 可 能 由 那些 能 通过 电话 系统 进 
行 通信 的 操作 人 员 的 手工 干预 来 提供 支持 。 
© 控制 权 的 移交 (transfer of control) 。 当 主 站 点 发 生 故 障 时 ， 备 份 站 点 就 接管 处 理 并 成 为 新 的 主 站 
点 。 当 原来 的 主 站 点 恢复 后 ， 它 可 以 作为 远程 备份 站 点 工作 ， 抑 或 再 次 接管 并 作为 主 站 点 。 在 
任意 情况 下 ， 原 主 站 点 都 必须 收 到 一 份 在 它 故 障 期 间 备份 站 点 上 所 执行 更 新 的 日 志 。 
移交 控制 权 最 简单 的 办 法 是 原 主 站 点 从 原 备份 站 点 收 到 redo 日 志 ， 并 将 它们 应 用 到 本 地 以 
赶 上 更 新 。 然 后 原 主 站 点 就 可 以 作为 远程 备份 站 点 工作 ， 人 原 备份 站 点 可 
以 假装 发 生 故 障 ， 导 致 原 主 站 点 重新 接管 。 
© 恢复 时 间 (time to recovery) 。 如 果 远 程 备 份 站 点 上 的 日 志 增长 到 很 大 ， 恢 复 就 会 花 很 长 时 间 。 远 
程 备份 站 点 可 以 周期 性 地 处 理 它 收 到 的 redo 日 志 ， 并 执行 一 个 检查 点 ， 从 而 日 志 中 早期 的 部 分 
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可 以 删除 。 这 样 ， 远 程 备 份 站 点 接管 的 延迟 显著 缩短 。 
采用 热 备份 (hot-spare) 配 置 可 使 备份 站 点 几乎 能 在 一 瞬间 接管 ， 在 该 配置 中 ， 远 程 备 份 站 

点 不 断 地 处 理 到 达 的 redo 日 志 记 录 ， 在 本 地 进行 更 新 。 一 旦 检测 到 主 站 点 发 生 故 障 ， 备 份 站 点 

就 通过 回 滚 未 完成 的 事务 来 完成 恢复 ; 然后 就 做 好 处 理 新 事务 的 准备 。 

© 提交 时 间 (time to commit) 。 为 保证 已 提交 事务 的 更 新 是 持久 的 ， 只 有 在 其 日 志 记录 到 达 备 份 站 
点 之 后 才能 宣称 该 事务 已 提交 。 该 延迟 会 导致 等 待 事务 提交 的 时 间 变 长 ， 因 此 某 些 系统 允许 较 
低 程度 的 持久 性 。 持 和 久 性 的 程度 可 以 按 如 下 分 类 : 

口 一 方 保险 (one-safe) 。 事 务 的 提交 日 志 记录 一 写 人 主 站 点 的 稳定 存储 器 ， 事 务 就 提交 。 

这 种 机 制 的 问题 是 ， 当 备份 站 点 接管 处 理 时 ， 已 提交 事务 的 更 新 可 能 还 没有 在 备份 站 点 
执行 ， 这 样 ， 该 更 新 好 像 丢 失 了 。 当 主 站 点 恢复 后 ， 丢 失 的 更 新 不 能 直接 并 入 ， 因 为 它 可 能 
与 后 来 在 备份 站 点 上 执行 的 更 新 相 冲 突 。 因 此 ， 可 能 需要 人 工 干预 来 使 数据 库 回 到 一 致 
状态 。 

O 两 方 强 保险 (two-very-safe) 。 事 务 的 提交 日 志 记录 一 写 和 人 主 站 点 和 备份 站 点 的 稳定 存储 天， 
事务 就 提交 。 

这 种 机 制 的 问题 是 ， 如 果 主 站 点 或 备份 站 点 其 中 的 一 个 停工 ， 事 务 处 理 就 无 法 进行 。 因 

此 ,虽然 丢失 数据 的 可 能 性 很 小 ,但 其 可 用 性 实际 上 比 单 站 点 的 情况 还 低 。 

O 两 方 保险 (two-safe) 。 如 果 主 站 点 和 备份 站 点 都 是 活跃 的 ， 该 机 制 与 两 方 强 保险 机 制 相同 。 
如 果 只 有 主 站 点 是 活跃 的 ， 事 务 的 提交 日 志 记录 一 写 人 主 站 点 的 稳定 存储 器 事务 ， 就 允许 它 
提交 。 

这 一 机 制 提供 了 比 两 方 强 保险 机 制 更 好 的 可 用 性 ， 同 时 避免 了 一 方 保 险 机 制 面临 的 事务 
丢失 问题 。 它 导致 比 一 方 保险 机 制 较 慢 的 提交 ,但 总 的 来 说 利多 于 商 。 

一 些 商 用 共享 磁盘 系统 提供 一 定 级 别 的 容错 ， 成 为 集中 式 系统 和 远程 备份 系统 的 折 中 。 在 这 些 商 
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障 CPU 上 执行 的 事务 以 及 恢复 这 些 事务 所 持 有 的 锁 。 由 于 数据 在 共享 磁盘 上 ， 因 此 不 需要 日 志 记 录 的 
传送 。 但 我 们 应 该 保护 数据 ， 防 止 磁盘 故障 造成 的 丢失 ,例如 ,使 用 RAID 磁盘 组 织 。 

另 一 种 达到 高 可 用 性 的 可 选 方法 是 使 用 分 布 式 数 据 库 ， 将 数据 复制 到 不 止 一 个 站 点 。 此 时 事务 更 
新 任何 一 个 数据 项 ， 都 要 求 更 新 其 所 有 副本 。 第 19 章 将 讨论 分 布 式 数据 库 ， 包 括 复制 。 


16.10 “总结 


计算 机 系统 与 其 他 机 械 或 电子 设备 一 样 容 易 发 生 故障 。 造 成 故障 的 原因 有 很 多 ， 包 括 磁盘 故障 、 电 
源 故 障 和 软件 错误 。 这 些 情 况 造 成 了 数据 库 系 统 信息 的 丢失 。 
© 除 系统 故障 外 ， 事 务 也 可 能 因 各 种 原因 造成 失败 ， 例 如 破坏 了 完整 性 约束 或 发 生死 锁 。 
数据 库 系 统 的 一 个 重要 组 成 部 分 就 是 恢复 机 制 ， 它 负责 检测 故障 以 及 将 数据 库 恢复 至 故障 发 生前 的 
某 一 状态 。 
计算 机 中 的 各 种 存储 器 类 型 有 易 失 性 存储 器 、 非 易 失 性 存储 器 和 稳定 存储 器 。 易 失 性 存储 器 ( 如 
RAM) 中 的 数据 在 计算 机 发 生 故 障 时 会 丢失 。 非 易 失 性 存储 器 (如 磁盘 ) 中 的 数据 在 计算 机 发 生 故障 
时 一 般 不 丢失 ， 只 是 偶尔 由 于 某 些 故障 如 磁盘 故障 才 会 丢失 。 稳 定 存储 器 中 的 数据 从 不 丢失 ， 
。 必须 能 联机 访问 的 稳定 存储 器 用 镜像 磁盘 或 RAID 的 其 他 形式 模拟 ,它们 提供 元 余数 据 存储 。 脱 机 
或 归档 稳定 存储 器 可 能 是 数据 的 多 个 磁带 备份 ， 并 存放 在 物理 上 安全 的 地 方 。 
。 一 旦 故障 发 生 ， 数 据 库 系 统 的 状态 可 能 不 再 一 致 ， 即 它 不 能 反映 数据 库 试 图 保存 的 现实 世界 的 状态 。 
为 保持 一 致 性 ， 我 们 要 求 每 个 事务 都 必须 是 原子 的 。 人 恢复 机 制 的 责任 就 是 要 保证 原子 性 和 持久 性 。 
。 在 基于 日 志 的 机 制 中 ， 所 有 的 更 新 都 记 入 日 志 ， 并 存放 在 稳定 存储 器 中 。 当 事务 的 最 后 一 个 日 志 记 
录 ， 即 该 事务 的 commit 日 志 记 录 ， 输 出 到 稳定 存储 器 时 ， 就 认为 这 个 事务 已 提交 。 
。 日 志 记 录 包 括 所 有 更 新 过 的 数据 项 的 旧 值 和 新 值 。 当 系统 崩溃 后 需要 对 更 新 进行 重 做 时 ， 就 使 用 新 
759 值 。 如 果 在 正常 操作 中 事务 中 止 ， 回 滚 事 务 所 做 的 更 新 时 需要 用 到 旧 值 ; 在 事务 提交 之 前 发 生 系统 
崩溃 的 情况 下 ， 回 滚 事务 所 做 的 更 新 也 需要 用 到 旧 值 。 
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在 延迟 修改 机 制 中 ， 事 务 执行 时 所 有 write 操作 要 延迟 到 事务 提交 时 才 执 行 ， 那 时 ， 系 统 在 执行 延迟 

写 中 会 用 到 日 志 中 与 该 事务 有 关 的 信息 。 在 延迟 修改 机 制 中 ， 日 志 记 录 不 需要 包含 已 更 新 的 数据 项 
的 旧 值 。 

为 减少 搜索 日 志和 重 做 事务 的 开销 ， 我 们 可 以 使 用 检查 点 技术 。 

当前 的 恢复 算法 基于 重复 历史 的 概念 ， 在 恢复 的 重 做 阶段 重演 ( 自 最 后 一 个 已 完成 的 检查 点 以 来 ) 正 

常 操作 中 所 做 的 所 有 动作 。 重 复 历史 的 做 法 将 系统 状态 恢复 到 系统 崩溃 之 前 最 后 一 个 日 志 记 录 输 出 

到 稳定 存储 器 时 的 系统 状态 。 然 后 从 这 个 状态 开始 执行 一 个 撤销 阶段 ， 反 向 处 理 未 完成 事务 的 日 志 

记录 。 

。 不 完全 事务 的 撤销 写 出 特殊 的 redo-only 日 志 记 录 和 一 个 abort 日 志 记录 。 然 后 ， 就 可 以 认为 该 事务 
已 完成 ， 不 必 再 对 它 进行 撤销 。 

。 在 事务 处 理 所 基 于 的 存储 模型 中 ， 主 存储 器 中 有 一 个 日 志 缓 冲 区 、 一 个 数据 库 缓 冲 区 和 一 个 系统 组 
冲 区 。 系 统 缓冲 区 中 有 系统 目标 码 页 面 和 事务 的 局 部 工作 区 域 。 

。 恢复 机 制 的 高 效 实现 需要 尽 可 能 减少 向 数据 库 和 稳定 存储 器 写 出 的 数目 。 日 志 记 录 在 开始 时 可 以 保 
存在 易 失 性 的 日 志 缓 冲 区 中 ， 但 是 当下 述 情况 之 一 发 生 时 必须 写 到 稳定 存储 器 中 : 

TE <T,, commit > 日 志 记录 可 以 输出 到 稳定 存储 器 之 前 ， 与 事务 T, 相关 的 所 有 日 志 记 录 必 须 
已 经 输出 到 稳定 存储 器 中 。 

口 在 主 存 中 的 一 个 数据 块 输出 到 ( 非 易 失 性 存储 器 中 的 ) 数 据 库 之 前 ， 与 该 块 中 的 数据 相关 的 所 
有 日 志 记录 必须 已 经 输出 到 稳定 存储 器 中 。 

当前 的 恢复 技术 支持 高 并 发 性 封锁 技术 ,例如 用 于 B 树 并 发 控制 的 封锁 技术 。 这 些 技术 允许 

提前 释放 通过 插入 或 删除 这 样 的 操作 获得 的 低级 别 的 锁 ， 低 级 别 的 锁 允 许 别 的 事务 其 他 的 这 类 

操作 可 以 执行 。 低 级 别 的 锁 被 释放 之 后 ， 不 能 进行 物理 undo， 而 需要 进行 逻辑 undo， 例 如 ， 用 

删除 来 对 插入 做 undo。 事 务 保持 高 级 别 的 锁 以 确保 并 发 的 事务 不 会 执行 这 样 的 动作 ， 它 可 能 导 [760 | 

致 一 个 操作 的 逻辑 undo 是 不 可 能 的 。 

为 从 造成 非 易 失 性 存储 器 中 数据 丢失 的 故障 中 恢复 ， 我 们 必须 周期 性 地 将 整个 数据 库 的 内 容 转 

储 到 稳定 存储 器 中 一 一 例如 每 天 一 次 。 如 果 发 生 了 导致 物理 数据 库 块 丢失 的 故障 ， 我 们 使 用 最 

近 一 次 转 储 将 数据 库 恢 复 至 前 面 的 某 个 一 致 状态 。 一 旦 完成 该 恢复 ,我 们 再 用 日 志 将 数据 库 系 

统 恢复 至 最 当前 的 一 致 状态 。 

ARIES 恢复 机 制 是 最 新 技术 水 平 的 机 制 ， 它 支持 一 些 提供 更 大 并 发 性 ， 削 减 日 志 开销 和 最 小 化 

恢复 时 间 的 特性 。 它 也 是 基于 重复 历史 的 ， 并 允许 逻辑 undo 操作 。 该 机 制 连 续 不 断 地 清洗 页 ， 

从 而 不 需要 在 检查 点 时 清洗 所 有 页 。 它 使 用 日 志 顺 序号 (LSN) 来 实现 各 种 优化 从 而 减少 恢复 所 

花 时 间 。 

远程 备份 系统 提供 了 很 高 程度 的 可 用 性 ， 人 允许 事务 处 理 即 使 在 主 站 点 遭受 火灾 、 洪 水 或 地 震 的 

破坏 时 也 能 继续 。 主 站 点 上 的 数据 和 日 志 记 录 连 续 不 断 地 备份 到 远程 备份 站 点 。 如 果 主 站 点 发 

生 故 障 ， 远 程 备份 站 点 就 执行 一 定 的 恢复 动作 ， 然 后 接管 事务 处 理 。 
































术语 回顾 
© 恢复 机 制 o 存储 器 类 型 。 基于 日 志 的 恢复 
© 故障 分 类 O 易 失 性 存储 器 en 
口 事务 故障 非 易 失 性 存储 器 。 日 志 记 录 
口 逻辑 错误 O 稳定 存储 器 ° dana 记录 
口 系统 错误 ok 。 延迟 的 修改 
口 ABE HA 口 物理 块 。 立即 的 修改 
口 数据 传输 故障 O 缓冲 块 © 未 提交 的 修改 
。 故障 一 停止 假设 。 磁盘 缓冲 区 。 检查 点 
。 磁盘 故障 。 强制 输出 。 恢复 算法 
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。 重启 动 恢复 。 操作 系统 与 缓冲 区 管理 O 分 析 阶 段 
。 事务 回 滚 。 模糊 检查 点 重 做 阶段 
© 物理 undo 。 锁 的 提前 释放 口 撤销 阶段 
。 物理 日 志 。 逻辑 操作 。 高 可 用 性 
。 事务 回 滚 。 逻辑 日 志 © 远程 备份 系统 
。 检查 点 e i248 undo 0 主 站 点 
。 重启 动 恢复 © 非 易 失 性 存储 器 数据 丢失 口 远程 备份 站 点 
© 重 做 阶段 。 文档 转 储 辅助 站 点 
© 撤销 阶段 。 模糊 转 储 。 故障 检测 
。 重复 历史 e ARIES © 控制 权 移交 
。 缓冲 区 管理 O 日 志 顺 序号 (LSN) © 恢复 时 间 
。 日 志 记录 缓冲 O 页 面 顺序 号 (PageLSN ) 。 热 备份 配置 
e 先 写 日 志 ( WAL) 口 物理 逻辑 redo © 提交 时 间 
。 强制 日 志 口 补偿 日 志 记 录 ( CLR) 口 一 方 保险 
© 数据 库 缓冲 口 脏 页 表 口 两 方 强 保险 
。 门 锁 口 检查 点 日 志 记 录 O 两 方 保险 
实践 习题 
16.1 请 解释 为 什么 undo-list 中 事务 的 日 志 记录 必须 由 后 往 前 进行 处 理 ， 而 redo-list 中 事务 的 日 志 记录 则 必 
须 由 前 往 后 进行 处 理 。 
16.2 请 解释 检查 点 机 制 的 目的 。 应 该 间隔 多 长 时 间 做 一 次 检查 点 ? 执行 检查 点 的 频率 对 以 下 各 项 有 何 
影响 ? 
。 无 故障 发 生 时 的 系统 性 能 如 何 ? 
© 从 系统 月 演 中 恢复 所 需 的 时 间 多 长 ? 
© 从 介质 (磁盘 ) 故 障 中 恢复 所 需 的 时 间 多 长 ? 
16.3 某 些 数据 库 系统 允许 系统 管理 员 在 正常 日 志 ( 用 于 从 系统 崩 演 中 恢复 ) 和 归档 日 志 ( 用 于 从 介质 (磁盘 ) 
故障 中 恢复 ) 这 两 种 日 志 形 式 间 进行 选择 。 采 用 16. 4 节 的 恢复 算法 ， 对 于 这 两 种 情况 的 每 一 种 ， 一 个 
日 志 记 录 在 什么 时 候 可 以 删除 ? 
16.4 ”请 描述 如 何 对 16.4 节 的 恢复 算法 进行 修改 ， 以 实现 保存 点 和 执行 对 保存 点 的 回 滚 。( 保 存 点 在 
16. 8. 3 节 描 述 。) 
16.5 假设 在 数据 库 中 使 用 延迟 的 修改 技术 。 
a. 更 新 日 志 记 录 中 的 旧 值 还 需要 吗 ? 为什么? 
b. 如 果 没 有 将 旧 值 存放 在 更 新 日 志 记 录 中 ， 则 显然 无 法 对 事务 进行 撤销 。 其 结果 是 需要 对 恢复 的 重 
做 阶段 做 什么 样 的 修改 ? 
c. 通过 将 更 新 过 的 数据 项 保存 在 事务 的 局 部 存储 中 ， 并 且 直 接 从 数据 库 缓 冲 区 中 读 没 有 更 新 过 的 数 
据 项 ， 可 以 实行 延迟 的 修改 。 请 给 出 如 何 高 效 地 实现 数据 项 的 读 ， 要 保证 事务 看 到 它 自 己 的 更 新 。 
d. 如 果 事 务 进行 大 量 的 更 新 ， 那 么 上 述 技术 会 有 什么 问题 ? 
16.6 影子 页 技术 需要 对 页 表 进 行 拷贝 。 假 设 页 表 表 示 成 B' 树 形式 。 
a. 请 说 明 如 何在 B 树 的 新 拷贝 和 影子 拷贝 之 间 共 享 尽 可 能 多 的 结 点 ， 假 设 更 新 仅 对 叶 结 点 的 项 进 
行 ， 并 且 没 有 插入 和 删除 。 
b. 即使 做 了 上 述 优化 ， 对 于 进行 少量 更 新 的 事务 ， 日 志 的 方法 仍然 比 影子 拷贝 的 方法 开销 小 得 多 。 
请 解释 为 什么 。 
16.7 ”假设 我 们 (错误 地 ) 修改 了 16.4 节 的 恢复 算法 ， 对 于 事务 回 滚 中 执行 的 动作 不 记 日 志 。 当 从 系统 崩 演 


中 恢复 时 ， 于 是 早先 已 经 回 深 了 的 事务 就 会 被 包括 在 undo-list 中 ， 并 且 被 再 次 回 滚 。 请 给 出 一 个 例 
T, 说明 在 恢复 的 撤销 阶段 执行 的 动作 如 何 会 导致 一 个 不 正确 的 数据 库 状态 。( 提示 : 考虑 已 中 止 事 
务 更 新 过 ， 然 后 又 被 一 个 提交 的 事务 更 新 的 一 个 数据 项 。) 
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16.8 ”作为 一 个 事务 的 结果 分 配给 一 个 文件 的 磁盘 空间 不 应 该 释放 ， 即 使 该 事务 回 深 了 。 请 解释 这 是 为 什 
么 ， 并 解释 ARIES 如 何 保证 这 样 的 动作 不 回 滚 。 
16.9 假设 一 个 事务 删除 了 一 条 记录 ， 甚 至 在 这 个 事务 提交 之 前 ， 所 产生 的 自由 空间 就 被 分 配给 另 一 个 事务 
插入 的 一 条 记录 。 
a 如 果 第 一 个 事务 需要 回 滚 的 话 ， 会 产生 什么 问题 ? 
b 如 果 使 用 页 级 别 的 封锁 ， 而 不 是 元 组 级 别 的 封锁 ， 那 么 这 还 是 个 问题 吗 ? 
c 如 果 支 持 元 组 级 别 的 封锁 ， 请 解释 如 何 通过 在 特殊 的 日 志 记录 中 记 下 提交 后 的 动作 ， 并 在 提交 后 
执行 它们 ， 来 解决 这 个 问题 。 要 确保 在 你 给 出 的 机 制 中 这 样 的 动作 恰好 执行 一 次 。 
16.10 ”请 解释 为 什么 交互 式 事务 的 恢复 比 批 处 理事 务 的 恢复 更 难处 理 。 是 否 有 简单 的 方法 处 理 该 困难 ? 
(提示 : 考虑 用 于 提取 现金 的 自动 取款 机 事务 。) 
16. 11 有 时 事务 在 完成 提交 之 后 不 得 不 撤销 ， 因 为 它 错误 地 执行 了 ， 比 如 银行 出 纳 员 的 错误 输入 。 
a. 举例 说 明 采 用 通常 的 事务 撤销 机 制 来 撤销 这 样 一 个 事务 会 导致 不 一 致 状态 。 
b. 一 个 处 理 这 种 状况 的 途径 是 使 整个 数据 库 回 到 该 错误 事务 提交 前 的 某 一 状态 ( 称 为 及 时 点 ( point- 
in-time) 恢复 ) ， 该 点 之 后 提交 的 事务 回 滚 其 影响 。 
请 对 16. 4 节 的 恢复 算法 加 以 修改 ,使 用 数据 库 转 储 来 实现 及 时 点 恢复 。 
c. 及 时 点 之 后 的 无 错误 事务 可 以 从 逻辑 上 重新 执行 ， 但 不 能 使 用 它们 的 日 志 记录 重新 执行 ， 为 
HA? 


习题 


16.12 M VO 开销 的 角度 解释 易 失 性 存储 器 、 非 易 失 性 存储 器 和 稳定 存储 器 三 类 存储 器 的 区 别 。 
16. 13 ”稳定 存储 器 是 不 可 能 实现 的 。 
a. 请 解释 为 什么 。 
b. 请 解释 数据 库 系 统 如 何 对 待 这 个 问题 。 
16. 14 ”如 果 与 某 块 有 关 的 某 些 日 志 记 录 没 有 在 该 块 输出 到 磁盘 前 输出 到 稳定 存储 器 中 ， 请 解释 数据 库 可 能 
会 如 何 地 变 得 不 一 致 。 
16. 15 ”请 概述 非 穷 取 的 和 强制 的 缓冲 区 管理 策略 的 缺点 。 
16. 16 ”物理 逻辑 redo 日 志 可 以 显著 减 小 日 志 开销 ， 特 别 是 对 于 分 槽 的 页 记录 组 织 。 请 解释 这 是 为 什么 。 
16.17 请 解释 为 什么 逻辑 undo 日 志 广 泛 使 用 ， 而 逻辑 redo 日 志 ( 除 了 物理 逻辑 redo 日 志 ) 很 少 使 用 。 
16.18 考虑 图 16-5 中 的 日 志 。 假 设 恰 好 在 < Tu abort > 日 志 记 录 写 出 之 前 系统 崩溃 。 请 解释 在 系统 恢复 时 会 
发 生 什 么 。 
16.19 ”假设 有 一 个 事务 已 运行 了 很 长 时 间 ， 但 仅 做 了 很 少 的 更 新 。 
a. 如 果 使 用 16. 4 节 的 恢复 算法 ， 该 事务 对 恢复 时 间 的 影响 是 什么 ”如 果 用 ARIES 恢复 算法 呢 ? 
b. 该 事务 对 于 删除 老 的 日 志 记 录 的 影响 是 什么 ? 
16.20 考虑 图 16-6 中 的 日 志 。 假 设 在 恢复 中 发 生 了 崩溃 ， 发 生 的 时 间 恰 好 在 操作 O, 的 operation abort 日 志 
记录 写 出 之 前 。 请 解释 系统 再 次 恢复 时 会 发 生 什 么 。 
16. 21 ”请 对 于 下 述 情况 ， 从 开销 的 角度 ， 对 基于 日 志 的 恢复 和 影子 拷贝 机 制 进行 比较 : 数据 要 加 入 到 新 分 
配 的 磁盘 页 中 ( 换 名 话说， 如果 事务 中 止 的 话 ， 没 有 旧 值 需要 恢复 ) 。 
16.22 在 ARIES 恢复 算法 中 : 
。 如 果 在 分 析 阶 段 开始 时 ， 某 个 页 面 不 在 检查 点 脏 页 表 中 ， 我 们 需要 将 任何 redo 记录 应 用 于 该 页 
吗 ? 为 什么 ? 
© RecLSN 是 什么 ， 如 何 应 用 它 来 尽 可 能 减少 不 必要 的 重 做 ? 
16. 23 ”请 解释 系统 骨 溃 和 "灾难 "的 区 别 。 
16. 24 ”为 以 下 各 项 需求 ， 指 出 在 远程 备份 系统 中 ， 持 久 性 程度 最 合适 的 选择 : 
a. 必须 避免 数据 丢失 ,但 失去 一 些 可 用 性 可 以 接受 
b. 事务 提交 必须 迅速 完成 ， 甚 至 可 以 冒 在 灾难 发 生 时 丢失 一 些 已 提交 事务 的 风险 . 
c. 要 求 高 可 用 性 和 持久 性 ， 但 事务 提交 协议 的 较 长 运行 时 间 是 可 以 接受 的 。 
16. 25 Oracle 数据 库 系统 使 用 undo 日 志 记 录 来 提供 快照 隔离 模式 下 的 数据 库 的 一 种 快照 视图 。 事 务 7, 所 看 
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到 的 快照 视图 反映 了 当 T, 开始 时 所 有 已 提交 事务 的 更 新 ， 以 及 7; 的 更 新 ; 所 有 其 他 事务 的 更 新 对 
T, 是 不 可 见 的 。 

请 描述 一 种 缓冲 处 理 机 制 ， 它 能 向 事务 提供 缓冲 区 的 页 面 的 一 个 快照 。 说 明 如 何 使 用 日 志 来 生 
成 快照 视图 的 细节 。 你 可 以 假设 操作 及 其 undo 动作 只 影响 一 个 单独 的 页 面 。 


文献 注解 


Gray 和 Reuter[ 1993 ] 是 一 本 优秀 的 教科 书 ， 提 供 了 关于 恢复 的 信息 资料 ， 包 括 有 趣 的 实现 和 历史 细节 。 
Bernstein 和 Coodman[ 1981 ] 是 早期 关于 并 发 控制 和 恢复 的 信息 资料 教材 。 

System R 关于 恢复 机 制 的 概述 由 Gray 等 [1981 ] 给 出 。 关 于 数据 库 系统 的 各 种 恢复 技术 的 指导 性 和 概述 
性 文章 包括 Gray[ 1978 ] Lindsay 等 [1980 ] 和 Verhofstad[ 1978 ] 。 模 糊 检查 点 和 模糊 转 储 的 概念 是 在 Lindsay 
等 [1980] 中 阐述 的 。Haerder 和 Reuter[ 1983 ] 提 供 了 恢复 原理 的 全 面 阐述 。 

恢复 方法 的 最 新 技术 水 平 在 ARIES 方法 中 得 到 了 最 好 的 体现 ， 在 Mohan 等 [1992 ] 和 Mohan[ 1990b ] P4H 
述 。Mohan 和 Levine[ 1992 ] 给 出 了 ARIES 的 扩展 ARIES IM， 使 用 逻辑 undo 日 志 来 优化 B* 树 并 发 控制 和 恢 
复 。ARIES 和 它 的 几 个 变种 用 在 好 几 个 数据 库 产品 中 ,包括 IBM DB2 和 Microsoft SQL Server, Oracle 的 恢复 
在 Lahiri 等 [2001] 中 描述 。 

索引 结构 的 特殊 恢复 技术 在 Mohan 和 Levine[ 1992], ， 以 及 Mohan[ 1993 ] 中 作 了 阐述 ，Mohan 和 Narang 
[ 1994 ] 描述 了 客户 一 服务 器 架构 的 恢复 技术 ，Mohan 和 Narang[ 1992 ] 描述 了 并 行 数 据 库 体系 架构 的 恢复 

Weikum[ 1991 ] 描述 了 可 串 行 性 理论 的 一 般 化 版 本 和 操作 进行 中 的 短 时 间 低 级 别 锁 ， 以 及 与 长 时 间 高 级 
别 锁 的 结合 。 在 16. 7.3 节 中 ， 我 们 看 到 这 样 的 需求 : 一 个 操作 应 该 获得 该 操作 的 逻辑 undo 可 能 需要 的 所 有 
低级 别 锁 。 可 以 通过 在 执行 任何 逻辑 undo 操作 之 前 首先 执行 所 有 的 物理 undo 操作 来 放宽 这 一 需求 。 在 
Weikum 等 [1990 ] 中 给 出 这 一 想法 的 一 个 一 般 化 版 本 ， 称 作 多 级 恢复 ， 它 允许 多 个 级 别 的 逻辑 操作 ， 在 恢复 
时 逐 级 地 进行 撤销 阶段 。 

灾难 恢复 的 远程 备份 算法 在 King 等 [1991 ] 和 Polyzois 和 Garcia-Molina[ 1994 ] 中 给 出 。 
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数据 库 系 统 的 体系 结构 受 数 据 库 系统 运行 所 在 的 底层 计算 机 系统 的 影响 很 大 。 数 据 库 系 
统 可 以 是 集中 式 的 ， 其 中 由 一 台 服 务 器 机 器 执行 数据 库 上 的 操作 。 数 据 库 系统 也 可 以 设计 为 
并 行 计算 机 体系 结构 。 分 布 式 数据 库 则 跨越 多 个 地 理 位 置 上 分 离 的 机 器 。 

第 17 章 首先 概述 运行 在 服务 器 系统 上 的 数据 库 系统 的 体系 结构 ， 这 种 体系 结构 用 于 集中 
式 和 客户 -服务 器 体系 结构 上 。 本 章 概述 各 种 不 同 的 处 理 过 程 ， 它们 共同 实现 一 个 数据 库 的 
功能 。 然 后 ,讲述 并 行 计算 机 体系 结构 ， 以 及 为 不 同类 型 的 并 行 计算 机 设计 的 并 行 数据 库 体 
系 结 构 。 最 后 ， 概 括 建立 分 布 式 数据 库 系 统 的 体系 结构 问题 。 

第 18 章 描述 数据 库 的 各 种 操作 (尤其 是 查询 处 理 ) 是 如 何 实现 以 便 具 有 并 行 处 理 能 力 的 。 

第 19 章 介 绍 分 布 式 数据 库 中 出 现 的 若干 问题 ， 并 描述 如 何 处 理 这 些 问题 。 这 些 问 题 包括 


怎样 存储 数据 ， 怎 样 确保 在 多 个 站 点 执行 的 事务 的 原子 性 ， 如 何 执 行 并 发 控制 ， 以 及 在 故障 [767 


发 生 时 如 何 提供 高 可 用 性 。 此 章 还 描述 基于 云 的 数据 存储 系统 、 分 布 式 查询 处 理 以 及 目录 
系统 。 
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数据 库 系 统 的 体系 结构 受 数据 库 系统 运行 所 在 的 底层 计算 机 系统 的 影响 很 大 ， 尤 其 是 受 计算 机 
体系 结构 中 的 联网 、 并 行 和 分 布 这 些 方 面 的 影响 : 
。 计算 机 的 联网 使 得 某 些 任务 在 服务 器 系统 上 执行 ， 而 另 一 些 任务 在 客户 系统 上 执行 。 这 种 工 
作 任务 的 划分 促使 了 客户 -服务 器 数据 库 系 统 的 产生 。 
© 计算 机 系统 中 的 并 行 处 理 能 够 加 速 数据 库 系统 的 活动 ， 使 其 对 事务 做 出 更 快速 的 响应 ， 并 在 
每 秒 内 处 理 更 多 的 事务 。 查 询 能 够 以 一 种 充分 利用 计算 机 系统 提供 的 并 行 能 力 的 方式 来 处 
理 。 对 并 行 查询 处 理 的 需求 促使 了 并 行 数据 库 系 统 的 产生 。 
© 在 一 个 组 织 机 构 的 多 个 站 点 间 对 数据 进行 分 布 ， 可 以 使 得 数据 能 存放 在 产生 它们 或 最 需要 它 
们 的 地 方 ， 而 仍 能 被 其 他 站 点 或 其 他 部 门 访问 。 在 不 同 站 点 上 保存 数据 库 的 多 个 副本 还 使 得 
大 型 组 织 机 构 甚 至 可 以 在 一 个 站 点 受 水 灾 、 火 灾 或 地 震 等 自然 灾害 影响 的 情况 下 仍 能 继续 进 
行 数据 库 操作 。 分 布 式 数据 库 系 统 用 来 处 理 地 理 上 或 管理 上 分 布 在 多 个 数据 库 系 统 中 的 
数据 。 
我 们 在 本 章 研究 数据 库 系统 的 体系 结构 ， 从 传统 的 集中 式 系 统 开 始 ， 然 后 讨论 客户 - 服务 器 数 
据 库 系统 ， 并 行 数据 库 系统 以 及 分 布 式 数据 库 系统 。 


17.1 集中 式 与 客户 -服务 器 体系 结构 
集中 式 数据 库 系 统 是 运行 在 单 台 计算 机 系统 上 ， 不 与 其 他 计算 机 系统 交互 的 数据 库 系统 。 这 种 
数据 库 系统 范围 很 广 ， 既 包括 运行 在 个 人 计算 机 上 的 单 用户 数 据 库 系统 ， 也 包括 运行 在 高 端 服务 器 
[765] 系统 上 的 高 性 能 数据 库 系统 。 另 一 方面 ， 客 户 - 服务 器 系统 在 功能 上 划分 为 一 个 服务 器 系统 和 多 个 
客户 端 系统 。 
17. 1.1 集中 式 系统 
现代 通用 的 计算 机 系统 包括 一 到 多 个 处 理 器 ， 以 及 若干 设备 控制 器 ， 它 们 通过 公共 总 线 连接 在 
一 起 ， 提 供 对 共享 内 存 的 访问 (如 图 17-1 所 示 ) 。 处 理 器 具有 本 地 的 高 速 缓冲 存储 器 ， 用 于 存放 主 存储 器 
显示 器 











17-1 集中 式 计 算 机 系统 
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中 部 分 数据 的 本 地 拷贝 ， 从 而 加 快 对 数据 的 访问 。 每 个 处 理 器 都 可 能 有 几 个 独立 的 核 (core) ， 每 个 核 
可 以 执行 独立 的 指令 流 。 每 个 设备 控制 器 负责 一 种 特定 类 型 的 设备 (例如 磁盘 驱动 器 、 音 频 设备 或 视频 
播放 设备 ) 。 处 理 器 和 设备 控制 器 可 以 并 发 工作 ， 它 们 竞争 对 于 主 存储 器 的 访问 。 高 速 缓冲 存储 器 减少 
了 处 理 器 需要 访问 共享 主 存储 器 的 次 数 ， 从 而 减少 了 对 主 存储 器 访问 的 竞争 。 

我 们 将 使 用 计算 机 的 方式 分 为 两 类 : 单 用 户 系统 和 多 用 户 系统 。 个 人 计算 机 和 工作 站 属于 第 一 类 。 
典型 的 单 用 户 系统 (single-user system) 是 个 人 使 用 的 桌面 系统 ,通常 只 有 一 个 处 理 器 和 一 至 两 张 硬盘 ， 
而 且 通 常 一 次 只 有 一 个 用 户 使 用 计算 机 。 另 一 方面 ， 典 型 的 多 用 户 系 统 ( multiuser system) 有 更 多 的 硬 
盘 和 更 多 的 存储 器 ， 可 能 具有 多 个 处 理 器 。 它 为 大 量 的 与 系统 远程 连接 的 用 户 服务 。 

为 单 用 户 使 用 设计 的 数据 库 系 统一 般 不 提供 多 用 户 数 据 库 所 提供 的 许多 特性 。 特 别 地 ， 它 们 不 支 
持 并 发 控制 ， 当 仅 有 一 个 用 户 能 进行 更 新 时 并 发 控制 是 不 需要 的 。 故 障 恢 复 支 持 在 这 样 的 系统 中 是 不 
存在 的 或 者 是 非常 有 限 的 ， 比 如 可 能 只 是 在 更 新 之 前 简单 地 做 一 个 数据 库 备份 。 一 些 这 样 的 系统 不 支 
持 SQL， 而 是 提供 一 种 更 简单 的 查询 语言 , 例如 QBE 的 变种 。 比 较 而 言 ， 为 多 用 户 系统 设计 的 数据 库 
系统 支持 我 们 在 前 面 学 习 过 的 全 部 事务 特征 。 

虽然 当今 使 用 的 大 多 数 通用 计算 机 系统 有 多 个 处 理 器 ， 但 它们 是 粗 粒度 并 行 ( coarse-granularity 
parallelism) 的 ， 只 具有 几 个 处 理 器 (一 般 大 约 2 ~4 个 ) ， 它 们 共享 一 个 主 存 。 在 这 样 的 机 器 上 运行 的 数 
据 库 一 般 不 会 将 单个 查询 划分 到 多 个 处 理 器 上 ， 而 是 在 每 个 处 理 器 上 运行 一 个 查询 ， 以 允许 多 个 查询 
能 并 发 地 运行 。 因 此 ， 这 样 的 系统 能 提供 更 高 的 吞吐 量 ， 也 就 是 说 ， 尽 管 单个 事务 并 没有 运行 得 更 快 ， 
但 在 每 秒 钟 内 能 运行 更 多 的 事务 。 

为 单 处 理 器 机 器 设计 的 数据 库 已 经 能 够 支持 多 任务 ， 人 允许 多 个 进程 以 分 时 的 方式 在 同一 个 处 理 器 
上 运行 ， 使 用 户 感觉 多 个 进程 在 并 行 地 运行 。 因 此 ， 粗 粒度 并 行 机 在 逻辑 上 看 起 来 和 单 处 理 器 机 是 一 
样 的 ， 为 分 时 计算 机 设计 的 数据 库 系 统 很 容易 就 能 适应 在 其 上 运行 。 

与 此 相反 ， 细 粒度 并 行 (fine-granularity parallelism) 机 拥有 大 量 的 处 理 器 ， 在 这 样 的 机 器 上 运行 的 
数据 库 系统 致力 于 将 用 户 提 交 的 单个 任务 (例如 查询 ) 并 行 地 执行 。 我 们 在 17. 3 节 学 习 并 行 数据 库 系统 
的 体系 结构 。 

并 行 性 正在 成 为 未 来 设计 数据 库 系统 的 一 个 关键 问题 。 虽 然 现今 具有 和 多核 处 理 器 的 计算 机 系统 只 
有 几 个 核 ， 但 是 未 来 的 处 理 器 将 有 大 量 的 核 。“ 因 此， 并 行 数据 库 系统 ， 这 种 曾 运 行 在 特殊 设计 的 硬 
件 上 的 专用 系统 将 成 为 主流 。 

17.1.2 客户 -服务 器 系统 

由 于 个 人 计算 机 变 得 速度 更 快 ， 能 力 更 强 ， 价 格 更 低 ， 因 此 集中 式 系 统 体系 结构 发 生 了 变化 。 连 
接 到 集中 式 系统 的 终端 被 个 人 计算 机 所 替代 。 相 应 地 ， 以 前 由 集中 式 系统 直接 执行 的 用 户 界面 功能 也 
由 个 人 计算 机 来 处 理 。 其 结果 是 ， 集 中 式 系 统 现在 起 到 服务 器 系统 ( server system) 的 作用 ， 它 满足 由 客 
户 系 统 产 生 的 请 求 。 图 17-2 给 出 了 客户 - 服务 器 系统 的 通用 结构 。 





图 17-2 客户 -服务 器 系统 的 通用 结构 


数据 库 系 统 提供 的 功能 可 以 大 致 分 为 两 部 分 : 前 端 和 后 端 。 后 端 负 责 存 取 结 构 、 查 询 计算 和 优化 、 
并 发 控制 以 及 故障 恢复 。 数 据 库 系 统 的 前 端 包括 SQL 用 户 界面 、 表 格 界面 、 报 表 生 成 工具 以 及 数据 挖 





加 ”其 原因 与 计算 机 体系 结构 的 产 热 和 功 耗 问题 有 关 。 相 对 于 让 处 理 器 速度 显著 加 快 ， 计 算 机 架构 师 正 在 利用 芯片 
设计 方面 的 先进 技术 来 把 更 多 的 核 排 布 于 单 块 芯 片上 。 这 一 趋势 可 能 还 要 持续 一 段 时 间 。 
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掘 与 分 析 工 具 (参见 图 17-3)。 前 端 与 后 端 之 间 的 接口 通过 SQL 或 者 应 用 程序 来 实现 。 

我 们 在 第 3 章 看 到 诸如 ODBC 和 JDBC 之 类 的 标准 是 为 客户 端 和 服务 器 的 接口 开发 的 。 使 用 ODBC 
或 JDBC 接口 的 任意 客户 端 可 以 连接 到 任意 提供 该 接口 的 服务 器 。 

特定 的 应 用 程序 ， 比 如 电子 数据 表 和 统计 分 析 包 ， 直 接 使 用 客户 - 服务 器 接口 从 后 端 服 务 器 访问 
数据 。 实 际 上 ， 它 们 为 特定 的 任务 提供 特殊 的 前 端 。 

正如 我 们 以 前 在 图 1-6( 见 第 1 章 ) 中 所 看 到 的 ， 处 理 大 量 用 户 的 系统 采用 的 是 三 层 体 系 结构 ， 其 前 
端 是 Web 浏览 器 ， 它 与 应 用 服务 器 交互 。 应 用 服务 器 实际 上 担当 了 数据 库 服 务 器 的 客户 端 。 

一 些 事务 处 理 系 统 提 供 事务 远程 过 程 调 用 (transactional remote procedure call) 接口 来 把 客户 端 连 
接 到 服务 器 。 这 些 调 用 在 程序 员 看 来 像 普 通 的 过 程 调 用 ， 但 是 来 自 一 个 客户 端的 所 有 远程 过 程 调 用 
在 服务 器 端 封装 到 一 个 单独 的 事务 中 。 所 以 ， 如 果 事 务 中 止 ， 服 务 器 可 以 撤销 单个 远程 过 程 调用 的 
影响 。 


17.2 服务 器 系统 体系 结构 
”服务 器 系统 可 以 大 致 分 为 事务 服务 器 和 数据 服务 器 两 类 。 


SQL 引擎 后 端 


前 端 








接口 (SQL APT) 
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© 事务 服务 器 ( transaction-server) 系统 也 称 作 查询 服务 器 (query-server) 系统 ， 它 提供 一 个 接口 ， 使 
得 客户 端 可 以 发 出 执行 一 个 动作 的 请 求 ， 服 务 器 响应 客户 端的 请 求 ， 执 行 该 动作 ， 并 将 结果 送 
回 给 客户 端 。 通 常 ， 客 户 端 机 器 将 事务 传输 到 服务 器 系统 来 执行 ， 然 后 把 结果 返回 到 客户 端 负 
责 显 示 数 据 。 可 以 用 SQL 表达 请 求 ， 或 者 使 用 特定 的 应 用 程序 接口 。 
© 数据 服务 器 系统 ( data-server system) 使 得 客户 端 可 以 与 服务 器 交互 ， 以 诸如 文件 或 页 面 这 样 的 
单位 对 数据 进行 读 取 或 更 新 。 例 如 ， 文 件 服务 器 提供 文件 系统 接口 ， 使 客户 端 能 够 进行 文件 的 
创建 、 更 新 、 读 取 和 删除 。 数 据 库 系统 的 数据 服务 器 提供 更 强 的 功能 ， 所 支持 的 数据 单位 比 文 
件 要 小 ， 可 以 是 页 面 、 元 组 或 对 象 。 数 据 服 务 器 提供 对 数据 的 索引 机 制 ， 以 及 事务 机 制 ， 事 务 
机 制 保证 了 即使 客户 端 机 器 或 进程 发 生 故 障 ， 数 据 也 不 会 处 于 不 一 致 状态 。 
综 上 所 述 ， 事 务 - 服务 器 体系 结构 是 目前 为 止 应 用 最 广泛 的 体系 结构 。17. 2. 1 节 和 17. 2. 2 节 将 对 
事务 服务 器 和 数据 服务 器 体系 结构 进行 详细 描述 。 
17.2.1 事务 服务 器 
现今 典型 的 事务 服务 器 系统 包括 多 个 在 共享 内 存 中 访问 数据 的 进程 ， 如 图 17-4 所 示 。 组 成 数据 库 
系统 的 进程 包括 以 下 几 类 。 
© 服务 器 进程 (server process); 这 是 接受 用 户 查 询 ( 事 务 )、 执 行 查询 并 返回 结果 的 进程 。 查 询 可 
能 是 从 一 个 用 户 接口 ， 或 者 是 从 一 个 运行 嵌入 式 SQL 的 用 户 进程 ， 或 者 是 由 JDBC, ODBC 或 
类 似 协议 提交 给 服务 器 进程 的 。 一 些 数 据 库 系 统 为 每 个 用 户 会 话 使 用 一 个 单独 的 进程 ， 还 有 一 
些 数据 库 系 统 为 所 有 用 户 会 话 使 用 一 个 数据 库 进 程 ， 但 是 使 用 多 线程 使 多 个 查询 并 发 执行 ， 
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(线程 (thread) 类 似 于 进程 ， 但 是 多 个 线程 作为 同一 个 进程 的 一 部 分 执行 ， 而 且 一 个 进程 的 所 有 
线程 在 同一 个 虚拟 内 存 空 间 中 运行 。 一 个 进程 的 多 个 线程 可 以 并 发 执行 。) 许 多 数据 库 系 统 使 用 

- 一 种 混合 的 体系 结构 ， 有 多 个 进程 ， 每 个 进程 运行 多 个 线程 。 

© 锁 管理 器 进程 (lock manager process): 该 进程 实现 锁 管理 器 功能 ， 包 括 锁 授予 、 锁 释放 和 死 锁 
检测 。 

© 数据 库 写 进程 ( database writer process); 有 一 个 或 者 多 个 进程 用 来 将 修改 过 的 缓冲 块 输出 到 基于 
连续 方式 的 磁盘 中 。 

© 日 志 写 进程 (log writer process); 该 进程 将 日 志 记 录 从 日 志 记 录 缓 冲 区 输出 到 稳定 存储 器 上 。 服 
务 器 进程 简单 地 将 日 志 记 录 添 加 到 在 共享 内 存 中 的 日 志 记 录 缓 冲 区 中 ， 如 果 需 要 强制 输出 日 
志 ， 就 会 请 求 日 志 写 进程 输出 日 志 记 录 。 

© 检查 点 进程 ( checkpoint process); 该 进程 定期 执行 检查 点 操作 。 

© 进程 监控 进程 (process monitor process); 该 进程 监控 其 他 进程 ， 一 旦 有 进程 失败 ， 它 将 为 失败 
进程 执行 恢复 动作 ， 比 如 中 止 失 败 进 程 正在 执行 的 所 有 事务 ， 然 后 重新 启动 进程 
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17-4 共享 内 存 和 进程 结构 


共享 内 存 包 含 所 有 的 共享 数据 ， 比 如 : 

。 缓冲 池 。 

。 BR. 

。 日 志 缓 冲 区 ， 包 含 待 输出 到 稳定 存储 器 上 的 日 志 记录 。 

© 高 速 缓存 的 查询 计划 ， 同 一 个 查询 再 次 提交 时 可 以 重用 。 

所 有 数据 库 进程 都 可 以 访问 共享 内 存 中 的 数据 。 由 于 多 个 进程 可 能 读 取 或 更 新 共享 内 存 中 的 数据 
结构 ， 因 此 必须 有 一 种 机 制 来 确保 一 次 最 多 只 有 一 个 进程 来 修改 一 个 数据 结构 ,而且 当 一 个 数据 结构 
正在 被 其 他 进程 修改 时 不 能 有 进程 读 该 数据 结构 。 这 种 互 斥 ( mutual exclusion ) 可 以 借助 于 称 为 信号 量 
的 操作 系统 功能 来 实现 。 另 一 种 实现 方法 开销 更 小 ， 是 使 用 计算 机 硬件 支持 的 专门 的 原 语 (atomic 
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instruction) ， 有 一 种 类 型 的 原 语 测 试 一 个 内 存 位 置 并 自动 将 其 置 1。 有 关 互 斥 的 更 多 实现 细节 可 以 在 任 
意 一 本 标准 的 操作 系统 教科 书 中 找到 。 互 斥 机 制 也 可 用 来 实现 门 锁 。 
为 了 避免 消息 传递 的 开销 ， 在 许多 数据 库 系 统 中 ， 服 务 器 进程 通过 直接 更 新 锁 表 ( 在 共享 内 存 
中 ) 来 实现 封锁 ， 而 不 是 向 锁 管 理 器 进程 发 送 锁 请 求 消息 。 锁 请 求 过 程 执行 锁 管理 器 进程 在 得 到 一 个 
锁 请 求 时 将 采取 的 操作 。 锁 请 求 和 释放 操作 类 似 于 15.1.4 节 中 的 相应 操作 ， 但 是 有 两 个 明显 的 
区 别 : 
。 由 于 多 个 服务 器 进程 可 以 访问 共享 内 存 ， 因 此 必须 在 锁 表 上 确保 互 斥 存 取 。 
© 如 果 因 为 锁 冲 突 而 不 能 立刻 获得 锁 ， 锁 请 求 代码 可 以 监控 锁 表 以 检查 何 时 可 以 授予 锁 。 锁 释放 
代码 更 新 锁 表 以 标记 出 哪个 进程 已 授予 锁 。 
为 了 避免 重复 检查 锁 表 ， 锁 请 求 代 码 可 以 使 用 操作 系统 信号 量 来 等 待 锁 授 予 通知 ， 而 锁 释 放 代码 
必须 使 用 信和 号 量 机 制 来 通知 等 待 的 事务 : 它们 的 锁 已 经 授予 了 。 
即使 系统 通过 共享 内 存 来 处 理 锁 请 求 ， 它 仍然 也 需要 锁 管 理 器 进程 来 检测 死 锁 。 
17.2.2 数据 服务 器 
数据 服务 器 系统 应 用 于 局 域 网 中 ， 其 中 客户 端 与 服务 器 之 间 具 有 高 速 的 连接 ， 客 户 机 在 处 理 能 力 
上 与 服务 器 机 相当 ， 并 且 要 执行 的 任务 是 计算 密集 型 的 。 在 这 样 的 环境 中 ， 有 理由 采用 如 下 的 做 法 : 
把 数据 传送 到 客户 机 ， 在 客户 机 上 进行 所 有 的 处 理 ( 这 样 的 处 理 可 能 要 花 一 些 时 间 ) ， 然 后 再 把 数据 传 
回 到 服务 器 机 。 请 注意 ， 这 种 体系 结构 需要 将 后 端的 所 有 功能 都 放 到 客户 端 。 在 面向 对 象 数 据 库 系统 
中 数据 服务 器 体系 结构 尤为 常见 ( 见 第 22 章 ) 。 
由 于 客户 端 与 服务 器 之 间 通 信 的 时 间 代 价 与 本 地 存储 器 引用 的 代价 相 比 要 高 得 多 ( 毫秒 与 不 到 100 
纳 秒 之 比 ) ， 于 是 这 样 的 体系 结构 引出 了 一 些 有 意思 的 问题 : 
© 页 面 传送 ( page shipping) 与 项 传送 (item shipping ) 。 数 据 通信 的 单位 可 以 是 粗 粒度 的 ， 例 如 页 
面 ; 也 可 以 是 细 粒 度 的 ， 例 如 元 组 (或 面向 对 象 数据 库 系 统 中 的 对 象 ) 。 我 们 使 用 项 (item ) 这 个 
术语 来 代表 元 组 和 对 象 。 
如 果 通 信 的 单位 是 单个 项 ， 那么 消息 传送 的 开销 与 待 传输 数据 的 数量 相 比 是 高 的 。 相 反 ， 
当 请 求 一 个 项 时 ， 把 不 久 将 可 能 用 到 的 其 他 项 也 传送 回去 是 有 意义 的 。 将 有 些 项 在 请 求 之 前 就 
取 过 来 称 作 预 读 取 ( prefetching) 。 如 果 多 个 项 驻 留 在 一 页 上 ， 那 么 页 面 传送 也 可 以 看 作 是 一 种 
预 读 取 ， 因 为 当 进 程 要 求 访 问 页 面 上 的 一 个 项 时 ， 该 页 面 上 的 所 有 项 都 将 传送 过 去 。 
© 自 适应 锁 粒度 (adaptive lock granularity) 。 对 于 传送 给 客户 机 的 数据 项 ， 通 常会 由 服务 器 给 它们 
授予 锁 。 页 面 传送 的 一 个 缺点 是 给 予 客户 机 的 封锁 粒度 可 能 太 大 一 一 加 在 页 面 上 的 锁 意 味 着 锁 
住 了 该 页 上 所 有 的 项 。 即 使 客户 端 不 访问 该 页 上 的 某 些 项 ， 它 也 隐 含 地 得 到 了 所 有 预 读 取 项 上 
的 锁 。 其 他 客户 机 对 这 些 项 加 锁 的 请 求 可 能 被 阻止 ， 而 这 是 不 必要 的 。 因 此 ， 提 出 了 锁 逐 步 降 
级 ( de-escalation) 的 技术 ， 即 服务 器 可 以 要 求 其 客户 端 将 预 读 取 项 上 的 锁 传 回来 。 如 果 客 户 机 
不 需要 某 个 预 读 取 的 项 ， 它 就 可 以 把 该 项 上 的 锁 传 回 给 服务 器 ， 然 后 该 锁 就 可 以 分 配给 其 他 客 
户 端 。 
。 数据 高 速 缓冲 存储 ( data caching) 。 只 要 有 足够 的 存储 空间 可 用 ， 为 一 个 事务 而 传送 到 客户 端的 
数据 可 以 高 速 缓存 ( cached ) 到 客户 端 ， 即 使 在 该 事务 完成 之 后 。 同 一 个 客户 端 上 的 后 续 事 务 可 
以 使 用 高 速 缓存 的 数据 。 然 而 ， 存 在 一 个 缓存 一 致 性 ( cache coherency) 问题 : 即使 事务 找到 了 
缓存 的 数据 ， 它 还 必须 确认 这 些 数据 是 最 新 的 ， 因 为 在 这 些 数据 被 高 速 缓存 后 可 能 有 另外 的 客 
户 端 对 它们 进行 过 更 新 。 所 以 仍然 需要 与 服务 器 交换 一 条 消息 以 检查 数据 的 有 效 性 ， 并 得 到 
该 数据 上 的 锁 。 
© 锁 高 速 缓存 (lock caching) 。 如 果 各 客户 端 对 数据 基本 上 是 分 割 使 用 的 ， 一 个 客户 端 很 少 请 求 其 
他 客户 端 也 需要 的 数据 ， 那 么 锁 也 可 以 高 速 缓存 在 客户 机 中 。 假 设 一 个 客户 端 在 高 速 缓冲 区 中 
找到 了 一 个 数据 项 ， 同 时 在 其 中 找到 了 存 取 该 数据 项 所 需要 的 锁 ， 那 么 不 需要 与 服务 器 通信 就 
可 以 进行 存 取 过 程 。 然 而 ， 服 务 器 必须 跟踪 高 速 缓存 的 锁 : 如 果 一 个 客户 端 向 服务 器 请 求 一 个 
锁 ， 服 务 器 必须 从 那些 缓存 锁 的 客户 机 上 收回 (call back) 该 数据 项 上 所 有 冲突 的 锁 。 如 果 考 虑 
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到 机 器 故障 的 可 能 性 ， 这 个 任务 就 变 得 更 加 复杂 。 此 技术 与 锁 逐 步 降级 技术 的 不 同 之 处 在 于 ，[776 | 


锁 缓存 是 跨 事务 的 ， 否则， 这 两 项 技术 就 是 类 似 的 了 。 
文献 注解 提供 了 关于 客户 - 服务 器 数据 库 系统 的 更 多 的 信息 。 
17.2.3 基于 云 的 服务 器 

服务 器 通常 属于 提供 服务 的 企业 ， 但 是 服务 供应 商 至 少 部 分 依赖 于 属于 “第 三 方 " 的 服务 器 的 现象 
正在 成 为 一 种 逐渐 增长 的 趋势 。 该 “第 三 方 ” 既 不 是 客户 也 不 是 服务 供应 商 。 

使 用 第 三 方 服务 器 的 一 种 模式 是 将 整个 服务 外 包 到 另 一 家 公司 ， 这 家 公司 用 自己 的 软件 在 其 自 有 
的 计算 机 上 部 署 服务 。 这 使 得 服务 提供 商 可 以 忽视 大 多 数 技术 细节 并 专注 于 服务 的 营销 。 

另 一 种 使 用 第 三 方 服务 器 的 模式 是 云 计 算 (cloud computing) 。 服 务 供应 商 运 行 其 自己 的 软件 ， 但 
软件 是 运行 在 另 一 家 公司 提供 的 计算 机 上 。 在 这 种 模式 下 ， 第 三 方 不 提供 的 任何 应 用 软件 ， 它 只 提 
供 机 器 集群 。 这 些 机 器 并 不 是 “真正 ”的 机 器 ， 而 是 通过 软件 模拟 的 。 利 用 软件 可 以 让 一 台 真 正 的 计 
算 机 模拟 多 台独 立 的 计算 机 。 这 样 的 模拟 机 称 为 虚拟 机 ( virtual machine) 。 服 务 供应 商 在 这 些 虚 拟 机 
上 运行 其 软件 (可 能 包括 数据 库 系统 )。 云 计算 的 一 个 重要 优势 是 服务 供应 商 可 以 根据 需要 添加 机 
器 ， 并 且 当 负载 减轻 时 释放 机 器 。 无 论 在 资金 利用 还 是 能 源 使 用 方面 ， 这 种 模式 都 被 证 明 是 具有 高 
成 本 效益 的 。 

第 三 种 模式 把 云 计 算 服务 用 作 数 据 服务 器 ， 这 种 基于 云 的 数据 存储 系统 将 在 19. 9 节 详 细 介绍 。 使 
用 基于 云 存储 的 数据 库 应 用 程序 可 能 运行 在 相同 的 云 ( 即 同 一 组 机 器 ) 上 或 者 在 其 他 云 上 。 文 献 注解 提 
供 了 有 关 云 计算 系统 的 更 多 信息 。 


17.3 并行 系统 


并 行 系统 通过 并 行 地 使 用 多 个 处 理 器 和 磁盘 来 提高 处 理 速度 和 IO 速度。 并 行 计算 机 正 变 得 越 来 
越 普 及 ， 相 应 地 使 得 并 行 数据 库 系 统 的 研究 变 得 更 加 重要 。 有 些 应 用 需要 查询 非常 大 型 的 数据 库 (TB 
数量 级 ， 即 10" 字 节 ) ， 有 些 应 用 需要 在 每 秒 钟 里 处 理 很 大 数量 的 事务 ( 每 秒 数 千 个 事务 ) ， 这 些 应 用 的 
需求 推动 了 并 行 数 据 库 系统 的 发 展 。 集 中 式 数 据 库 系统 和 客户 - 服务 器 数据 库 系 统 的 能 力 不 够 强大 ， 
不 足以 处 理 这 样 的 应 用 。 

在 并 行 处 理 中 ,许多 操作 是 同时 执行 的 ， 而 不 是 串 行 处 理 的 ( 即 按 顺 序 执行 各 个 计算 步骤 )。 粗 粒 


度 ( coarse-grain) 并 行 机 由 少量 能 力 强大 的 处 理 器 组 成 ; 而 大 规模 并 行 ( massive parallel) 机 或 细 粒 度 并 行 [777 


(fine-grain parallel ) 机 使 用 数 千 个 更 小 的 处 理 器 。 当 今 所 有 的 高 端 计算 机 都 提供 了 一 定 程度 的 粗 粒 度 并 
行 性 ， 它 们 至 少 具有 两 个 或 4 个 处 理 器 。 大 规模 并 行 计算 机 与 粗 粒 度 并 行 机 的 区 别 在 于 它 支 持 的 并 行 
程度 要 高 得 多 。 市 场 上 可 以 买 到 具有 数 百 个 处 理 器 和 磁盘 的 并 行 计算 机 。 

对 数据 库 系统 性 能 的 度量 有 两 种 主要 方式 。(1 ) ÆRE (throughput): 在 给 定时 间 段 内 所 能 完成 任 
务 的 数量 。(2) 响应 时 间 ( response time) : 单个 任务 从 提交 到 完成 所 需 的 时 间 。 对 于 处 理 大 量 小 事务 的 
系统 ， 通 过 并 行 地 处 理 多 个 事务 可 以 提高 它 的 吞吐 量 。 对 于 处 理 大 事务 的 系统 ， 通 过 并 行 地 执行 每 个 
事务 中 的 子 任务 可 以 缩短 它 的 响应 时 间 ， 同 时 提高 它 的 吞吐 量 。 

17. 3.1 加 速 比 和 扩展 比 

并 行 性 研究 中 的 两 个 重要 问题 是 加 速 比 和 扩展 比 。 通 过 增加 并 行 度 在 更 短 的 时 间 内 运行 一 个 给 定 
的 任务 称 为 加 速 比 (speedup) 。 通 过 增加 并 行 度 来 处 理 更 大 的 任务 称 为 扩展 比 (scaleup ) 。 

考虑 一 个 在 具有 一 定数 量 的 处 理 器 和 磁盘 的 并 行 系统 上 运行 的 数据 库 应 用 。 现 在 假设 我 们 通过 增 
加 处 理 器 、 磁 盘 以 及 系统 其 他 部 件 的 数量 来 扩大 系统 规模 。 目 标 是 使 处 理 任务 所 需 的 时 间 与 所 分 配 的 
处 理 器 和 磁盘 的 数量 成 反比 。 假 设 在 较 大 机 器 上 执行 一 项 任务 的 时 间 是 7,， 在 较 小 机 右上 执行 相同 任 
务 的 时 间 是 7;。 由 于 并 行 性 而 获得 的 加 速 比 定义 为 7;/7T,。 当 较 大 系统 拥有 的 资源 (处 理 器 、 位 盘 等 ) 
是 较 小 系统 的 资源 的 N 倍 时 ， 如 果 获 得 的 加 速 比 是 NY， 那么 称 该 并 行 系统 实现 了 线性 加 速 比 (linear 
speedup) 。 如 果 获 得 的 加 速 比 小 于 N， 则 称 该 系统 实现 了 亚 线 性 加 速 比 ( sublinear speedup)。 图 17-5 fii 
述 了 线性 和 亚 线性 的 加 速 比 。 
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线性 加 速 比 





亚 线性 加 速 比 


es 


x > 
图 17-5 资源 增加 时 的 加 速 比 


扩展 比 指 的 是 通过 提供 更 多 资源 ， 在 相同 时 间 内 处 理 更 大 任务 的 能 力 。 令 0 是 一 个 任务 ，Q， 是 一 
个 比 0 大 NN 倍 的 任务 。 假 设 0 在 给 定 机 器 M 上 的 执行 时 间 是 7;， 任务 Ov TELE M, 大 倍 的 并 行 机 器 
M, 上 的 执行 时 间 是 7,。 于 是 扩展 比 定义 为 Ts/T,。 如 果 7, =7;， 则 称 并 行 系统 M, 在 任务 0 上 实现 了 
线性 扩展 比 (linear scaleup), WET, > 7T,;， 则 称 系统 实现 了 亚 线 性 扩展 比 (sublinear scaleup)。 图 176 
描述 了 线性 和 亚 线性 的 扩展 比 ( 其 中 的 资源 随 问题 规模 成 比例 增长 ) 。 依 赖 于 度量 任务 规模 的 方法 的 不 
同 ， 在 并 行 数 据 库 系统 中 有 两 种 类 型 的 相关 扩展 比 : 


速度 一 一 和 





| 线性 扩展 比 
Ts 
T, 

亚 线性 扩展 比 





问题 规模 一 一 > 


图 17-6 ”问题 规模 和 资源 增加 时 的 扩展 比 


o 批量 型 扩展 比 ( batch scaleup)。 在 这 种 扩展 比 中 ， 数 据 库 规模 增 大 ， 而 任务 是 那些 运行 时 间 依 
赖 于 数据 库 规模 的 大 型 工作 。 这 种 工作 的 一 个 例子 是 : 扫描 一 个 其 规模 与 数据 库 规模 成 正比 的 
关系 。 于 是 ， 数 据 库 规模 可 以 作为 问题 规模 的 度量 。 批 量 型 扩展 比 也 应 用 于 科学 应 用 ， 例 如 ， 
执行 N 售 精细 度 的 查询 ， 或 进行 N 倍 长 度 的 模拟 。 
。 事务 型 扩展 比 (transaction scaleup)。 在 这 种 扩展 比 中 ， 数 据 库 事 务 提交 率 增长 ， 并 且 数 据 库 规 
模 增 长 与 事务 提交 率 增长 成 正比 。 这 类 扩展 比 适用 于 事务 是 小 更 新 类 的 那 种 事务 处 理 系统 ， 例 
如 银行 账户 的 存款 和 取款 ， 而 且 创建 的 账户 越 多 ， 事 务 的 提交 率 就 越 高 。 这 种 事务 处 理 特 别 适 
合 于 并 行 执行 ， 因 为 事务 可 以 在 不 同 的 处 理 器 上 并 发 与 相互 独立 地 和 运行， 而且 即使 数据 库 规 模 
增 大 了 ， 每 个 事务 也 大 致 耗费 同样 多 的 时 间 。 
扩展 比 通常 是 度量 并 行 数据 库 系统 效率 更 重要 的 标准 。 数 据 库 系统 中 引入 并 行 性 的 目的 通常 是 为 
了 保证 即使 在 数据 库 规模 和 事务 数量 增长 时 ， 数 据 库 系统 仍 能 以 可 接受 的 速度 运行 。 通 过 提高 并 行 性 
来 增强 系统 能 力 ， 为 企业 的 增长 提供 了 一 条 更 平稳 的 路 线 ， 这 比 用 速度 更 快 的 机 器 (即使 假设 有 这 样 的 
机 器 存在 ) 来 替换 集中 式 系 统 要 好 。 然 而 ， 在 使 用 扩展 比 进行 度量 时 ， 我 们 还 必须 关心 绝对 性 能 数目 : 
具有 线性 扩展 比 的 机 器 可 能 比 没 达到 线性 扩展 比 的 机 器 执行 效果 差 ， 原 因 很 简单 ， 后 者 从 一 开始 就 要 
快 得 多 。 
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有 若干 因素 影响 并 行 操作 的 效率 ， 并 且 可 能 同时 降低 加 速 比 与 扩展 比 。 

© 启动 代价 ( start-up cost) 。 存 在 与 单个 进程 初始 化 相关 的 启动 代价 。 在 包括 数 以 千 计 的 进程 的 并 
行 操作 中 ， 启 动 时 间 可 能 掩盖 实际 的 处 理 时 间 ， 降 低 加 速 比 。 

© 干扰 (interference)。 由 于 在 并 行 系统 中 执行 的 进程 经 常 需要 访问 共享 资源 ， 因 此 在 每 个 新 进程 
与 原 有 进程 竞争 共享 资源 (例如 系统 总 线 、 共 享 硬 盘 ， 其 至 锁 ) 时 ， 就 会 发 生 干 扰 ， 使 速度 下 
降 。 这 种 现象 会 同时 影响 加 速 比 和 扩展 比 。 

© 偏 斜 (skew) 。 我 们 通过 将 单个 任务 分 解 为 多 个 并 行 的 步骤 来 减 小 平均 步骤 的 规模 。 然 而 ， 最 慢 
的 那个 步骤 的 服务 时 间 将 决定 整个 任务 的 服务 时 间 。 通 常 很 难 将 一 个 任务 分 解 为 规模 完全 相等 
的 多 个 部 分 ， 因 而 规模 分 配 的 方式 常常 是 偏 儿 的 。 例 如 ， 如 果 将 规模 为 100 的 任务 分 成 10 个 
部 分 ， 并 且 分 解 是 偏 斜 的 ， 则 有 可 能 有 些 任务 的 规模 小 于 10， 而 另 一 些 任务 的 规模 大 于 10; 
即使 有 一 个 任务 的 规模 刚好 是 20， 并 行 地 运行 这 些 任 务 所 得 到 的 加 速 比 也 只 能 是 5， 而 不 是 我 
们 所 期 望 的 10。 

17. 3.2 互连网 络 

并 行 系统 包括 一 套 组 件 ( 处 理 器 、 存 储 器 和 磁盘 ) ， 这 些 组 件 之 间 通 过 互连网 络 (interconnection 

network ) 相互 通信 。 图 17-7 显示 了 三 种 普遍 使 用 的 互连网 络 类 型 ; 

。 总 线 (bus)。 所 有 系统 组 件 可 以 通过 一 条 单独 的 通信 总 线 来 发 送 和 接收 数据 。 这 种 互 连 形式 如 
图 17-7a 所 示 。 总 线 可 以 是 以 太 网 或 并 行 互 连 。 总 线 结构 非常 适合 只 有 少量 处 理 器 的 情况 。 然 
而 ， 它 并 不 能 随 着 并 行 度 增 大 而 很 好 地 进行 扩展 ， 因 为 总 线 在 同一 时 间 只 能 处 理 来 自 一 个 组 件 
的 通信 。 

© 网 格 (mesh) 。 组 件 作为 网 格 中 的 结 点 ， 每 个 组 件 都 和 网 格 中 它 的 所 有 邻接 组 件 相 连接 。 在 二 维 
网 格 中 ， 每 个 结 点 与 4 个 邻接 结 点 相连 接 ; 而 在 三 维 网 格 中 ， 每 个 结 点 与 6 个 邻接 结 点 相连 [780 | 
接 。 图 17-7b 显示 了 一 个 二 维 网 格 。 没 有 直接 连接 的 结 点 间 的 相互 通信 可 以 通过 将 消息 经 由 一 
系列 直接 互 连 的 中 间 结 点 来 传送 的 方式 进行 。 随 着 组 件数 目的 增加 ， 通 信和 链 的 数目 也 随 之 增 
大 ， 因 此 当 并 行 度 增 大 时 ， 网 格 的 通信 能 力 能 更 好 地 扩展 。 

© 超 立方 体 (hypercube) 。 系 统 组 件 按 二 进 制 编号 ， 如 果 两 个 组 件 编号 的 二 进 制 表示 正好 相差 1 
位 ， 那么 它们 之 间 是 相互 连接 的 。 于 是 ,nn 个 组 件 中 的 每 一 个 将 与 log(n) 个 其 他 组 件 相 连接 。 
图 17-7c 显示 了 有 8 个 结 点 的 一 个 超 立 方 体 。 在 超 立 方 体 互 连 中 ， 每 个 组 件 发 出 的 消息 至 多 经 
由 log(z) 个 链接 就 可 以 到 达 任 何其 他 组 件 。 比 较 而 言 ， 在 网 格 架 构 中 ,一 个 组 件 与 另 一 个 组 件 
的 距离 可 能 是 2( Yn - 1) 个 链接 。( 如 果 网 格 互 连 在 网 格 的 边缘 进行 绕 接 ， 那 么 距离 可 能 是 Vn 
个 链接 ) 。 因 此 ， 超 立方 体 中 的 通信 延迟 显著 低 于 网 格 。 


a) BR b) 网 格 c) 超 立 方 体 
图 17-7 互连网 络 








17.3.3 ”并行 数据 库 体系 结 构 

并 行 机 器 有 若干 种 体系 结构 模型 。 图 17-8 所 示 的 是 其 中 最 重要 的 几 种 。( 在 图 17-8 中 ，M 表示 主 
存储 器 ，P 表示 处 理 器 ,圆柱 体 表 示 磁 盘 。) 

e 共享 内 存 (shared memory) 。 所 有 处 理 器 共享 一 个 公共 的 主 存储 器 ( 见 图 17-8a) 。 
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。 共享 硬盘 ( shared disk) 。 所 有 处 理 器 共享 一 组 公共 的 磁盘 ( 见 图 17-8b) 。 共 享 硬盘 系统 有 时 又 
称 作 集群 (cluster) 。 

。 无 共享 (shared nothing) 。 各 处 理 器 既 不 共享 公共 的 主 存储 器 ， 又 不 共享 公共 的 磁盘 ( 见 图 17-8c)。 

e 层次 的 (hierarchical) 。 这 种 模型 是 前 三 种 体系 结构 的 混合 ( 见 图 17-8d) 。 

17.3.3. 1 ~17.3. 3. 4 节 对 这 些 模型 逐一 进行 详细 讨论 。 





d) 层次 的 
图 17-8 并行 数据 库 体 系 结构 


数据 服务 器 系统 上 用 来 加 速 事务 处 理 的 技术 ， 比 如 17. 2. 2 节 概 述 的 数据 和 锁 高 速 缓冲 存储 以 及 锁 
逐步 降级 ， 都 可 以 用 在 共享 硬盘 的 并 行 数据 库 和 无 共享 的 并 行 数 据 库 中 。 事 实 上 ， 它 们 对 于 在 这 样 的 
系统 中 高 效 地 进行 事务 处 理 是 非常 重要 的 。 

17.3.3.1 共享 内 存 

在 共享 内 存 (shared-memory ) 体 系 结构 中 ， 处 理 器 和 磁盘 通过 总 线 或 互连网 络 来 访问 一 个 公共 的 主 
存储 器 。 共 享 内 存 的 优点 在 于 处 理 器 之 间 的 通信 效率 极 高 ， 存 放 在 共享 内 存 中 的 数据 可 以 被 任何 处 理 
器 访问 ， 而 不 需要 由 软件 来 移动 。 一 个 处 理 器 可 以 通过 往 内 存 中 写 ( 这 通常 只 需要 不 到 一 微 秒 的 时 间 ) 
的 办 法 来 向 其 他 处 理 器 传送 消息 ， 比 通过 通信 机 制 来 传递 消息 要 快 得 多 。 共 享 内 存 机 器 的 缺点 是 这 种 
体系 结构 的 规模 不 能 超过 32 个 或 64 个 处 理 器 ， 因 为 总 线 或 互连网 络 会 变 成 瓶颈 (因为 它 是 所 有 处 理 器 
共享 的 ) 。 到 达 某 一 个 点 之 后 ， 增 加 更 多 的 处 理 器 也 没有 什么 帮助 ， 因 为 各 个 处 理 器 会 将 其 大 多 数 时 间 
花 在 等 待 占用 总 线 去 访问 主 存储 器 上 。 

共享 内 存 体系 结构 通常 在 每 个 处 理 器 上 有 很 大 的 高 速 缓冲 存储 器 ， 从 而 尽量 减少 对 共享 内 存 的 访 
问 。 然 而 ， 至 少 有 一 些 数据 不 在 高 速 缓冲 存储 器 中 ， 必 须 对 共享 内 存 进行 访问 。 而 且 ， 这 些 高 速 缓 冲 
存储 器 必须 保持 一 致 。 即 ， 如 果 一 个 处 理 器 对 某 一 内 存 位 置 执行 写 操作 ， 则 必须 从 每 个 缓存 该 数据 的 
处 理 器 中 更 新 或 者 是 删除 这 个 数据 。 保 持 高 速 缓存 一 致 性 的 开销 将 随 着 处 理 器 数目 的 增加 而 上 升 。 因 
此 ， 共 享 内 存 机 器 的 规模 扩大 不 能 超过 某 一 个 点 ; 当前 共享 内 存 机 器 不 能 支持 多 于 64 个 处 理 器 。 

17.3.3.2 共享 硬盘 

在 共享 硬盘 (shared-disk ) 模型 中 ， 所 有 处 理 器 都 可 以 通过 互联 网 络 直接 访问 所 有 磁盘 ， 但 是 每 个 
处 理 器 有 自己 私有 的 内 存 。 与 共享 内 存 体系 结构 相 比 ， 共 享 硬 盘 体 系 结构 有 两 个 优点 : 第 一 ， 由 于 每 
个 处 理 器 有 自己 的 主 存储 器 ， 因 此 存储 器 总 线 就 不 再 是 瓶颈 了 ; 第 二 ， 这 种 体系 结构 给 出 了 一 种 经 济 
的 方法 来 提供 一 定 程度 的 容错 性 (fault tolerance) : 如 果 一 个 处 理 器 (或 它 的 主 存储 器 ) 发 生 故 障 ， 其 他 
处 理 器 可 以 代替 它 的 工作 ， 这 是 因为 数据 库 驻 留 在 磁盘 上 ， 而 磁盘 是 所 有 处 理 器 都 可 以 访问 的 。 我 们 
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可 以 通过 使 用 第 10 章 介绍 的 RAID 体系 结构 来 使 得 磁盘 子 系统 自身 是 容错 的 。 在 许多 应 用 中 共享 硬盘 
体系 结构 是 可 接受 的 。 

共享 硬盘 系统 的 主要 问题 也 是 可 扩展 性 。 虽 然 存 储 器 总 线 不 再 是 瓶颈 了 ， 但 与 磁盘 子 系统 互 连 现 
在 成 为 了 瓶颈 ; 尤其 在 数据 库 对 磁盘 进行 大 量 访问 的 情况 下 更 是 这 样 。 与 共享 内 存 系统 相 比 ， 共 享 硬 
盘 系统 中 处 理 器 的 数目 可 以 更 大 一 些 ， 但 是 处 理 器 之 间 的 通信 要 通过 通信 网 络 ， 所 以 速度 要 慢 一 些 ( 在 
没有 专用 通信 硬件 的 情况 下 会 达到 几 毫 秒 ) 。 

17.3.3.3 AHF 

在 无 共享 ( shared-nothing) 系统 中 ， 机 器 的 每 个 结 点 包括 一 个 处 理 器 、 一 个 内 存 ， 以 及 一 张 或 
多 张 磁盘 。 一 个 结 点 上 的 处 理 器 可 以 通过 高 速 互 连 网 络 与 另 一 个 结 点 上 的 另 一 个 处 理 器 通信 : 一 
个 结 点 作为 该 结 点 所 拥有 的 磁盘 上 的 数据 的 服务 器 来 运作 。 由 于 本 地 磁盘 访问 由 各 个 处 理 器 的 本 
地 磁盘 提供 ， 因 此 无 共享 模型 克服 了 所 有 的 LO 都 需要 通过 同一 个 互连网 络 的 缺点 ， 只 有 访问 非 
本 地 磁盘 的 查询 及 其 结果 关系 才 需 要 通过 网 络 传送 。 而 且 ， 无 共享 系统 中 的 互连网 络 通常 设计 成 
可 扩展 的 ， 使 得 当 更 多 结 点 加 入 时 ， 其 传输 能 力也 随 之 增强 。 因 此 ， 无 共享 体系 结构 更 具 可 扩展 
性 ， 而 且 可 以 很 容易 地 支持 大 量 的 处 理 器 。 无 共享 系统 的 主要 缺点 是 通信 的 代价 和 非 本 地 磁盘 访 
问 的 代价 ， 这 些 代价 比 共享 内 存 或 共享 硬盘 体系 结构 中 的 代价 要 高 ， 因 为 数据 传送 涉及 两 端的 软 
件 交 互 。 

17. 3.3.4 层次 的 

层次 的 体系 结构 ( hierarchical architecture) 综合 了 共享 内 存 、 共 享 硬盘 和 无 共享 体系 结构 的 特点 。 
在 最 上 层 ， 系 统 由 通过 互连网 络 连接 起 来 的 若干 个 结 点 组 成 ， 这 些 结 点 之 间 互 不 共享 硬盘 或 主 存储 器 ， 
因此 最 上 层 是 一 种 无 共享 的 体系 结构 。 系 统 的 每 个 结 点 实际 上 可 以 是 具有 少量 处 理 器 的 共享 内 存 系统 。 
或 者 ， 每 个 结 点 可 以 是 一 个 共享 硬盘 的 系统 ， 而 且 共 享 一 组 硬盘 的 系统 中 的 每 一 个 又 可 以 是 一 个 共享 
内 存 的 系统 。 因 此 ， 一 个 系统 可 以 构造 成 层次 的 ， 其 底层 是 具有 少量 处 理 器 的 共享 内 存 的 体系 结构 
其 顶层 是 无 共享 的 体系 结构 ， 也 许 中 间 层 是 共享 硬盘 的 体系 结构 。 图 17-8d 描述 了 一 个 层次 的 体系 结 
构 ， 它 具有 若干 个 共享 内 存 的 结 点 ， 通 过 无 共享 的 体系 结构 连接 在 一 起 。 当 今 的 商用 并 行 数据 库 系 统 
运行 在 几 种 这 样 的 体系 结构 之 上 。 

为 了 降低 这 样 的 系统 的 程序 设计 复杂 性 ， 产 生 了 分 布 式 虚 拟 存储 器 ( distributed virtual-memory ) 体系 
结构 ， 这 样 的 体系 结构 中 逻辑 上 有 一 个 共享 的 主 存 储 器 ， 但 物理 上 有 多 个 互 不 相交 的 主 存储 器 系统 ; 
虚拟 存储 器 映射 硬件 与 系统 软件 的 配合 使 得 每 个 处 理 器 可 以 将 这 些 互 不 相交 的 主 存储 器 看 成 是 一 个 单 
一 的 虚拟 主 存储 器 。 由 于 访问 速度 依赖 于 页 面 是 否 在 本 地 而 不 同 ， 因 此 这 样 的 体系 结构 也 称 为 非 一 致 
性 内 存 体系 结构 (NonUniform Memory Architecture, NUMA) 。 


17.4 分布 式 系统 


在 分 布 式 数据 库 系 统 ( distributed database system) 中 ， 数 据 库存 储 在 几 台 计算 机 中 。 分 布 式 系统 中 
的 计算 机 之 间 通 过 诸如 高 速 私有 网 络 或 因特网 那样 的 通信 媒介 相互 通信 。 它 们 不 共享 主 存储 器 或 磁盘 
分 布 式 系统 中 的 计算 机 在 规模 和 功能 上 是 可 变 的 ， 小 到 工作 站 ， 大 到 大 型 机 系统 ， 

对 于 分 布 式 系统 中 的 计算 机 有 多 种 不 同 的 称呼 ， 例 如 站 点 (site) 或 结 点 (node) ， 取 决 于 提 及 它们 时 
的 上 下 文 。 我 们 主要 采用 站 点 (site) 这 个 术语 ， 以 强调 这 些 系统 的 物理 分 布 。 分 布 式 系统 的 通用 结构 如 
图 17-9 所 示 。 

无 共享 并 行 数据 库 与 分 布 式 数 据 库 之 间 的 主要 区 别 在 于 ， 分 布 式 数 据 库 一 般 是 地 理 上 分 离 的 ， 分 
别管 理 的 ， 并 且 互 连 速度 更 低 。 另 一 个 主要 区 别 是 : 在 分 布 式 数据 库 系统 中 ,我们 将 事务 区 分 为 局 部 
事务 和 全 局 事务 。 局 部 事务 (local transaction) 是 仅 访问 在 发 起 事务 的 那个 站 点 上 的 数据 的 事务 。 另 一 方 
面 ， 全 局 事务 ( global transaction) 或 者 访问 发 起 事务 的 站 点 之 外 的 某 个 站 点 上 的 数据 ， 或 者 访问 几 个 不 
同 站 点 上 的 数据 。 

建立 分 布 式 数据 库 系 统 有 几 个 原因 ， 包 括 数据 共享 、 自 治 性 和 可 用 性 。 
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站 点 B 


图 17-9 分 布 式 系统 


© 数据 共享 ( sharing data) 。 建 立 分 布 式 数据 库 系统 的 主要 优点 是 ， 它 提供 了 一 个 环境 使 一 个 站 
点 上 的 用 户 可 以 访问 存放 在 其 他 站 点 上 的 数据 。 例 如 ， 在 一 个 分 布 式 大 学 系统 中 ， 每 个 校区 
存储 与 该 校区 相关 的 数据 。 一 个 校区 的 用 户 可 以 访问 另 一 个 校区 的 数据 。 如 果 没 有 这 种 能 
力 ， 那 么 要 把 学 生 记录 从 一 个 校区 传送 到 另 一 个 校区 ， 就 需要 借助 于 与 现 有 系统 相互 关联 的 
外 部 机 制 。 

。 自治 性 (autonomy) 。 通 过 数据 分 布 的 方式 来 共享 数据 的 主要 优点 在 于 ， 每 个 站 点 可 以 对 本 地 
存储 的 数据 保持 一 定 程度 的 控制 。 在 集中 式 系统 中 ， 中 心 站 点 的 数据 库 管 理 员 对 数据 库 进 行 
控制 。 在 分 布 式 系统 中 ， 有 一 个 全 局 数据 库 管理 员 负责 整 个 系统 。 有 一 部 分 职责 被 委派 给 每 
个 站 点 的 本 地 数据 库 管 理 员 。 每 个 管理 员 可 以 有 不 同 程度 的 局 部 自治 (local autonomy) ， 其 程 
度 的 不 同 依赖 于 分 布 式 数据 库 系统 的 设计 。 可 以 进行 本 地 自治 通常 是 分 布 式 数据 库 的 一 个 主 
要 优势 。 

。 可 用 性 (availability) 。 在 分 布 式 系 统 中 ， 如 果 一 个 站 点 发 生 故 障 ， 其 他 站 点 可 能 还 能 继续 运行 。 
特别 地 ， 如 果 数 据 项 在 几 个 站 点 上 进行 了 复制 (replicate) ， 需 要 某 个 特定 数据 项 的 事务 可 以 在 
这 几 个 站 点 中 的 任何 一 个 上 找到 该 数据 项 。 于 是 ， 一 个 站 点 的 故障 不 一 定 意味 着 整个 系统 停止 
运转 。 

系统 必须 能 检测 到 一 个 站 点 发 生 了 故障 ， 并 需要 采取 适当 的 动作 来 从 故障 中 恢复 。 系 统 不 能 再 使 
用 故障 站 点 的 服务 。 最 后 ， 当 故障 站 点 恢复 了 或 修复 好 了 ， 还 需要 有 一 定 的 机 制 来 将 它 平滑 地 重新 集 
成 到 系统 中 。 

虽然 分 布 式 系统 的 故障 恢复 比 集中 式 系统 更 复杂 ， 但 分 布 式 系统 中 即使 一 个 站 点 发 生 了 故障 ， 系 
统 的 绝 大 部 分 还 能 继续 运行 ， 这 一 能 力 使 系统 的 可 用 性 大 大 增强 。 对 用 于 实时 应 用 的 数据 库 系统 来 说 ， 
可 用 性 是 至 关 重 要 的 。 例 如 ， 如 果 不 能 对 航班 数据 进行 访问 ， 将 导致 潜在 的 机 票 购买 者 流失 到 竞争 对 
手 那里 去 了 。 

17.4.1 分 布 式 数据 库 示 例 

考虑 一 个 银行 系统 ， 它 有 4 家 支行 ， 位 于 4 个 不 同 的 城市 。 每 家 支行 有 自己 的 计算 机 ， 有 维护 该 
分 行 所 有 账户 的 数据 库 。 每 个 这 样 的 配置 称 作 一 个 站 点 。 另 外 还 有 一 个 站 点 维护 关于 该 银行 的 所 有 支 
行 信息 。 

为 说 明 站 点 上 两 类 事务 的 差异 ( 局 部 的 和 全 局 的 ) ,考虑 如 下 事务 : 给 位 于 Valleyview 支行 的 账户 
A-177 中 增加 50 美元 。 如 果 在 Valleyview 支行 发 起 该 事务 ， 那 么 它 是 一 个 局 部 事务 ; 否则 ， 它 就 是 一 
个 全 局 事务 。 将 50 美元 从 账户 A-177 转 到 Hillside 支行 中 的 账户 A-305 的 事务 是 一 个 全 局 事务 ， 因 为 
事务 的 执行 要 访问 两 个 不 同 站 点 上 的 账户 。 
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在 一 个 理想 化 的 分 布 式 数据 库 系 统 中 ， 站 点 将 共享 一 个 公共 的 全 局 模式 (尽管 有 些 关 系 可 能 只 存 
放 在 其 中 某 些 站 点 上 )， 所 有 站 点 运行 相同 的 分 布 式 数据 库 管理 软件 ， 而 且 各 个 站 点 互相 知道 对 方 的 存 
在 。 如 果 从 头 开 始 创建 一 个 分 布 式 数据 库 ， 它 确实 有 可 能 达到 上 述 目 标 。 然 而 ， 现 实 中 分 布 式 数据 库 
需要 通过 连接 多 个 已 存在 的 数据 库 系统 来 构造 ， 每 个 数据 库 都 有 自己 的 模式 而 且 可 能 运行 不 同 的 数据 
库 管理 软件 。 这 样 的 系统 有 时 称 作 多 数据 库 系 统 (multidatabase system ) 或 异 构 分 布 式 数据 库 系 统 
(heterogeneous distributed database system), 19.8 节 将 讨论 这 些 系统 ， 给 出 在 作为 组 成 成 分 的 各 个 系统 
异 构 的 情况 下 ， 如 何 达 到 一 定 程度 的 全 局 控制 。 

17. 4.2 实现 问题 

在 构建 分 布 式 数据 库 系 统 时 ， 事务 的 原子 性 是 个 重要 问题 。 如 果 一 个 事务 在 两 个 站 点 上 运行 ， 除 
非 系 统 设计 者 非常 小 心 ， 否 则 它 可 能 在 一 个 站 点 上 提交 而 在 另 一 个 站 点 上 中 止 ， 导 致 不 一 致 状态 。 一 
些 事 务 提交 协议 确保 这 种 情况 不 会 出 现 。 两 阶段 提交 (Two-Phase Commit, 2PC ) 协 议 是 这 些 协议 中 应 用 
最 广泛 的 协议 。 

2PC 的 基本 思想 是 每 个 站 点 将 事务 执行 到 部 分 提交 状态 ， 然 后 将 提交 决定 权 交 给 一 个 单独 的 协调 
站 点 ， 事 务 这 一 时 刻 在 该 站 点 上 称 为 处 于 准备 状态 。 仅 当 该 事务 在 每 个 执行 它 的 站 点 上 均 达 到 准备 状 
态 时 ， 协 调 站 点 才 决 定 提 交 该 事务 。 和 否则 (例如 ， 如 果 事 务 在 任 一 个 站 点 上 中 止 ) ， 协 调 站 点 会 决定 中 
止 该 事务 。 每 个 执行 该 事务 的 站 点 必须 遵循 协调 站 点 的 决定 。 如 果 当 事务 处 于 准备 状态 时 一 个 站 点 发 
生 故 障 ， 当 该 站 点 从 故障 状态 恢复 时 它 必须 处 于 一 个 状态 一 一 提交 或 中 止 该 事务 ， 这 取决 于 协调 站 点 
的 决定 。2PC 协议 将 在 19. 4. 1 节 详 细 描 述 。 

并 发 控制 是 分 布 式 数据 库 的 另 一 个 问题 。 由 于 一 个 事务 可 以 访问 分 布 在 几 个 站 点 上 的 数据 项 ， 因 
此 这 几 个 站 点 上 的 事务 管理 器 可 能 需要 协调 以 实现 并 发 控制 。 如 果 用 到 锁 ( 现实 中 经 常会 遇 到 的 ) ， 则 
可 以 在 包含 被 访问 数据 项 的 站 点 上 局 部 地 执行 封锁 ， 然 而 可 能 会 发 生 涉 及 由 多 个 站 点 发 起 的 事务 的 死 
锁 。 所 以 死 锁 检测 必须 跨越 多 个 站 点 。 分 布 式 系统 中 更 容易 发 生 故 障 ， 因 为 不 仅仅 是 计算 机 可 能 出 现 
故障 ， 而 且 通 信和 链 路 也 可 能 发 生 故 障 。 当 故障 发 生 时 ， 数 据 项 的 复制 是 分 布 式 数 据 库 继续 运转 的 关键 
可 是 复制 使 得 并 发 控制 更 加 复杂 。19. 5 节 提 供 有 关 分 布 式 数据 库 中 并 发 控制 的 详细 介绍 。 

基于 单个 程序 单元 执行 多 个 动作 的 标准 事务 模型 ， 常 常 不 适合 执行 跨越 多 个 数据 库 边界 的 任务 ， 
这 些 数 据 库 不 能 或 不 打算 合作 实现 诸如 2PC 那样 的 协议 。 有 另 一 种 方法 通常 用 于 这 类 任务 ， 其 他 基于 
用 于 通信 的 持久 消息 (persisient messaging) (用 于 通信 ) 的 方法 一 般 用 于 这 类 任务 中 。 持 久 消息 在 19.4. 3 
节 进 行 讨论 。 

当 要 执行 的 任务 很 复杂 ， 涉 及 多 个 数据 库 和 /或 与 人 有 多 次 交互 时 ,任务 的 协调 以 及 为 任务 确保 事 
务 的 属性 就 变 得 更 加 复杂 。 工 作 流 管理 系统 (workflow management system) 就 是 为 执行 这 类 任务 而 设计 
的 。26. 2 节 讲 述 了 工作 流 管理 系统 。 

当 某 个 组 织 机 构 为 了 实现 一 个 应 用 而 必须 在 分 布 式 体系 结构 和 集中 式 体 系 结构 之 间 做 出 选择 时 ， 
系统 架构 师 必 须 平衡 将 数据 进行 分 布 的 优点 和 缺点 。 我 们 已 经 看 到 使 用 分 布 式 数 据 库 的 优点 。 分 布 式 
数据 库 系统 的 主要 缺点 是 为 保证 各 站 点 间 的 正确 协作 而 增加 的 复杂 性 。 这 种 增加 的 复杂 性 表现 为 几 种 
ÉR: 

© 软件 开发 代价 ( software-development cost) 。 实 现 一 个 分 布 式 数据 库 系 统 要 更 加 困难 ， 因 此 ， 代 价 

更 高 。 
。 更 大 的 出 错 可 能 性 ( greater potential for bug) 。 由 于 构成 分 布 式 系 统 的 各 个 站 点 并 行 地 运行 ， 因 





此 更 难以 保证 算法 的 正确 性 ， 尤 其 是 当 系统 的 一 部 分 发 生 故障 时 的 运行 ， 以 及 从 故障 中 的 恢 [787 


复 。 有 可 能 存在 非常 微妙 的 错误 。 
。 增加 的 处 理 开销 (increased processing overhead) 。 消 息 的 交换 以 及 为 了 达到 站 点 间 的 协作 而 需要 
的 附加 计算 ， 这 些 是 集中 式 系统 中 所 没有 的 开销 。 
分 布 式 数据 库 设计 的 方法 有 好 几 种 ， 可 以 是 完全 分 布 式 设计 ， 也 可 以 是 有 很 大 限度 集中 的 设计 
我 们 将 在 第 19 章 学 习 这 些 方 法 。 
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17.5 网 络 类 型 


分 布 式 数据 库 和 客户 - 服务 器 系统 的 建立 都 以 通信 网 络 为 基础 。 有 两 种 基本 的 网 络 类 型 : 局 域 网 
(local-area network ) 和 广域网 ( wide-area network)。 两 者 的 主要 区 别 在 于 它们 的 地 理 分 布 方式 不 同 。 局 域 
网 由 在 小 的 地 理 范围 (例如 单个 建筑 物 或 几 个 相 邻 的 建筑 物 ) 内 分 布 的 若干 处 理 器 构成 。 相 反 ， 广 域 网 
由 大 的 地 理 范围 (例如 全 美国 或 全 世界 ) 内 分 布 的 许多 自治 的 处 理 器 构成 。 这 些 差 别 意味 着 通信 网 络 的 
速度 和 可 靠 性 方面 的 显著 差异 ， 并 且 也 反映 到 分 布 式 操作 系统 的 设计 中 。 


17.5.1 局 域 网 

局 域 网 ( Local-Area network, LAN) ( 见 图 17-10) 作 为 计算 机 之 间 互 相通 信和 和 共享 数据 的 一 种 方式 ， 
出 现 于 20 世纪 70 年 代 初 期 。 人 们 意识 到 ， 对 于 许多 企业 来 说 ,使 用 大 量 的 小 计算 机 ， 每 台 计 算 机 上 
有 它 自 己 的 独立 应 用 ， 比 使 用 单个 大 系统 要 更 经 济 。 由 于 每 台 小 计算 机 都 可 能 需要 访问 全 套 的 外 围 设 
备 ( 例 如 磁盘 和 打印 机 ) ， 又 由 于 在 一 个 企业 中 可 能 需要 某 种 形式 的 数据 共享 ， 因 此 很 自然 地 要 把 这 些 
小 系统 连接 成 一 个 网 络 。 





打印 机 笔记 本 电脑 文件 服务 器 
图 17-10 局 域 网 


LAN 一 般 用 于 办 公 室 环境 中 。 在 这 种 系统 中 所 有 站 点 之 间距 离 都 很 近 ， 因 此 其 通信 链接 的 速度 比 
广域网 高 ， 而 且 错误 率 比 广域网 低 。 局 域 网 中 最 常用 的 链接 是 双 绞 线 、 同 轴 电 缆 、 光 纤 以 及 无 线 连接 。 
通信 速度 从 每 秒 几 十 GB( 例如 无 线 局 域 网 ) ， 到 每 秒 1GB 的 10 亿 比特 以 太 网 。 最 新 以 太 网 的 标准 
是 10GB, 

存储 区 域 网 ( Storage-Area Network, SAN) 是 为 连接 大 型 存储 设备 (磁盘 ) 与 使 用 数据 的 计算 机 ( 见 图 
17-11) 而 设计 的 一 种 特殊 类 型 的 高 速 局 域 网 。 

因而 存储 区 域 网 有 助 于 构建 大 规模 共享 硬盘 系统 (shared-disk system) 。 使 用 存储 区 域 网 把 多 个 计算 

788 | 机 连接 到 大 型 存储 设备 的 动机 和 使 用 共享 硬盘 的 数据 库 本 质 上 是 一 样 的 ， 即 : 
-g0 。 可 通过 增加 更 多 的 计算 机 来 扩展 规模 。 

。 高 可 用 性 ， 因 为 即使 一 台 机 器 发 生 故障 ， 数 据 仍然 可 访问 。 

在 存储 设备 中 使 用 的 RAID 组 织 是 为 了 确保 数据 的 高 可 用 性 ， 即 使 单 张 磁盘 发 生 故 障 ， 数 据 处 理 
也 可 以 继续 。 存 储 区 域 网 构建 时 常常 会 有 宛 余 ， 例 如 站 点 间 有 多 条 通路 ， 因 此 如 果 网 络 的 一 部 分 ( 比如 
链 路 或 者 连接 ) 发 生 故障 ， 网 络 功能 仍 能 继续 。 
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图 17-11 存储 区 域 网 


17.5.2 广域网 

广域网 ( Wide-Area Network，WAN ) 出 现在 20 世纪 60 年 代 后 期 ， 主 要 作为 一 个 学 术 研 究 项 目 ， 提 
供 站 点 间 的 高 效 通信 ， 使 得 大 范围 的 用 户 能 够 方便 并 且 经 济 地 共享 硬件 和 软件 。 在 20 世纪 60 年 代 初 
期 开发 了 能 够 通过 电话 线路 将 远程 终端 连接 到 中 央 计 算 机 的 系统 ,但 是 这 不 是 真正 的 WAN。 阿 由 网 
(Arpanet) 是 设计 和 开发 的 第 一 个 广域网 ， 阿 帕 网 的 工作 始 于 1968 年 ， 现 在 阿 帕 网 已 经 从 一 个 包括 4 个 
站 点 的 试验 性 网 络 成 长 为 一 个 世界 范围 的 网 络 一 一 因特网 ( Intemet) ， 它 包括 数 亿 的 计算 机 系统 。 因 特 
网 上 典型 的 连接 是 光纤 线路 ， 有 时 是 卫星 信道 。 典 型 的 广 域 链 路 的 数据 传输 率 的 范围 从 每 秒 几 MB 到 
每 秒 几 百 GB。 链 路 的 末端 (终端 用 户 站 点 ) 传统 上 采用 最 慢 的 链 路 ,通常 基于 数字 用 户 环线 (Digital 
Subscriber Line，DSL) 技 术 ( 支 持 每 秒 几 MB) ， 或 者 是 基于 固定 电话 线路 的 拨号 调制 解 调 器 连接 (最 高 
支持 每 秒 Kb) 。 现 在 典型 的 链 路 未 端 是 电缆 调制 解 调 器 或 光纤 连接 (它们 各 自 支持 每 秒 几 十 MB) ， 或 
者 支持 每 秒 几 MB 的 无 线 连接 。 

除了 数据 传输 率 的 限制 外 ， 在 WAN 中 的 通信 还 必须 克服 巨大 的 延迟 (latency) : 在 世界 范围 内 传输 
一 条 消息 可 能 要 用 几 百 毫秒 的 时 间 ， 这 既是 由 于 光 传输 的 延迟 ， 也 是 由 于 消息 传播 路 径 上 各 个 路 由 的 
队列 等 待 延 迟 。 设 计数 据 和 计算 资源 在 地 理 上 分 布 的 应 用 时 必须 非常 小 心 ， 以 避免 这 些 延 迟 过 度 地 影 
响 系 统 性 能 。 

WAN 可 以 划分 为 两 种 类 型 ; 

o 非 持 续 连 接 (discontinuous connection) 的 WAN， 例 如 基于 移动 无 线 连接 的 WAN， 主 机 只 是 在 部 

分 的 时 间 里 与 网 络 相 连接 。 

© 持续 连接 ( continuous connection) HJ WAN, 例如 有 线 因 特 网 ， 主 机 在 所 有 时 间 内 都 与 网 络 相 

连接 。 

非 持续 连接 的 网 络 通常 不 允许 跨 站 点 的 事务 ， 但 是 可 以 保持 远程 数据 的 本 地 副本 ， 并 且 周 期 性 地 
(例如 每 天 夜间 ) 刷 新 这 些 副 本 。 对 于 那些 一 致 性 要 求 不 是 特别 强 的 应 用 ， 例 如 文档 共享 系统 、Lotus 
Notes 之 类 的 组 件 系统 ， 人 允许 在 本 地 对 远程 数据 进行 更 新 ， 然 后 再 周期 性 地 将 更 新 传播 回 远程 站 点 。 有 
可 能 在 不 同 站 点 上 发 生 更 新 冲突 ， 需 要 检测 到 这 种 冲突 并 加 以 解决 。 后 面 在 25. 5. 4 节 中 会 描述 一 种 检 
测 更 新 冲突 的 机 制 ， 然 而 解决 更 新 冲突 的 机 制 依赖 于 不 同 的 应 用 。 


17.6 总 结 


。 集中 式 数 据 库 系统 完全 运行 在 单 台 计 算 机 上 。 随 着 个 人 计算 机 和 局 域 网 的 发 展 ， 数 据 库 前 端 功能 不 
断 地 移 向 客户 机 ， 而 后 端 功能 由 服务 器 系统 提供 。 客 户 -服务 器 接口 协议 推动 了 客户 -服务 器 数据 


库 系 统 的 发 展 。 
。 服务 器 可 以 是 事务 服务 器 ， 也 可 以 是 数据 服务 器 。 尽 管 在 提供 数据 库 服务 方面 ， 事 务 服务 器 的 使 用 
大 大 超过 数据 服务 器 的 使 用 。 


O 事务 服务 器 有 多 个 进程 ， 可 能 运行 在 多 个 处 理 器 上 。 所 以 这 些 进程 要 访问 公共 数据 ， 比 如 数 
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据 库 缓冲 区 ， 系 统 将 这 些 数 据 存 放 在 共享 内 存 中 。 除 了 处 理 查询 的 进程 ， 还 有 执行 诸如 锁 和 
日 志 管理 以 及 检查 点 等 任务 的 系统 进程 。 
O 数据 服务 器 系统 提供 给 用 户 的 是 未 加 工 的 数据 。 这 样 的 系统 通过 把 数据 和 锁 高 速 缓存 在 客户 
端 ,来 努力 使 客户 端 和 服务 器 之 间 的 通信 最 小 化 。 并 行 数据 库 系统 使 用 类 似 的 优化 。 
并 行 数据 库 系 统 由 通过 高 速 互 连 网 络 连接 在 一 起 的 多 台 处 理 器 和 多 张 硬盘 构成 。 加 速 比 衡量 通 
过 增加 并 行 性 可 以 得 到 的 对 单个 事务 的 处 理 速度 的 增长 。 扩 展 比 衡量 通过 增加 并 行 性 可 以 得 到 
的 处 理 大 量 事务 的 能 力 。 干 扰 、 偏 斜 和 启动 代价 是 得 到 理想 的 加 速 比 和 扩展 比 的 障碍 。 
并 行 数据 库 体系 结构 包括 共享 内 存 、 共 享 硬盘 、 无 共享 以 及 层次 的 体系 结构 。 这 些 体系 结构 在 
可 扩展 性 以 及 通信 速度 方面 各 有 千秋 。 
分 布 式 数据 库 系 统 是 部 分 独立 的 一 组 数据 库 系 统 ， 它 们 共享 一 个 公共 模式 (理想 情况 下 ) ， 并 且 
协调 地 处 理 访问 非 本 地 数据 的 事务 。 系 统 之 间 通 过 通信 网 络 来 相互 通信 。 
局 域 网 连接 分 布 在 小 的 地 理 范 围 内 的 结 点 ， 比 如 连接 单个 建筑 或 几 个 相 邻 建筑 。 广 域 网 连接 分 
布 在 大 的 地 理 范围 内 的 结 点 。 现 在 Internet 是 使 用 最 广泛 的 广域网 。 
存储 区 域 网 是 一 种 特殊 形式 的 局 域 网 ， 是 为 大 型 存储 设备 和 多 台 计 算 机 之 间 提 供 快 速 互 连 而 设 
计 的 。 

































































术语 回顾 
。 集中 式 系统 口 收回 D 共享 内 存 
。 服务 器 系统 e 并 行 系统 共享 硬盘 (集群 ) 
© 粗 粒度 并 行 。 FE D 无 共享 
。 细 粒 度 并 行 。 响应 时 间 口 层次 的 
。 数据 库 进程 结构 。 加 速 比 。 容错 性 
5 HJF D 线性 加 速 比 。 分 布 式 虚拟 存储 器 
。 线程 O 亚 线性 加 速 比 。 非 一 致 性 内 存 体 系 结构 
© 服务 器 进程 。 扩展 比 (NUMA) 
口 锁 管 理 进 程 线性 扩展 比 © 分 布 式 系统 
数据 库 写 进程 口 亚 线性 扩展 比 。 分 布 式 数 据 库 
口 日 志 写 进程 口 批量 型 扩展 比 O 站 点 ( 结 点 ) 
O 检查 点 进程 口 事务 型 扩展 比 o 局 部 事务 
口 进程 监视 进程 。 启动 代价 口 全 局 事务 
。 客户 -服务 器 系统 。 干 扰 局 部 自治 性 
。 查询 服务 器 。 ingt 。 多 数据 库 系 统 
。 数据 服务 器 。 互连网 络 。 网 络 类 型 
口 预 读 取 口 总 线 o 局 域 网 ( LAN) 
口 逐步 降级 口 网 格 O 广域网 (WAN) 
口 数据 高 速 缓冲 存储 口 超 立方 体 口 存储 局 域 网 (SAN) 
D 缓存 一 致 性 。 并 行 数 据 库 体 系 结构 
D 锁 高 速 缓冲 存储 
实践 习题 


17. 1 


17.2 


将 共享 结构 存储 在 一 个 专用 进程 的 本 地 内 存 中 ， 而 不 是 存储 在 共享 内 存 中 ， 通 过 与 该 进程 间 的 
通信 存 取 共享 数据 。 这 种 体系 结构 的 缺陷 是 什么 ? 
在 典型 的 客户 -服务 器 系统 中 ,服务器 机 器 比 客户 机 的 能 力 要 强 得 多 。 也 就 是 说 ， 其 处 理 器 速 


17.6 
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17.12 


17. 13 


17. 14 


17. 15 
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度 更 快 ， 可 能 有 多 个 处 理 器 ， 有 更 大 的 内 存 和 磁盘 容量 。 请 考虑 另外 一 种 设想 ， 其 中 客户 机 和 
服务 器 机 器 能 力 相 同 。 构 建 这 样 一 个 客户 - 服务 器 系统 有 意义 吗 ? 为 什么 ? 哪 一 种 设想 更 适合 
于 数据 服务 器 体系 结构 ? 

考虑 一 个 基于 客户 - 服务 器 体系 结构 的 数据 库 系 统 ， 其 服务 器 是 一 个 数据 服务 器 。 

a. 客户 和 服务 器 间 的 互 连 速度 对 于 选择 是 进行 元 组 传送 还 是 进行 页 面 传送 有 什么 影响 ? 

b. 如 果 采 用 页 面 传送 ， 数 据 在 客户 端的 高 速 缓存 可 以 组 织 成 元 组 缓存 或 者 页 面 缓存 。 页 面 缓存 
以 页 面 为 单位 存储 数据 ， 而 元 组 缓存 以 元 组 为 单位 存储 数据 。 假设 元 组 比 页 面 小 ， 请 描述 元 组 
缓存 比 页 面 缓存 优越 的 一 个 地 方 。 

假设 一 个 事务 是 将 SQL HRA BIC 中 书写 的 ， 大 约 80% 的 时 间 花 在 运行 SQL 代码 上 , 剩余 20%% 的 
时 间 花 在 运行 C 代码 上 。 如 果 仅 仅 对 SQL 代码 实施 并 行 ， 那 么 可 以 期 望 得 到 多 大 的 加 速 比 ?” 说 
明理 由 。 

一 些 数据 库 操作 ， 比 如 连接 操作 ， 在 数据 (例如 ， 连 接 涉 及 的 其 中 一 个 关系 表 中 的 数据 ) 是 存放 
在 内 存 中 或 者 不 是 存放 在 内 存 中 这 两 种 情况 下 ,会 出 现 速 度 上 的 明显 差异 。 请 说 明 这 个 事实 如 
何 解 释 了 超 线性 加 速 比 (superlinear speedup) 现象 ， 这 里 一 个 应 用 程序 的 加 速 比 高 于 分 配给 它 的 
资源 数量 的 增长 。 

并 行 系统 通常 有 这 样 的 网 络 结构 :多 个 包含 n 个 处 理 器 的 集合 连接 到 单个 以 太 网 交换 机 上 ， 而 
这 些 以 太 网 交换 机 本 身 又 连接 到 男 一 台 以 太 网 交换 机 上 。 这 个 架构 是 否 相 当 于 总 线 、 网 格 或 超 
立方 体 架 构 ? 如 果 不 ， 你 会 如 何 描述 这 种 互 连 架构 ? 


如 果 不 需要 对 单个 查询 进行 并 行 化 ,为 什么 将 数据 库 系 统 从 单 处 理 器 机 器 移植 到 多 处 理 器 机 器 
相对 比较 容易 ? 

对 于 处 理 短 事务 的 客户 - 服务 器 关系 数据 库 ， 常 采用 事务 服务 器 体系 结构 。 而 对 于 处 理 较 长 事 
务 的 面向 对 象 数据 库 系统 ， 常 采用 数据 服务 器 体系 结构 。 请 给 出 两 条 理由 ,解释 为 什么 数据 服 
务 器 适合 于 面向 对 象 数据 库 而 不 适合 于 关系 数据 库 。 

什么 是 锁 逐 步 降级 ? 什么 情况 下 需要 锁 逐 步 降 级 ? 为 什么 当 数 据 传送 的 单位 是 数据 项 时 不 需要 
锁 逐 步 降级 ? 

假设 你 负责 一 个 公司 的 数据 库 的 运行 ， 主 要 任务 是 处 理事 务 。 假 设 该 公司 每 年 都 在 迅速 增长 ， 
大 到 使 得 公司 当前 的 计算 机 系统 已 不 再 适用 。 当 你 选择 一 台新 的 并 行 计算 机 时 ， 你 最 关注 加 速 
比 、 批 量 型 扩展 比 ， 还 是 事务 型 扩展 比 ? Ara? 

典型 的 数据 库 系 统 由 一 组 共享 一 个 共享 内 存 区 域 的 进程 (或 线程 ) 实现 。 

a 如何 控制 对 于 共享 内 存 区 域 的 存 取 ? 

b. 两 阶段 锁 协 议 适 用 于 串 行 化 访问 共享 内 存 中 的 数据 结构 吗 ? 请 解释 你 的 答案 。 

人 允许 用 户 进程 访问 数据 库 系 统 的 共享 内 存 区 域 是 否 明智 ? 请 解释 你 的 答案 。 

在 事务 处 理 系 统 中 ， 对 于 线性 加 速 比 起 负面 影响 的 有 哪些 因素 ? 对 于 共享 内 存 、 共 享 硬盘 、 无 
共享 这 几 种 体系 结构 中 的 每 一 种 ， 分 别 说 明 哪 个 因素 可 能 是 最 重要 ? 

内 存 系统 可 以 分 为 多 个 模块 ， 在 一 个 特定 时 刻 ， 每 个 模块 可 以 处 理 一 个 独立 的 请 求 。 这 种 存储 
架构 会 对 共享 内 存 系统 所 支持 的 处 理 器 数量 产生 什么 影响 ? 

考虑 一 个 银行 ， 它 有 若干 站 点 ， 每 个 站 点 运行 一 个 数据 库 系统 。 假 设 这 些 数据 库 之 间 唯 一 的 交 
互 方式 是 利用 持久 消息 进行 电子 转账 ， 这 样 的 系统 称 得 上 是 分 布 式 数据 库 吗 ?为 什么 ? 


文献 注解 


Hennessy 等 [2006 ] 对 计算 机 架构 领域 提供 了 极 好 的 介绍 ，Abadil 2009 | 提供 了 对 云 计算 和 在 该 环境 
中 运行 数据 库 事务 所 面临 的 挑战 的 非常 好 的 介绍 。 
Gray 和 Reuter[ 1993 ] 是 一 本 描述 事务 处 理 的 教科 书 ， 包 括 对 客户 - 服务 器 体系 结构 和 分 布 式 系统 
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的 描述 。 第 5 章 的 文献 注解 提供 了 有 关 ODBC、JDBC 以 及 其 他 数据 库 访问 API 的 更 多 信息 的 参考 文献 。 
DeWitt 和 Gray[ 1992 ] 对 并 行 数据 库 系统 进行 了 综述 ， 包 括 其 体系 结构 和 性 能 度量 。Duncan[ 1990 | 
对 并 行 计 算 机 体系 结构 进行 了 综述 。Dubois 和 Thakkar[ 1992 ] 是 一 本 关于 可 伸缩 共享 内 存 体系 结构 的 文 
集 。 运 行 着 Rdb 的 DEC 集群 是 共享 磁盘 数据 库 体 系 结构 的 早期 商业 用 户 之 一 。Rdb 现在 属于 Oracle, 
命名 为 Oracle Rdb。Teradata 数据 库 机 器 是 最 早 使 用 无 共享 数据 库 体 系 结构 的 商用 系统 之 一 。Grace 和 
Gamma 研究 原型 也 使 用 了 无 共享 体系 结构 。 
Ozsu 和 Valduriez[ 1999 ] 是 介绍 分 布 式 数据 库 系统 的 教科 书 。 关 于 并 行 和 分 布 式 数 据 库 系统 的 进 一 
步 的 参考 文献 在 第 18 章 和 第 19 章 的 文献 注解 中 分 别 列 出 。 
794 Comer[ 2009 ] 、Halsall[ 2006 | 和 Thmoas [ 1996 ] 描述 了 计算 机 网 络 和 互联 网 。Tanenbaum|[ 2002 | 、 
ae Kurose 和 Ross[ 2005 | , Peterson 和 Davie[ 2007 | 对 计算 机 网 络 进行 了 一 般 性 概述 。 
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并 行 数据 库 


本 章 讨 论 基 于 关系 数据 模型 的 并 行 数据 库 系统 所 使 用 的 基本 算法 。 特 别 地 ， 我 们 将 重点 放 在 多 张 
磁盘 上 的 数据 放置 ， 以 及 关系 运算 的 并 行 实现 的 评估 上 。 它 们 两 个 对 于 一 个 并 行 数据 库 的 成 功 是 有 帮 
助 的 。 


18.1 引言 


二 十 多 年 前 ， 并行 数据 库 系统 几乎 一 度 被 全 部 否定 ， 其 至 一 些 最 坚定 的 拥护 者 都 不 再 支持 它 。 但 
是 今天 ， 每 一 个 数据 库 系 统 供应 商都 成 功 地 打开 了 并 行 数据 库 产 品 的 市 场 。 以 下 几 种 趋势 促成 了 这 一 
转变 : 

。 随 着 计算 机 的 大 量 使 用 ， 企 业 组 织 的 事务 需求 增长 了 。 而 且 ， 万 维 网 的 发 展 创造 了 许多 拥有 数 
以 百 万 计 浏览 者 的 站 点 。 从 这 些 浏览 者 收集 来 的 越 来 越 多 的 数据 为 许多 公司 产生 了 特别 庞大 的 
数据 库 。 
企业 组 织 正 使 用 这 些 不 断 增长 的 大 量 数据 (例如 有 关 用 户 所 购买 的 商品 ， 用 户 所 点 击 的 Web 链 
接 ， 以 及 用 户 打 电话 的 时 间 这 些 方面 的 数据 ) ， 来 计划 市 场 行为 和 定价 。 用 于 这 种 目的 的 查询 
称 作 决 策 支 持 查询 (decision-support query) ， 而 这 样 的 查询 所 需要 的 数据 量 可 能 高 达 TB 级 。 单 
处 理 器 系统 无 法 按 所 需 速度 处 理 如 此 大 量 的 数据 。 

。 数据 库 查 询 的 面向 集合 特性 很 自然 地 将 自身 引 向 并 行 化 。 许 多 商品 化 和 研究 性 系统 已 经 证 明了 

并 行 查询 处 理 的 能 力 和 可 扩展 性 。 

© 随 着 微 处 理 器 价格 的 下 降 ， 并 行 机 器 已 变 得 很 普遍 ， 而 且 价格 并 不 昂贵 。 

。 各 独立 处 理 器 也 可 以 利用 多 核 架 构 来 将 其 转化 为 并 行 机 器 。 

正如 第 17 章 所 讨论 的 ， 并 行 性 用 来 提供 加 速 比 ， 即 由 于 提供 了 更 多 的 诸如 处 理 器 和 磁盘 那样 的 资 
源 ， 查 询 可 以 执行 得 更 快 。 并 行 性 还 用 来 提供 扩展 比 ， 即 通过 增 大 并 行 度 来 处 理 更 大 的 工作 负载 ， 而 
无 须 延 长 响应 时 间 。 

我 们 在 第 17 章 列举 了 并 行 数据 库 系统 的 几 种 不 同体 系 结构 : 共享 内 存 、 共 享 磁盘 、 无 共享 和 层次 
的 体系 结构 。 简 单 地 说 ， 在 共享 内 存 体系 结构 中 ， 所 有 处 理 器 共享 一 个 公共 的 主 存储 器 和 磁盘 ; 在 共 
享 磁盘 体系 结构 中 ， 各 处 理 器 有 自己 独立 的 主 存储 器 ， 但 共享 公共 的 磁盘 ; 在 无 共享 的 体系 结构 中 ， 
处 理 器 间 既 不 共享 主 存储 器 ， 也 不 共享 磁盘 ; 而 层次 的 体系 结构 含有 多 个 结 点 ， 这 些 结 点 间 既 不 共享 
主 存储 器 ， 也 不 共享 磁盘 ， 但 是 每 个 结 点 在 内 部 是 共享 内 存 或 共享 磁盘 的 体系 结构 。 


18.2 I/O 并 行 


MO 347 (1/0 parallelism) 最 简单 的 形式 是 指 通过 将 关系 划分 到 多 张 磁盘 上 来 缩减 从 磁盘 上 对 关系 
进行 检索 所 需 的 时 间 。 并 行 数据 库 环境 中 数据 划分 最 通用 的 形式 是 水 平分 区 ， 在 水 平分 区 (horizontal 
partitioning) 中 ， 关 系 中 的 元 组 划分 (或 分 散 ) 到 多 张 磁盘 上 ， 使 得 每 个 元 组 驻 留 在 一 张 磁盘 上 。 人 们 已 
经 提出 了 好 几 种 划分 策略 。 
18.2.1 划分 技术 

我 们 介绍 三 种 基本 的 数据 划分 策略 。 假 定 要 把 数据 划分 到 n 张 磁盘 Da, Di, =, D, E 

© 轮转 法 (round-robin) 。 该 策略 对 关系 进行 任意 顺序 的 扫描 ; 将 第 i 个 元 组 送 到 标号 为 D,,, 的 磁 
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盘 上 。 轮 转 模式 保证 了 元 组 在 多 张 磁盘 上 的 平均 分 布 ， 即 每 张 磁盘 上 具有 大 致 相同 数目 的 


元 组 。 
e 散 列 划分 (hash partitioning) 。 这 种 分 散 策 略 将 给 定 关 系 模式 中 的 一 个 或 多 个 属性 指定 为 划分 属 
性 。 选 定 一 个 值 域 为 10, 1, =, 和 -1| 的 散 列 函数 。 原 始 关系 的 每 个 元 组 基于 划分 属性 进行 散 


列 。 如 果 散 列 函 数 返回 i， 则 把 该 元 组 放 到 磁盘 D, Eo 7 

© 范围 划分 ( range partitioning)。 这 种 策略 给 每 张 磁盘 分 配 具 有 连续 属性 值 范围 的 元 组 。 它 选 定 一 
个 划分 属性 A 和 一 个 划分 向 量 ( partitioning vector) [ vo, vi, °°, 0,2]: Ai<j, Wo, <vo MRA 
进行 如 下 划分 : 考虑 元 组 :， 它 满足 :[4] =x。 如 果 x<v,， 则 将 1 放置 在 磁盘 D, 中 ; 如 果 xe 
v2， 则 将 t 放 到 磁盘 D, a P; WR <x <w,;， 则 将 1 放 到 磁盘 D;,, 中 。 
例如 ， 在 标号 为 0、1、2 的 三 张 磁盘 上 进行 范围 划分 ， 可 能 将 属性 值 小 于 5 的 元 组 分 配 到 磁盘 0， 
属性 值 在 5 ~ 40 之 间 的 元 组 分 配 到 磁盘 1， 将 属性 值 大 于 40 的 元 组 分 配 到 磁盘 2 
18.2.2 划分 技术 比较 
一 旦 将 一 个 关系 划分 到 多 张 磁盘 上 ， 我 们 就 可 以 使 用 所 有 磁盘 来 对 它 进 行 并 行 检索 。 同 样 ， 当 对 
一 个 关系 进行 了 划分 ， 就 可 以 并 行 地 将 它 写 到 多 张 磁盘 上 。 因 此 ， 有 LO 并 行 与 没有 VO 并 行 相 比 ， 
读 或 写 整个 关系 的 传输 速度 要 快 得 多 。 然 而 ， 读 取 整 个 关系 ， 或 扫描 一 个 关系 ， 仅 是 访问 数据 的 一 种 
方式 。 数 据 访问 可 以 分 类 如 下 : 
1. 扫描 整个 关系 。 
2. 按 相关 性 定位 元 组 ，( 例 如，employee_name = “Campbell” ) 。 这 种 查询 称 作 点 查询 ( point query), 
它 寻 找 在 特定 属性 上 取 特 定 值 的 元 组 。 
3. 定位 出 给 定 属 性 取 值 处 于 指定 范围 内 的 所 有 元 组 ，( 例 如 ，10 000 < salary <20 000) ， 这 种 查询 
称 作 范围 查询 (range query) 。 
不 同 划分 技术 支持 这 些 访 问 类 型 的 效率 是 不 同 的 : 
© 轮转 法 (round-robin) 。 这 种 模式 非常 适合 于 希望 对 每 个 查询 顺序 地 读 整 个 关系 的 应 用 。 若 采用 
这 种 模式 ， 点 查询 和 范围 查询 的 处 理 都 很 复杂 ， 因 为 n 张 磁盘 全 都 要 用 于 查找 。 

© 散 列 划分 (hash partitioning) 。 这 种 模式 最 适合 于 基于 划分 属性 的 点 查询 。 例 如 ， 如 果 一 个 关系 
基于 telephone_number 属性 进行 划分 ， 那 么 我 们 可 以 通过 将 划分 用 的 散 列 函数 作用 到 555 - 3333 
上 ， 然 后 查找 该 磁盘 来 回答 “ 找 出 telephone_number =555 -3333 的 职工 记录 ”的 查询 。 将 查询 对 
应 到 单 张 磁盘 节省 了 在 多 张 磁盘 上 初始 化 查询 的 启动 代价 ， 并 且 使 得 其 他 磁盘 空闲 下 来 以 处 理 
其 他 查询 。 

散 列 划分 对 于 顺序 扫描 整个 关系 也 有 用 。 如 果 散 列 函 数 是 一 个 很 好 的 随机 化 函数 ， 并 且 划 分 属性 
构成 关系 的 码 ， 那 么 每 张 磁盘 上 的 元 组 数目 就 会 大 致 相同 ， 不 会 有 太 大 差异 。 因 此 ， 扫 描 关 系 所 需 的 
时 间 大 致 就 是 在 单个 磁盘 系统 中 扫描 关系 所 需 时 间 的 1/n。 

然而 ， 这 种 模式 不 能 很 好 地 适用 于 非 划分 属性 上 的 点 查询 。 基 于 散 列 的 划分 也 不 能 很 好 地 回答 范 
围 查询 ， 因 为 一 般 说 来 ， 散 列 函数 不 保持 一 个 范围 内 的 互相 临近 。 因 此 ， 回 答 范 围 查询 需要 扫描 所 有 
磁盘 。 

© 范围 划分 (range partitioning)。 这 种 模式 很 适合 于 在 划分 属性 上 的 点 查询 和 范围 查询 。 对 于 点 查 

询 ， 我 们 可 以 参考 划分 向 量 来 定位 元 组 所 在 的 磁盘 。 对 于 范围 查询 ， 我 们 参考 划分 向 量 来 找 出 
元 组 可 能 驻 留 的 磁盘 范围 。 在 这 两 种 情况 下 ， 查 询 范围 都 缩小 到 那些 正好 可 能 含有 任何 感 兴趣 
元 组 的 磁盘 上 。 

这 种 特性 的 优点 是 ， 如 果 查 询 范 围 内 只 有 少量 元 组 ， 那 么 一 般 说 来 查询 只 会 发 送 给 一 张 磁盘 ， 而 
不 是 发 送 给 所 有 的 磁盘 。 因 为 可 以 将 其 他 磁盘 用 于 回答 其 他 查询 ， 所 以 范围 划分 在 具有 较 好 的 响应 时 
间 的 同时 还 获得 了 更 高 的 吞吐 量 。 另 一 方面 ， 如 果 查 询 范 围 内 有 许多 元 组 ( 当 查询 范围 占 关系 域 的 较 大 
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比例 时 会 是 这 样 ) ， 那 么 就 会 有 许多 元 组 必须 从 少量 磁盘 中 检索 出 来 ， 导 致 这 些 磁盘 上 的 VO 瓶颈 ( 热 
KA) 。 在 这 种 执行 偏 斜 (execution skew) 的 例子 中 ， 所 有 的 处 理发 生 在 一 个 或 少数 几 个 分 区 中 。 相 反 ， 
对 于 这 样 的 查询 ， 散 列 分 布 和 轮转 法 划分 会 用 到 所 有 的 磁盘 ， 在 具有 几乎 同样 吞吐 量 的 同时 提供 了 更 
快 的 响应 时 间 。 

划分 类 型 还 影响 到 其 他 关系 运算 ， 例 如 连接 ,我 们 将 在 18. 5 节 讨 论 。 因 此 ， 划 分 技术 的 选择 也 依 
赖 于 需要 执行 的 运算 。 一 般 而 言 ， 更 倾向 于 使 用 散 列 划分 和 范围 划分 ， 而 不 是 轮转 法 划分 。 

在 拥有 许多 磁盘 的 系统 中 ， 可 以 用 如 下 方法 来 确定 要 把 一 个 关系 划分 到 多 少 张 磁盘 上 : 如 果 关 系 
仅 包 含 少量 元 组 ， 在 一 张 磁盘 块 中 就 能 放下 ， 那 么 最 好 将 该 关系 放 到 单 张 磁盘 中 。 大 型 关系 更 倾向 于 
划分 到 所 有 可 用 的 磁盘 上 。 如 果 一 个 关系 包括 m 张 磁盘 块 ， 而 系统 中 有 nn 张 磁盘 可 用 ， 那 么 应 该 给 这 
个 关系 分 配 min(m，n) 张 磁盘 。 

18.2.3 偏 斜 处 理 

当 划 分 一 个 关系 时 (采用 不 是 轮转 法 的 其 他 技术 ) ， 元 组 的 分 布 有 可 能 发 生 偏 斜 (skew) ， 即 某 些 分 
区 中 放置 了 很 高 百分比 的 元 组 ， 而 其 他 分 区 中 只 有 很 少 的 元 组 。 偏 斜 可 能 的 表现 形式 分 类 如 下 : 

© 属性 值 偏 斜 。 

。 划分 偏 斜 。 

属性 值 偏 斜 ( attribute-value skew) 指 的 是 某 些 值 出 现在 许多 元 组 的 划分 属性 中 。 在 划分 属性 上 取 相 
同 值 的 所 有 元 组 落 入 同一 分 区 中 ， 从 而 导致 了 偏 斜 。 划 分 偏 斜 (partition skew) 指 的 是 这 样 的 事实 : 即使 [800] 
不 存在 属性 值 偏 斜 ， 划 分 也 可 能 会 出 现 负 载 不 均衡 。 

不 管 采 用 范围 划分 还 是 采用 散 列 划分 ， 属 性 值 偏 斜 都 会 导致 划分 偏 斜 。 如 果 没 有 仔细 选择 好 划分 
向 量 ， 那 么 范围 划分 会 导致 划分 偏 斜 。 如 果 散 列 函 数 选 得 好 ， 那 么 散 列 划分 导致 划分 偏 斜 的 可 能 性 
就 小 。 

在 17.3.1 节 中 已 经 谈 到 ， 即 使 很 小 的 偏 斜 也 可 能 导致 性 能 的 显著 降低 。 随 着 并 行 度 的 提高 ， 偏 斜 
变 成 了 更 加 严重 的 问题 。 例 如 ， 如 果 将 一 个 具有 1000 个 元 组 的 关系 分 成 10 个 部 分 ， 并 且 这 个 划分 是 
偏 余 的， 那么 就 会 出 现 一 些 分 区 内 的 元 组 数 小 于 100 ， 而 一 些 分 区 内 的 元 组 数 大 于 100。 即 使 碰巧 只 有 
一 个 分 区 内 的 元 组 数 是 200， 那 么 我 们 并 行 存 取 这 些 分 区 所 能 得 到 的 加 速 比 将 只 能 是 5， 而 不 是 我 们 所 
期 望 的 10。 如 果 将 同样 的 关系 分 成 100 个 部 分 ， 每 个 分 区 平均 含有 10 个 元 组 。 如 果 有 一 个 分 区 内 的 元 
组 数目 达到 40( 这 是 有 可 能 的 ， 因 为 分 区 的 数量 很 大 ) ， 那 么 我 们 并 行 访问 这 些 元 组 所 能 得 到 的 加 速 比 
就 是 25， 而 不 是 100。 因 此 ,我 们 看 到 了 随 着 并 行 度 的 增 大 ， 由 于 偏 斜 而 导致 的 加 速 比 的 损失 也 增 大 。 

平衡 的 范围 划分 向 量 ( balanced range-partitioning vector) 可 以 通过 排序 的 方法 来 构建 : 首先 将 关系 按 
划分 属性 进行 排序 ， 然 后 对 关系 用 排序 顺序 进行 扫描 。 每 读 过 该 关系 的 1/n， 就 将 下 一 个 元 组 的 划分 
属性 值 加 入 划分 向 量 。 这 里 , 表示 要 创建 的 分 区 数量 。 在 许多 元 组 都 在 划分 属性 值 上 取 相 同 值 的 情 
况 下 ， 这 种 技术 仍然 会 导致 某 种 偏 斜 。 这 种 方法 的 主要 缺点 是 做 初始 排序 所 带 来 的 额外 的 IO 开销 。 

通过 为 每 个 关系 的 每 个 属性 创建 和 存储 该 属性 
值 的 频率 表 或 直方 图 (histogram) ， 可 以 降低 由 于 构 ai 
建 平衡 的 范围 划分 向 量 而 产生 的 IO 开销 。 图 18-1 40 
是 一 个 取 值 范围 在 1 ~ 25 之 间 的 整 型 值 属性 的 直方 
图 。 由 于 直方 图 只 占用 很 少 的 空间 ， 因 此 几 个 不 同 紧 
属性 上 的 直方 图 可 以 存储 在 系统 目录 中 。 给 定 划分 20 





30 





属性 上 的 直方 图 ， 可 以 直接 构造 出 平衡 的 范围 划分 

函数 。 如 果 没 有 存储 直方 图 ， 可 以 通过 对 关系 进行 i 

采样 来 近似 地 计算 出 来 。 计 算 时 仅 使 用 来 自 该 关系 

的 磁盘 块 中 随机 选取 的 子 集中 的 元 组 。 ve ae Fee eee alla 


另 一 种 使 偏 斜 的 影响 达到 最 小 的 方法 是 使 用 虚 
处 理 器 ， 特 别 是 针对 范围 划分 带 来 的 偏 斜 。 在 虚 处 18-1 直方 图 示例 
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理 器 ( virtual processor) 方 法 中 ,我 们 假设 存在 比 实际 处 理 器 数量 多 好 几 售 的 大 量 虚 处 理 器 。 我 们 可 以 使 
用 本 章 后 面 要 学 习 到 的 任意 划分 技术 以 及 查询 求 值 技术 ， 但 是 需要 将 元 组 和 操作 映射 到 虚 处 理 器 ， 而 
不 是 实际 的 处 理 器 。 然 后 再 将 虚 处 理 器 依次 映射 回 实际 的 处 理 器 ， 这 一 般 通过 轮转 法 划分 来 实现 。 

这 种 方法 的 思想 是 : 即使 由 于 偏 斜 使 得 在 一 个 范围 内 有 上 比 其 他 范围 更 多 的 元 组 ， 这 些 元 组 也 将 划 
分 到 多 个 虚 处 理 器 范围 上 。 轮 转 法 将 虚 处 理 器 分 配 到 实际 的 处 理 器 ， 这 样 就 将 额外 的 工作 分 布 到 多 个 
实际 的 处 理 器 中 ， 以 便 一 个 处 理 器 不 必 承 担 所 有 的 负担 。 


18. 3 查询 间 并 行 


在 查询 间 并 行 (interquery parallelism) 中 ， 不 同 查询 或 事务 彼此 并 行 地 执行 。 这 种 形式 的 并 行 可 以 
提高 事务 否 吐 量 。 然 而 ， 单 个 事务 的 响应 时 间 不 会 比 事务 以 隔离 方式 运行 时 更 快 。 因 此 ， 查 询 间 并 行 
的 主要 用 处 是 扩展 事务 处 理 系统 ， 使 它 在 每 秒 钟 内 能 支持 更 大 数量 的 事务 。 

查询 间 并 行 是 数据 库 系 统 中 最 容易 支持 的 一 种 并 行 形式 ， 特 别 是 在 共享 内 存 的 并 行 系统 中 。 为 单 
处 理 器 系统 设计 的 数据 库 系统 可 以 不 做 改动 或 者 做 很 少 的 改动 ， 就 能 用 到 共享 内 存 的 并 行 体系 结构 中 ， 
因为 即使 在 串 行 的 数据 库 系统 中 也 支持 并 行 处 理 。 在 串 行 机 器 中 以 分 时 并 发 方式 运行 的 多 个 事务 在 共 
享 内 存 的 并 行 体 系 结构 中 将 以 并 行 的 方式 运行 。 

在 共享 磁盘 或 无 共享 的 体系 结构 中 支持 查询 间 并 行 要 更 为 复杂 。 各 处 理 器 必须 以 一 种 协同 的 方式 
来 执行 某 些 任务 ， 例 如 封锁 和 日 志 ， 这 就 需要 它们 互相 之 间 传 送 消息 。 并 行 数 据 库 系 统 还 必须 保证 两 
个 处 理 器 不 会 同时 独立 更 新 相同 的 数据 。 而 且 ， 当 一 个 处 理 器 访问 或 更 新 数据 时 ， 数 据 库 系统 必须 保 
证 该 处 理 器 在 它 的 缓冲 池 中 拥有 该 数据 的 最 新 版 本 。 确 保 版 本 是 最 新 的 问题 称 作 高 速 缓存 一 致 性 
( cache-coherency ) 问题 。 

多 种 协议 可 用 于 保证 高 速 缓存 一 致 性 ; 通常 将 高 速 缓存 一 致 性 协议 与 并 发 控制 协议 集成 在 一 起 ， 
以 减 小 它们 的 开销 。 用 于 共享 磁盘 系统 中 的 一 个 这 样 的 协议 如 下 : 

1. 事务 对 一 个 页 面 进行 任何 读 或 写 访 问 之 前 ， 先 用 相应 的 共享 或 排他 模式 封锁 该 页 面 。 一 旦 事务 
获得 了 页 面 的 共享 锁 或 排他 锁 后 ， 它 立刻 从 共享 磁盘 中 读 取 该 页 面 的 最 新 版 本 。 

2. 在 事务 释放 一 个 页 面 的 排他 锁 之 前 ， 它 将 该 页 面 刷新 到 共享 磁盘 中 ， 然 后 释放 封锁 。 

这 个 协议 保证 ， 当 事务 对 页 面 设置 共享 锁 或 排他 锁 时 ， 它 能 得 到 该 页 面 的 正确 版 本 。 

更 复杂 的 协议 避免 了 上 述 协 议 所 需要 的 对 磁盘 的 重复 读 写 。 这 样 的 协议 在 释放 排他 锁 时 并 不 将 页 
面 写 到 磁盘 上 。 当 事务 获得 共享 锁 或 排他 锁 时 ， 如 果 页 面 的 最 新 版 本 在 某 个 处 理 器 的 缓冲 池 中 ， 事 务 
就 从 该 缓冲 池 中 获得 该 页 面 。 设 计 这 种 协议 必须 考虑 到 对 并 发 请 求 的 处 理 。 对 于 共享 磁盘 协议 可 按 如 
下 方案 扩充 以 适用 于 无 共享 的 体系 结构 : 每 个 页 面 有 一 个 本 地 处 理 器 (home processor) P; ， 并 存储 在 磁 
盘 D, 中 。 当 其 他 处 理 器 想 对 页 面 进行 读 写 时 ， 由 于 它们 不 能 与 页 面 所 在 的 磁盘 直接 通信 ， 它 们 将 请 求 
发 给 该 页 面 的 本 地 处 理 器 P;， 其 他 动作 与 共享 磁盘 协议 中 的 一 样 。 

Oracle 和 Oracle Rdb 系统 是 支持 查询 间 并 行 的 共享 磁盘 并 行 数据 库 系统 的 实例 。 


18.4 ”查询 内 并 行 


查询 内 并 行 (intraquery parallelism) 指 的 是 单个 查询 在 多 个 处 理 器 和 磁盘 上 并 行 执行 。 对 于 加 快运 
行 时 间 长 的 查询 的 速度 ， 采 用 查询 内 并 行 非常 重要 。 查 询 间 并 行 对 这 样 的 任务 没有 帮助 ， 因 为 每 个 查 
询 还 是 串 行 运行 的 。 

为 了 说 明 查 询 的 并 行 计算 ,考虑 一 个 要 求 对 关系 进行 排序 的 查询 。 假 设 该 关系 已 经 基于 某 个 属性 
通过 范围 划分 到 多 张 磁盘 上 ， 并 且 要 进行 的 排序 是 基于 划分 属性 的 。 排 序 运 算 可 以 这 样 实现 : 对 每 个 
分 区 并 行 排序 ， 然 后 将 排 好 序 的 各 个 分 区 连接 在 一 起 ， 得 到 最 终 排 好 序 的 关系 。 

因此 ， 我 们 可 以 通过 并 行 地 执行 各 个 运算 来 使 一 个 查询 并 行 化 。 还 有 另外 一 个 对 单个 查询 进行 并 
行 计算 的 来 源 : 一 个 查询 的 运算 符 树 可 能 包含 多 个 运算 。 我 们 可 以 对 其 中 某 些 互 不 依赖 的 运算 并 行 地 
执行 ， 从 而 使 运算 符 树 的 计算 并 行 化 。 而 且 ， 正 如 第 12 章 所 提 到 的 ， 我们 可 以 采用 流水 线 方式 ， 将 一 
个 运算 的 输出 传送 给 另 一 个 运算 ， 这 两 个 运算 可 以 在 各 自 的 处 理 器 上 并 行 地 执行 ， 一 个 运算 正在 生成 
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的 输出 (甚至 在 输出 生成 的 同时 ) 供 另 一 个 运算 使 用 。 
总 的 来 说 ， 单 个 查询 的 执行 可 以 有 两 种 不 同 的 并 行 化 方式 : 
© 操作 内 并 行 (intraoperation parallelism) 。 我 们 可 以 通过 并 行 地 执行 每 个 运算 ， 如 排序 、 选 择 、 投 
影 和 连接 ， 来 加 快 一 个 查询 的 处 理 速度 。18. 5 节 将 讨论 操作 内 并 行 。 
© 操作 间 并 行 (interoperation parallelism) 。 我 们 可 以 通过 并 行 地 执行 一 个 查询 表达 式 中 的 多 个 不 同 
的 运算 ， 来 加 快 一 个 查询 的 处 理 速度 。18. 6 节 将 讨论 这 种 并 行 形式 。 

这 两 种 并 行 形式 是 互相 补充 的 ， 并 可 以 同时 应 用 在 一 个 查询 中 。 因 为 通常 一 个 查询 中 的 运算 数目 
与 每 个 运算 所 处 理 的 元 组 数目 相 比 是 很 小 的 ， 所 以 当 并 行 度 增 大 时 ， 第 一 种 形式 取得 的 效果 更 佳 。 然 
而 ， 由 于 当前 一 般 并 行 系统 中 处 理 器 的 数目 相对 较 小 ， 因 此 两 种 并 行 形式 都 是 重要 的 。 

在 下 面 关 于 查询 的 并 行 化 讨论 中 ,我 们 假设 查询 是 只 读 (read only) 的 。 并 行 查询 计算 的 算法 选择 
依赖 于 机 器 的 体系 结构 。 在 描述 中 ， 我 们 采用 无 共享 的 体系 结构 模式 ， 而 不 对 每 种 体系 结构 都 分 别 给 
出 算法 。 因 此 ， 我 们 显 式 地 给 出 什么 时 候 需 要 将 数据 从 一 个 处 理 器 传送 到 另 一 个 处 理 器 。 我 们 可 以 很 
容易 地 通过 采用 其 他 体系 结构 来 模拟 这 种 模式 ， 因 为 在 共享 内 存 体系 结构 中 ， 数 据 的 传送 可 以 通过 共 
享 内 存 来 进行 ; 在 共享 磁盘 体系 结构 中 ， 数 据 的 传送 可 以 通过 共享 磁盘 来 进行 。 因 此 ， 用 于 无 共享 体 
系 结构 的 算法 也 可 以 应 用 到 其 他 体系 结构 中 。 有 时 候 我 们 会 提 到 ， 在 共享 内 存 或 共享 磁盘 的 系统 中 可 
以 如 何 进一步 对 算法 进行 优化 。 

为 了 简化 算法 表述 ,假定 有 个 处 理 器 P,，P,,…, Pi, Mn RER D, D,, ，…, D,_,， 其 中 磁盘 
D, 是 与 处 理 器 P, 关联 的 。 实 际 系统 中 每 个 处 理 器 可 能 有 多 块 磁盘 。 将 该 算法 扩展 到 允许 每 个 处 理 器 有 
多 张 磁盘 并 不 困难 : 我 们 只 须 让 D, 是 一 组 磁盘 就 行 了 。 然 而 ， 为 表示 简单 起 见 ， 我 们 在 此 假定 D, 是 单 
块 磁盘 。 


18.5 操作 内 并 行 


由 于 关系 运算 在 包含 大 量 元 组 集合 的 关系 上 进行 ， 因 此 我 们 可 以 通过 在 关系 的 不 同 子 集 上 并 行 地 
执行 来 实现 运算 的 并 行 化 。 由 于 一 个 关系 中 元 组 的 数目 可 以 很 大 ， 因 此 潜在 的 并 行程 度 也 很 大 。 因 此 ， 
在 数据 库 系统 中 操作 内 并 行 是 自然 的 。18. 5. 1 ~ 18.5.3 节 将 研究 一 些 常用 的 关系 运算 的 并 行 版 本 。 
18. 5. 1 “并 行 排序 

假设 我 们 希望 对 存放 在 n 张 磁盘 D., D,, …, D,_, 上 的 一 个 关系 进行 排序 。 如 果 该 关系 已 经 进行 了 
范围 划分 ， 并 且 划 分 属性 正 是 排序 要 基于 的 属性 ， 那 么 ， 正 如 18. 2. 2 节 所 提 到 的 ， 我们 可 以 分 别 对 每 
个 分 区 进行 排序 ， 然 后 把 各 个 排序 结果 连接 起 来 ， 得 到 完全 排 好 序 的 关系 。 由 于 元 组 划分 到 n 张 磁盘 
中 ， 因 此 通过 并 行 存 取 减少 了 读 取 整个 关系 所 需要 的 时 间 。 

如 果 关 系 是 按 任意 其 他 方式 划分 的 ， 我 们 可 以 采用 下 述 方法 之 一 来 对 其 排序 : 

1. 按 排序 属性 对 它 进行 范围 划分 ， 然 后 分 别 对 各 个 分 区 排序 。 

2. 采用 外 部 排序 - 归并 算法 的 并 行 版 本 。 

18.5.1.1 范围 划分 排序 

范围 划分 排序 (range-partitioning sort) 可 分 为 两 步 来 进行 : 首先 对 关系 进行 范围 划分 ， 然 后 分 别 对 
每 个 分 区 进行 排序 。 当 对 关系 采用 范围 划分 的 方法 进行 排序 时 ， 没 有 必要 将 关系 范围 划分 到 它 所 存放 
的 那些 处 理 器 集合 或 者 磁盘 集合 上 。 假 设 我 们 选择 处 理 器 Po, Pi, …, P, (其 中 m <n) 来 对 关系 进行 排 
序 。 排 序 运算 中 涉及 两 个 步 又 : 

1. 采用 范围 划分 策略 对 关系 中 的 元 组 进行 重新 分 布 ， 使 得 处 于 第 i 个 范围 的 所 有 元 组 都 发 送 给 处 
理 器 P,， 它 将 关系 临时 存放 在 磁盘 D; 中 。 

为 了 实现 范围 划分 ， 每 个 处 理 器 并 行 地 从 它 的 磁盘 上 读 取 元 组 ， 并 将 这 些 元 组 发 送 到 它们 的 目的 
处 理 器 。 每 个 处 理 器 Po, Pi, +, P, 也 都 会 接收 到 属于 其 分 区 的 那 部 分 元 组 ， 并 且 在 本 地 存储 这 些 元 
组 。 这 一 步 需 要 磁盘 IO 和 通信 开销 。 

2. 每 个 处 理 器 在 本 地 对 关系 中 属于 自己 的 分 区 进行 排序 ， 不 与 其 他 处 理 器 交互 。 每 个 处 理 器 在 不 
同 的 数据 集 上 执行 相同 的 运算 ， 即 排序 。 在 不 同 的 数据 集 上 并 行 地 执行 相同 的 运算 称 作 数据 并 
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行 (data parallelism) 。 

最 后 的 合并 运算 非常 简单 ， 因 为 开始 阶段 的 范围 划分 就 保证 了 对 于 1<i<j<m， 处 理 器 P, 中 的 码 
值 全 都 小 于 处 理 器 P, 中 的 码 值 。 

我 们 必须 使 用 一 个 好 的 范围 划分 向 量 来 进行 范围 划分 ， 这 样 每 个 分 区 中 的 元 组 数目 就 会 大 致 相同 。 
也 可 以 使 用 虚 处 理 器 划分 来 减少 偏 斜 。 

18. 5.1.2 并 行 的 外 部 排序 归并 

除了 范围 划分 外 ， 另 外 一 种 替代 方法 是 并 行 的 外 部 排序 归并 ( parallel external sort-merge ) 。 假 设 关 
系 已 经 划分 到 磁盘 De ，Di。…，D, | 中，( 对 关系 进行 怎样 的 划分 无 关 紧 要 )。 并 行 的 外 部 排序 归并 按 
如 下 步骤 进行 : 

1. 每 个 处 理 器 P, 在 本 地 对 磁盘 忆 中 的 数据 进行 排序 。 

2. 然后 ， 系 统 对 每 个 处 理 器 已 排 好 序 的 归并 段 进 行 合并 ， 得 到 最 终 的 排序 输出 。 

第 2 步 中 对 已 排序 归并 段 的 合并 可 以 按 下 述 动作 序列 并 行 执行 : 

1. 系统 将 每 个 处 理 器 已 排 好 序 的 分 区 范围 划分 (都 采用 相同 的 划分 向 量 ) 到 处 理 器 Po, Pi, ，…， 
P, 中。 系统 用 排序 顺序 发 送 元 组 使 得 每 个 处 理 器 接收 的 都 是 排 好 序 的 元 组 流 。 

2. 每 个 处 理 器 P, 在 接收 到 元 组 流 时 进行 归并 ， 得 到 一 个 的 排 好 序 的 归并 段 。 

3. 系统 将 处 理 器 Py, Pi, ，…,，P。, 中 排 好 序 的 归并 段 串 接 起 来 ， 得 到 最 终结 果 。 

如 上 所 述 的 动作 序列 导致 一 种 有 趣 的 执行 偏 斜 (execution skew ) 形 式 ， 因 为 一 开始 每 个 处 理 器 都 把 
分 区 0 中 的 所 有 块 发 送 到 户 ， 然 后 每 个 处 理 器 把 分 区 1 中 的 所 有 块 发 送 到 已 ， 依 此 类 推 。 因 此 ， 在 并 
行 发 送 的 时 候 ， 元 组 的 接收 却 变 成 了 串 行 的 : 首先 只 有 P, 接收 元 组 ， 接 着 只 有 P, 接收 元 组 ， 依 此 类 
推 。 为 了 避免 这 个 问题 ， 每 个 处 理 器 都 重复 地 向 每 个 分 区 发 送 一 个 数据 块 。 换 句 话 说， 每 个 处 理 器 发 
送 每 个 分 区 的 第 一 个 数据 块 ， 然 后 发 送 每 个 分 区 的 第 二 个 数据 块 ， 依 此 类 推 。 其 结果 是 ， 所 有 处 理 器 
都 会 并 行 地 接收 数据 。 

有 些 机 器 ， 例 如 Teradata Purpose-Built Platform Family 机 ， 采 用 专门 的 硬件 来 执行 归并 。Teradata 机 
器 中 的 内 连 网 BYNET 可 以 归并 来 自 多 个 处 理 器 的 输出 ， 以 得 到 单个 排 好 序 的 输出 。 

18.5.2 并行 连接 

连接 运算 需要 系统 测试 元 组 对 ， 看 它们 是 否 满足 连接 条 件 ; 如 果 满 足 ， 系 统 就 把 该 元 组 对 加 到 连 
接 的 输出 中 。 并 行 连接 算法 设法 将 这 些 待 检测 的 元 组 对 划分 到 多 个 处 理 嚣 上， 然后 每 个 处 理 器 在 本 地 
计算 部 分 连接 。 于 是 ， 系 统 从 各 个 处 理 器 收集 结果 ， 以 产生 最 终结 果 。 

18.5.2.1 基于 划分 的 连接 

对 于 某 些 类 型 的 连接 ， 例 如 等 值 连接 和 自然 连接 ， 可 以 将 两 个 输入 关系 划分 到 多 个 处 理 器 上 ， 并 
在 每 个 处 理 器 上 计算 本 地 的 连接 。 假 定 我 们 使 用 n 个 处 理 器 ， 要 连接 的 关系 是 + 和 ss。 基于 划分 的 连接 
( partitioned join) 以 这 样 的 方式 工作 : 系统 将 关系 上 > 和、 分 
别 分 成 元 个 分 区 ; CA Tas Tis tts Tene Soa S05 5 Sore 
系统 将 划分 和 si 送 到 处 理 器 P;， 并 在 本 地 进行 其 连接 
计算 。 

只 有 在 连接 是 等 值 连接 (例如 ,rm,，-,s5) 而 且 使 用 在 
它们 的 连接 属性 上 同样 的 划分 函数 对 关系 rA s 进行 划分 
的 情况 下 ， 基 于 划分 的 连接 技术 才能 正确 工作 。 划 分 的 思 
想 与 散 列 连接 的 划分 步骤 的 思想 完全 一 样 。 然 而 ， 在 基于 
划分 的 连接 中 ， 有 两 种 不 同 的 划分 + 和 s 的 方法 : 

。 基于 连接 属性 进行 范围 划分 。 

。 基于 连接 属性 进行 散 列 划分 。 

不 管 采用 何 种 划分 ， 都 必须 对 两 个 关系 使 用 相同 的 划 
分 函数 。 对 于 范围 划分 ， 两 个 关系 所 采用 的 划分 向 量 必须 7 
相同 。 对 于 散 列 划分 ， 两 个 关系 所 使 用 的 散 列 函数 必须 相 图 18-2 基于 划分 的 并 行 连接 
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同 。 图 18-2 描述 了 基于 划分 的 并 行 连接 中 所 采用 的 划分 方法 。 

一 旦 对 关系 进行 了 划分 ， 我 们 就 可 以 在 每 个 处 理 器 P, 上 采用 任意 一 种 连接 技术 在 本 地 计算 r FAs, 
的 连接 。 例 如 ， 散 列 连接 、 归 并 连接 或 嵌 套 循环 连接 都 可 以 使 用 。 因 此 ， 我 们 可 以 采用 划分 的 方法 使 
任何 连接 技术 并 行 化 。 

如 果 关 系 r 和 s 中 有 一 个 或 两 个 已 经 基于 连接 属性 进行 了 划分 (通过 散 列 划分 或 范围 划分 ) ， 那 么 
划分 所 需 做 的 工作 就 大 大 减少 了 。 如 果 关 系 没有 进行 划分 ， 或 者 不 是 基于 连接 属性 进行 的 划分 ， 那 么 
就 需要 对 元 组 进行 重新 划分 。 每 个 处 理 器 P, 读 人 磁盘 D, 中 的 元 组 ， 对 于 每 个 元 组 上， 计算 出 它 所 属 的 
分 区 j， 并 把 元 组 上 发 送 给 处 理 器 已 ， 处 理 器 P 将 元 组 存放 到 磁盘 D Eo 

通过 将 某 些 元 组 放 在 内 存 的 缓冲 区 中 ， 而 不 是 写 到 磁盘 中 ， 可 以 减少 WO， 从 而 优化 每 个 处 理 器 
本 地 使 用 的 连接 算法 。18. 5. 2. 3 节 描 述 这 样 的 优化 。 

当 采 用 范围 划分 时 ， 偏 斜 就 表现 为 一 个 特殊 的 问题 ， 因 为 将 参与 连接 的 一 个 关系 划分 为 同等 大 小 
的 分 区 的 划分 向 量 可 能 将 男 一 个 关系 划分 为 大 小 差异 很 大 的 分 区 。 划 分 向 量 应 该 使 |7,|+ |s, |( 即 7 和 
si 的 大 小 之 和 ) 对 于 所 有 的 i=0, 1,…, 2-1 大 臻 相等。 如果 散 列 函数 选 得 好 ， 散 列 划 分 可 能 具有 更 小 
的 偏 斜 ， 除 非 有 许多 元 组 在 连接 属性 上 取 相 同 的 值 。 

18.5.2.2 分 片 -复制 连接 

划分 并 非 对 所 有 类 型 的 连接 都 适用 。 例 如 ， 如 果 连 接 条 件 是 一 个 不 等 式 ， 如 rm,,.,,;s， 那么 有 可 
fE r 中 的 所 有 元 组 与 中 的 某 些 元 组 相连 接 ( 反 之 亦 然 )。 因 此 ， 可 能 没有 一 种 容易 地 划分 r+ 和 的 方 
法 ， 使 得 分 区 r 中 的 元 组 只 与 分 区 si 中 的 元 组 相连 接 。 

我 们 可 以 采用 一 种 称 作 分 片 -复制 的 技术 来 并 行 地 执行 这 种 连接 。 首 先 考虑 分 片 -复制 的 一 种 特 
殊 情况 : 非 对 称 的 分 片 -复制 连接 (asymmetric fragment-and-replicate join) ， 其 工作 方法 如 下 : 

1. 系统 对 其 中 一 个 关系 ， 例 如 r>， 进 行 划分 。 任 何 一 种 划分 技术 可 以 用 在 关系 > 上 ,包括 轮转 
法 划分 。 

2. 系统 将 另 一 个 关系 * 复制 到 所 有 的 处 理 器 上 。 

3. 然后 ， 处 理 器 P; 采用 任何 一 种 连接 技术 在 本 地 计算 =: 和 整个 * 的 连接 。 

非 对 称 的 分 片 - 复制 模式 如 图 18-3a 所 示 。 如 果 r 已 经 是 经 过 划分 存储 的 ， 则 不 必 执 行 第 1 步 的 划 
分 ， 只 须 将 ; 复制 到 所 有 处 理 器 上 就 可 以 了 。 
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分 片 -复制 连接 (fragment-and-replicate join) 的 一 般 情况 如 图 18-3b 所 示 ， 其 工作 方式 如 下 : 系统 将 
关系 7 划分 为 个 分 区 元, 7 ,…, 7,-!， 并 将 关系 :划分 为 mn 个 分 区 56, si ，…, 5,-1。 同 前 面 一 样 ， 对 7 
Als 可 以 采用 任意 的 划分 技术 。m 入 的 值 不 必 相 等 ， 但 它们 值 的 选择 必须 保证 至 少 有 m *n 个 处 理 
器 。 非 对 称 的 分 片 和 复制 是 一 般 的 分 片 和 复制 的 一 种 特殊 情况 ， 即 m=1, 与 非 对 称 的 分 片 和 复制 相 
比 ， 分 片 和 复制 减 小 了 每 个 处 理 器 上 关系 的 规模 。 

设 处 理 器 标记 为 Poo, Po, a Put , Pios alg eae 处 理 器 P, 计算 T; 和 Sj 的 连接 。 每 个 处 
理 器 必须 得 到 它 所 处 理 的 分 区 中 的 那些 元 组 ， 为 了 做 到 这 一 点 ， 系 统 将 7; 复制 到 处 理 器 Pog, 已 ，，…， 
P, n- (这 形成 了 图 18-3b 中 的 一 行 ) ， 并 将 s: 复制 到 处 理 器 Poi, Pi;,…, P,_1.;( 这 形成 了 图 18-3b 中 的 
一 列 ) 。 在 每 个 处 理 器 已 ,上 可 以 采用 任何 一 种 连接 技术 。 

对 于 任何 连接 条 件 都 可 以 采用 分 片 和 复制 方法 ， 因 为 r 中 的 每 个 元 组 都 能 与 中 的 每 个 元 组 对 应 进 
行 检测 。 所 以 ， 在 不 能 采用 基于 划分 的 连接 的 情况 下 可 以 采用 这 种 方法 。 

当 两 个 关系 的 规模 基本 相同 时 ， 分 片 和 复制 连接 的 代价 通常 比 基 于 划分 的 连接 要 高 ， 因 为 分 片 - 
复制 连接 必须 至 少 要 复制 其 中 的 一 个 关系 。 然 而 ， 如 果 其 中 一 个 关系 (例如 s) 很 小 ， 那 么 将 s 复制 到 所 
有 处 理 器 上 可 能 比 基 于 连接 属性 对 > 和 进行 划分 代价 要 小 。 在 这 种 情况 下 ， 即 使 能 够 采用 基于 划分 的 
连接 ， 也 最 好 采用 非 对 称 的 分 片 和 复制 连接 。 

18. 5.2.3 基于 划分 的 并 行 散 列 连接 

808 12. 5.5 节 所 讲 的 基于 划分 的 散 列 连接 可 以 并 行 地 执行 。 假 设 有 个 处 理 器 P,P,…, Paa AR 
809| 两 个 关系 +r 和 s, rA s 被 划分 到 多 张 磁盘 中 。 回 忆 12. 5.5 节 ， 应 该 选用 较 小 的 关系 作为 建立 散 列 表 的 
关系 。 如 果 s 的 规模 比 r 小， 那么 并 行 的 散 列 连接 算法 按 如 下 步骤 执行 : 

L 选择 一 个 散 列 函数 ， 例 如 h,， 它 取得 r 和 s 中 每 个 元 组 的 连接 属性 的 值 ， 并 将 元 组 映射 到 个 
处 理 器 中 的 一 个 。 令 7, 表示 关系 7 中 映射 到 处 理 器 P, 上 的 元 组 ; Ah, Ss, 表示 关系 :中 映射 到 处 
Sige 已 上 的 元 组 。 每 个 处 理 器 P, 读 取 * 中 位 于 其 磁盘 D, 上 的 元 组 ， 并 基于 散 列 函数 h, 将 每 个 元 组 发 
送 到 适当 的 处 理 器 上 。 

2. 当 目 的 处 理 器 P, 接收 到 s; 的 元 组 时 ， 它 用 另 一 个 散 列 函数 h, 对 它们 作 进 一 步 划 分 ， 处 理 器 用 
该 散 列 函 数 在 本 地 计算 散 列 连接 。 这 一 步 的 划分 与 串 行 的 散 列 连接 算法 的 划分 阶段 完全 一 样 。 每 个 处 
Hir 已 在 执行 这 个 步骤 时 与 其 他 处 理 器 完全 独立 。 

3. 一 旦 将 s 的 元 组 进行 了 分 布 之 后 ， 系 统 采用 与 前 面相 同 的 方法 ， 通 过 散 列 函数 h 将 较 大 的 关系 
r 在 nn 个 处 理 器 上 进行 重新 分 布 。 目 的 处 理 器 在 接收 到 每 个 元 组 时 ， 用 散 列 函数 h, 对 它 进行 重新 划分 ， 
就 像 串 行 散 列 连接 算法 中 对 探查 关系 的 划分 一 样 。 

4. 每 个 处 理 器 P, XI rA s 的 本 地 分 区 r; Als, 上 执行 散 列 连接 算法 的 创建 和 探查 过 程 ， 产 生 散 列 连 
接 最 终结 果 的 一 个 分 区 。 

每 个 处 理 器 上 的 散 列 连接 与 其 他 处 理 器 之 间 是 相互 独立 的 ， 并 且 接 收 7; 和 s; 的 元 组 类 似 于 从 磁盘 
中 读 取 这 些 元 组 。 因 此 ,第 12 章 描 述 的 散 列 连接 的 任何 一 种 优化 也 都 可 以 应 用 于 并 行 的 情况 。 特 别 
地 ， 我 们 可 以 采用 混合 式 散 列 连接 算法 ， 将 某 些 输入 元 组 缓存 在 内 存 中 ， 从 而 避免 将 它们 写 出 以 及 再 
读 人 的 代价 。 

18.5.2.4 HITREM 

为 了 阐明 基于 分 片 -复制 并 行 化 的 使 用 ， 考 虑 关系 * 比 关系 小 得 多 的 情况 。 假 设 关系 上 是 采用 划 
分 的 方式 存储 的 ， 其 基于 划分 的 属性 是 无 关 紧 要 的 。 还 假设 在 关系 7 的 每 一 个 分 区 上 存在 关系 7 在 连接 
属性 上 的 一 个 索引 。 

我 们 采用 非 对 称 的 分 片 和 复制 方法 ， 将 关系 * 进行 复制 ， 并 利用 关系 7 现 有 的 分 区 。 存 放 关 系 ， 分 
区 的 每 个 处 理 器 P, 读 取 存 放 在 D, 上 的 关系 中 的 元 组 ， 并 将 这 些 元 组 复制 到 其 余 的 每 个 处 理 器 已 中 。 
在 这 个 阶段 的 最 后 ， 关 系 s 被 复制 到 存放 关系 7 的 元 组 的 所 有 站 点 中 。 

现在 ， 每 个 处 理 器 P, 对 关系 s 和 关系 7 的 第 i 个 分 区 进行 索引 髓 套 循 环 连接 。 我 们 可 以 将 索引 嵌 套 

循环 连接 与 对 关系 * 的 元 组 划分 重 和 到 起 来 做 ， 从 而 减少 将 关系 * 的 元 组 写 到 磁盘 、 再 读 出 来 的 代价 。 然 
m, RAs 的 复制 必须 与 连接 同步 ， 从 而 在 每 个 处 理 器 P; 的 内 存 缓冲 区 中 能 有 足够 的 空间 来 存放 已 经 
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接收 到 但 尚未 用 于 连接 的 关系 * 的 元 组 。 
18. 5.3 其 他 关系 运算 
其 他 关系 运算 的 实现 也 可 以 并 行 化 : 
© 选择 (selection) 。 令 选择 运算 为 ro(r) 。 首 先 考 虑 9 形 如 a, =v 的 情况 ， 其 中 a 是 一 个 属性 ,2 
是 一 个 值 。 如 果 关 系 ~ 是 基于 属性 a 进行 划分 的 ， 那么 选择 在 单个 处 理 器 中 执行 。 如 果 6 形 如 
i<a,<u， 即 9 是 一 个 范围 选择 ， 而 且 该 关系 基于 a 进行 了 范围 分 布 ， 那么 该 选择 在 其 分 区 与 
指定 值 范围 相 重合 的 每 个 处 理 器 中 执行 。 在 所 有 其 他 情况 下 ， 选 择 在 所 有 处 理 器 中 并 行 地 
执行 。 
去 重 ( duplicate elimination)。 去 重 可 以 通过 排序 来 进行 ， 可 以 使 用 任意 一 种 并 行 排 序 技术 ， 并 
优化 为 一 旦 在 排序 过 程 中 出 现 重 复 就 将 其 消除 掉 。 我 们 还 可 以 通过 将 元 组 进行 划分 (采用 范围 
划分 或 散 列 划 分 ) 并 在 每 个 处 理 器 中 进行 本 地 去 重 ， 来 使 消除 重复 并 行 化 。 
© 投影 (projection) 。 不 去 重 的 投影 可 以 在 元 组 从 磁盘 读 入 时 并 行 地 进行 。 如 果 要 消除 重复 ， 那 么 
可 以 采用 刚才 描述 的 任意 技术 。 
。 聚集 ( aggregation) 。 考 虑 一 个 聚集 运算 。 通 过 将 关系 基于 分 组 属性 进行 划分 ， 然 后 在 每 个 处 理 
器 中 本 地 计算 聚集 的 值 ， 我 们 可 以 使 运算 并 行 化 。 采 用 散 列 划分 或 者 范围 划分 都 可 以 。 如 果 关 
系 已 经 基于 分 组 属性 进行 了 划分 ， 那么 可 以 跳 过 第 一 步 。 
我 们 可 以 在 划分 前 部 分 地 计算 聚集 的 值 ， 来 减少 划分 时 传输 元 组 的 代价 ， 至 少 对 于 常用 的 
聚集 函数 可 以 这 样 做 。 考 虑 关系 "上 的 一 个 聚集 运算 ， 基 于 属性 4 分 组 ,在 属性 B 上 使 用 聚集 
函数 sum。 系 统 可 以 在 每 个 处 理 器 已 上 对 存储 在 磁盘 D, 中 的 > 元 组 执行 该 运算 。 这 个 计算 在 
每 个 处 理 器 上 得 到 了 具有 部 分 总 和 的 元 组 : 对 于 磁盘 D, 中 存放 的 > 元 组 中 在 属性 4 上 的 每 个 取 
fA, WA P, 中 的 一 个 元 组 与 之 对 应 。 系 统 对 分 组 属性 4 的 本 地 聚集 结果 进行 划分 ， 然 后 在 每 
个 处 理 器 已 上 再 次 进行 聚集 运算 (在 具有 部 分 总 和 的 元 组 上 进行 ) ， 以 得 到 最 终结 果 。 
这 种 优化 的 结果 是 ， 划 分 过 程 中 需要 送 到 其 他 处 理 器 上 的 元 组 数目 更 小 。 可 以 很 容易 地 将 
这 一 想法 扩展 到 min 和 max 聚集 函数 上 。 对 count 和 avg 聚集 函数 的 扩展 留 在 习题 18. 12 中 
去 做 。 
其 他 运算 的 并 行 化 在 一 些 习题 中 有 阐述 。 
18.5.4 运算 的 并 行 计算 代价 
我 们 通过 将 VO 分 布 到 多 张 磁盘 上 ， 并 将 CPU 工作 分 布 到 多 个 处 理 器 上 来 达到 并 行 。 如 果 这 样 的 
划分 不 需要 任何 开销 就 能 实现 ， 如 果 在 工作 的 划分 中 没有 偏 斜 ,那么 使 用 n 个 处 理 器 的 并 行 运算 所 用 
的 时 间 就 是 单个 处 理 器 上 执行 相同 运算 所 用 时 间 的 1/n。 我 们 已 经 知道 如 何 估算 诸如 连接 或 是 选择 那 
样 的 运算 的 代价 。 那 么 并 行 处 理 的 时 间 代 价 就 是 串 行 处 理 相同 运算 的 时 间 代价 的 1/n。 
我 们 还 必须 考虑 以 下 代价 : 
© 启动 代价 (start-up cost) 。 用 于 在 多 个 处 理 器 上 初始 化 运算 。 
© 偏 斜 (skew) 。 在 多 个 处 理 器 之 间 划 分 工作 而 产生 的 ， 有 些 处 理 器 得 到 的 元 组 数目 多 于 其 他 处 
Hiko 
© 对 资源 的 竞争 (contention for resource ) 。 例 如 对 内 存 、 磁 盘 、 通 信 网 络 的 竞争 所 导致 的 延迟 
© 组 装 代价 (cost of assembling) 。 从 每 个 处 理 器 传送 过 来 的 部 分 结果 组 成 最 终结 果 所 花费 的 代价 
并 行 运算 所 需 的 时 间 可 以 估算 为 : 
Tae ta mt ar r dei? 
其 中 7, 是 用 于 划分 关系 的 时 间 ，7,,, 是 组 装 结果 所 需 的 时 间 ，7, 是 处 理 器 P, 执行 运算 所 需 的 时 间 。 
假设 元 组 的 分 布 没 有 任何 偏 斜 ， 那 么 送 到 每 个 处 理 器 的 元 组 数 可 以 估算 为 元 组 总 数 的 1/mn。 再 忽略 掉 
竞争 ， 于 是 每 个 处 理 器 P; 执行 运算 的 代价 T, 就 可 以 通过 第 12 章 所 描述 的 技术 估算 出 来 。 
上 述 估算 是 一 种 乐观 的 估算 ， 因 为 通常 是 有 偏 斜 的。 纵然 将 单个 查询 分 解 成 若干 个 并 行 的 步 又 减 
少 了 平均 步骤 的 规模 ， 但 处 理 整 个 查询 所 需 的 时 间 是 由 最 慢 的 那个 步骤 的 处 理 时 间 决 定 的 。 例 如 ， 基 
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于 划分 的 并 行 计 算 的 速度 仅 与 并 行 执行 中 最 慢 的 那个 速度 相同 。 因 此 ， 在 处 理 器 间 划 分 工作 时 的 任何 
偏 斜 都 会 对 性 能 造成 很 大 影响 。 

划分 中 的 偏 斜 问题 与 串 行 散 列 连接 中 的 划分 溢出 问题 ( 见 第 12 章 ) 密 切 相 关 。 当 进行 散 列 划分 时 ， 
我 们 可 以 采用 为 散 列 连接 所 研制 的 解决 溢出 和 避免 液 出 的 技术 来 处 理 偏 余 。 我 们 可 以 像 18. 2. 3 节 描 述 
的 那样 ， 使 用 平衡 的 范围 划分 和 虚 处 理 器 划分 来 将 范围 划分 导致 的 偏 斜 降 到 最 小 。 


18.6 操作 间 并 行 

操作 间 并 行 有 两 种 形式 : 流水 线 并 行 和 独立 并 行 。 
18. 6. 1 流水 线 并 行 

正如 第 12 章 所 讨论 的 ,流水线 方 式 是 减 小 数据 库 查询 处 理 计算 代价 的 重要 途径 。 回 顾 在 流水 线 
中 ， 甚 至 在 第 一 个 运算 4 尚未 产生 出 完全 的 输出 元 组 集合 之 前 ， BAA 的 输出 元 组 就 被 第 二 个 运算 B 
使 用 。 在 串 行 计算 中 采用 流水 线 执行 的 主要 优点 是 可 以 不 必 往 磁盘 中 写 任何 中 间 结 果 ， 就 将 一 系列 这 
样 的 运算 进行 下 去 。 

并 行 系统 采用 流水 线 的 主要 原因 与 串 行 系统 相同 。 但 同时 ,流水 线 也 可 以 提供 并 行 性 ， 就 像 硬 件 
设计 中 采用 指令 的 流水 线 提供 并 行 性 一 样 。 可 以 在 不 同 的 处 理 器 上 同时 运行 4 和 BB， 使 得 在 4 产生 结 
果 元 组 的 同时 ，B 使 用 它们 。 这 种 形式 的 并 行 称 作 流水 线 并 行 ( pipelined parallelism) 。 

考虑 4 个 关系 上 的 连接 : 

ri Mr Mr DA Ta 
我 们 可 以 建立 一 条 流水 线 ， 人 允许 三 个 连接 并 行 地 计算 。 假 设 指定 处 理 器 P, 计算 temper Mr,， 指 定 P, 
计算 7; mtempi。 当 P, 计算 出 7, wr, 中 的 元 组 时 ， 它 就 将 这 些 元 组 提供 给 处 理 器 P,。 于 是 在 P 完成 它 
的 计算 之 前 ，P, 就 得 到 了 r, Mr, 中 的 一 些 元 组 。P, 可 以 利用 它 得 到 的 元 组 开始 计算 temp, n, RE 
这 时 P, 还 没有 完全 计算 出 7, Mr,。 与 此 类 似 ， 当 P, 计算 出 (m Mr,)mr 中 的 元 组 时 ， 它 就 将 这 些 元 组 
提供 给 P;， 由 忆 来 计算 这 些 元 组 与 7, 的 连接 。 

当 只 有 少量 处 理 器 时 ,流水线 并 行 是 有 用 的 ,但 它 的 可 扩展 性 不 好 。 首 先 ， 流 水 线 的 链 一 般 来 说 
达 不 到 足够 的 长 度 来 提供 较 高 的 并 行 度 。 其 次 ， 对 于 那些 直到 访问 了 所 有 输入 才 产 生 输 出 的 关系 运算 
(例如 集 差 运算 ) 不 能 采用 流水 线 。 最 后 ， 对 于 一 种 运算 的 执行 代价 比 其 他 运算 高 得 多 这 种 经 常 出 现 的 
情况 ， 流 水 线 方法 只 能 获得 很 小 的 加 速 比 。 

考虑 所 有 情况 ， 当 并 行 度 较 高 时 ， 流 水 线 对 于 提高 并 行 度 的 重要 性 不 如 基于 划分 的 并 行 。 采 用 流 
水 线 的 真正 原因 是 流水 线 执行 可 以 避免 将 中 间 结 果 写 到 磁盘 中 。 

18.6.2 独立 并 行 

查询 表达 式 中 互 不 依赖 的 运算 可 以 并 行 地 执行 。 这 种 并 行 形式 称 作 独立 并 行 (independent parallelism) 。 

考虑 连接 mm Mr, Mr MT。 显然 ， 我 们 可 以 并 行 地 计算 temp, <—r, Kr, 和 tempr M71。 当 这 两 个 
计算 完成 后 ， 我 们 计算 : 

temp, X temp, 
为 进一步 提高 并 行 性 ， 我 们 可 以 将 temp, 和 temp, 中 的 元 组 流水 线 化 ， 作 为 对 temp, DA temp, 计算 的 输 
入 ， 然 后 对 它 用 流水 线 连接 来 计算 ( 见 12.7.2.2 节 )。 

独立 并 行 与 流水 线 并 行 相 同 ， 也 不 能 提供 较 高 的 并 行 度 ， 在 高 度 并 行 的 系统 中 也 没有 太 大 的 用 处 ， 

尽管 在 低 度 并 行 中 它 是 有 用 的 。 


18.7 查询 优化 


关系 技术 取得 成 功 的 一 个 重要 原因 是 查询 优化 器 。 回 忆 一 下 ,查询 优 化 器 分 析 一 个 查询 ， 在 给 出 
相同 结果 的 多 个 可 能 的 执行 计划 中 找 出 代价 最 低 的 执行 计划 。 

并 行 查询 计算 的 查询 优化 器 比 串 行 查询 计算 的 查询 优化 器 更 为 复杂 。 首 先 ， 代 价 模型 更 复杂 ， 因 
为 必须 将 划分 代价 考虑 在 内 ， 而 且 还 必须 考虑 诸如 偏 斜 、 资 源 竞争 那样 的 问题 。 更 重要 的 问题 是 如 何 
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进行 查询 的 并 行 化 。 假 设 我 们 以 某 种 方式 选 出 了 一 个 表达 式 ( 从 表达 查询 的 多 个 等 价 的 表达 式 中 ) ， 用 
来 计算 该 查询 。12. 1 节 已 经 讨论 过 ， 可 以 用 运算 符 树 来 表示 这 个 表达 式 。 

为 了 在 并 行 系统 中 计算 一 个 运算 符 树 ， 我 们 必须 做 出 以 下 决定 : 

© 如 何 对 每 个 运算 进行 并 行 化， 为 每 个 运算 采用 多 少 个 处 理 器 。 

© 在 多 个 处 理 器 上 对 哪些 运算 进行 流水 线 化 ， 哪 些 运算 以 并 行 方式 独立 地 执行 ， 哪 些 运算 一 个 接 

一 个 地 串 行 执行 。 

这 些 决 定 构成 了 调度 (scheduling) 该 执行 树 的 任务 。 

优化 问题 的 另 一 个 方面 是 确定 应 该 分 配给 执行 树 中 每 个 运算 的 各 种 类 型 的 资源 ， 如 处 理 器 、 磁 盘 
和 内 存 。 例 如 ， 可 最 大 限度 地 利用 并 行 的 资源 可 能 看 起 来 很 明智 ， 但 对 特定 运算 不 并 行 地 执行 也 是 个 


好 主意 。 那 些 计算 需求 比 通信 开销 小 得 多 的 运算 应 该 和 其 邻近 的 某 个 运算 聚集 在 一 起 ， 和 否则 并 行 的 优 [1814 | 


点 就 被 通信 开销 给 抵消 了 。 

需要 考虑 的 一 个 问题 是 长 的 流水 线 并 不 有 利于 其 很 好 地 利用 资源 。 除 非 运 算是 粗 粒度 的 ， 否 则 流 
水 线 中 最 后 一 个 运算 可 能 要 等 待 很 长 时 间 才 能 得 到 输入 ， 而 它 却 占据 着 宝贵 的 资源 ， 例 如 内 存 。 因 此 ， 
应 该 避免 长 的 流水 线 。 

并 行 执行 计划 的 候选 数目 比 串 行 执行 计划 的 数目 要 大 得 多 。 因 此 ， 通 过 考虑 所 有 的 候选 计划 来 优 
化 并 行 查询 比 优化 串 行 查询 的 代价 要 高 得 多 。 所 以 ， 我 们 通常 采用 启发 式 方法 来 减少 需要 考虑 的 并 行 
执行 计划 的 数目 。 这 里 描述 两 种 常用 的 启发 式 方法 。 

第 一 种 启发 式 方法 是 仅 考虑 那些 利用 所 有 的 处 理 器 ， 对 每 个 运算 都 并 行 化 ， 并 且 不 采用 任何 流水 
线 的 执行 计划 。Teradata 系统 中 采用 的 就 是 这 种 方法 。 寻 找 这 种 最 佳 执行 计划 类 似 于 在 串 行 系统 中 做 
查询 优化 。 主 要 区 别 在 于 如 何 进行 划分 ， 以 及 采用 何 种 代价 估算 公式 。 

第 二 种 启发 式 方法 是 选择 最 高 效 的 串 行 执行 计划 ， 然 后 将 该 执行 计划 中 的 运算 并 行 化 。Volcano 并 
行 数据 库 使 一 种 称 为 交换 算 子 ( exchange-operator) 模型 的 并 行 化 模型 流行 起 来 。 此 模型 使 用 现 有 运算 的 
实现 ， 在 数据 的 本 地 拷贝 上 进行 处 理 ， 并 结合 交换 操作 ， 也 就 是 在 不 同 处 理 器 间 移 动 数据 。 交 换算 子 
可 被 引入 到 执行 计划 中 ， 以 将 执行 计划 转化 为 并 行 执行 计划 。 

还 有 另外 一 个 优化 的 维度 是 设计 物理 存储 组 织 来 加 快 查询 。 不 同 查询 有 不 同 的 最 佳 物理 组 织 。 数 
据 库 管 理 员 必须 选择 一 种 适合 于 预期 的 混合 数据 库 查 询 的 物理 组 织 。 因 此 ， 并 行 查询 优化 领域 很 复杂 ， 
而 且 依 然 是 一 个 活路 的 研究 领域 。 


18.8 并行 系 统 设 计 


到 目前 为 止 本 章 一 直 关注 于 数据 存储 和 查询 处 理 的 并 行 化 。 由 于 大 规模 并 行 数据 库 系统 主要 用 
于 存储 大 量 的 数据 ， 并 用 于 处 理 基 于 这 些 数据 的 决策 支持 查询 ， 因 此 这 些 主题 在 并 行 数 据 库 系统 中 
是 最 重要 的 。 如 果 我 们 要 处 理 大 量 的 输入 数据 ， 那 么 来 自 外 部 数据 源 的 数据 并 行 加 载 是 一 个 重要 的 
需求 。 

一 个 大 型 的 并 行 数据 库 还 必须 注意 这 些 可 用 性 问题 : 

。 在 某 些 处 理 器 和 磁盘 发 生 故 障 时 的 恢复 性 。 

© 数据 和 模式 发 生 改 变 时 的 联机 重组 。 
在 此 我 们 来 讨论 这 些 问 题 。 

由 于 具有 大 量 的 处 理 器 和 磁盘 ， 因 此 至 少 有 一 个 处 理 器 或 磁盘 发 生 故 障 的 概率 就 会 比 具 有 单 磁盘 
的 单 处 理 器 系统 要 大 得 多 。 如 果 并 行 系统 设计 得 不 好 ， 那 么 当 任 何 一 个 部 件 ( 处理 器 或 磁盘 ) 发 生 故 障 
时 ， 系 统 就 会 停止 工作 。 假 设 单个 处 理 器 或 磁盘 发 生 故 障 的 概率 很 小 ,那么 系统 发 生 故障 的 概率 随处 
理 器 和 磁盘 的 数目 呈 线 性 增长 。 如 果 单 个 处 理 器 或 磁盘 每 5 年 发 生 一 次 故障 ， 那 么 具有 100 SeA 
的 系统 每 18 天 就 会 发 生 一 次 故障 。 

因此 ， 像 Teradata 以 及 IBM Informix XPS 这 样 的 大 规模 并 行 数据 库 系 统 都 设计 成 即使 一 个 处 理 器 或 
磁盘 发 生 了 故障 ， 系 统 还 能 运行 。 数 据 至 少 复制 到 两 个 处 理 器 上 ， 如 果 一 个 处 理 器 失效 ， 它 所 存储 的 
数据 还 能 够 从 另 一 个 处 理 器 访问 到 。 系 统 追 踪 失 效 的 处 理 器 ， 并 将 其 工作 分 配给 能 正常 运行 的 处 理 器 。 
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对 于 失效 站 点 中 所 存放 数据 的 请 求 将 自动 发 送 到 存放 了 该 数据 副本 的 备份 站 点 上 去 。 如 果 处 理 顺 4 的 
所 有 数据 都 复制 到 一 个 单独 的 处 理 器 B 中 ,那么 B 将 必须 处 理 对 A 的 所 有 请 求 ， 同 时 还 要 处 理 对 它 自 
已 的 请 求 ， 这 就 会 使 有 成 为 瓶颈 。 因 此 ， 一 个 处 理 器 中 数据 的 副本 应 该 分 配 到 多 个 其 他 处 理 器 中 。 

当 我 们 处 理 大 量 的 数据 (TB 范围 内 ) 时 ， 像 创建 索引 这 样 的 简单 操作 ， 以 及 往 关系 中 增加 一 列 这 样 
的 模式 改变 ， 会 花费 很 长 的 时 间 一 一 可 能 要 数 小 时 甚至 数 天 。 因 此 如 果 在 进行 这 样 的 操作 的 过 程 中 让 
数据 库 不 可 用 是 无 法 接受 的 。 大 多 数 数 据 库 系统 允许 这 样 的 操作 联机 (online ) 进行 ， 即 可 以 在 系统 执行 
其 他 事务 的 同时 进行 这 样 的 操作 。 

例如 ， 考虑 联机 索引 创建 (online index construction) 。 支 持 这 一 特性 的 系统 即使 正在 某 个 关系 上 创 
建 索 引 时 ， 也 允许 在 该 关系 上 进行 插入 、 删 除 和 更 新 。 因 此 ， 建 立 索 引 操 作 不 能 像 一 般 情况 下 那样 以 
共享 模式 封锁 整个 关系 ， 而 是 需要 该 进程 记 住 在 它 活跃 期 间 所 发 生 的 更 新 ， 并 将 这 些 变化 合并 到 正在 
建立 的 索引 中 ( 目前 大 多 数 数据 库 系 统 支持 联机 索引 创建 ， 因 为 这 一 特性 非常 重要 ， 即 使 是 对 于 非 并 行 
的 数据 库 系 统 ) 。 

近年 来 ， 许 多 公司 已 经 开发 出 新 的 并 行 数 据 库 产 品 ， 包 括 Netezza、DATAllegro( 已 被 微软 收购 ) 、 
Greenplum 和 Aster Data。 每 个 这 样 的 产品 运行 在 包含 几 十 个 到 几 千 个 节点 的 系统 上 ， 每 个 节点 运行 一 
个 底层 数据 库 实例 ; 每 个 产品 在 多 个 数据 库 实 例 上 管理 自己 的 数据 分 区 ， 以 及 并 行 查询 处 理 。 

Netezza, Greenplum 和 Aster Data 使 用 PostgreSQL 作为 底层 数据 库 ; DATAllegro 原本 采用 Ingres 作 
为 底层 数据 库 系 统 ， 但 被 微软 收购 之 后 就 转 到 SQL Server 上 了 。 通 过 建立 在 现 有 数据 库 系 统 之 上 的 方 
式 ， 这 些 系统 能 够 充分 利用 底层 数据 库 的 数据 存储 、 查 询 处 理 和 事务 管理 特征 ， 让 它们 能 够 腾 出 精力 
专注 于 数据 分 区 (包括 复制 和 容错 ) ， 加 快 进程 间 通 信 ， 并 行 查询 处 理 ， 以 及 并 行 查询 优化 。 使 用 诸如 
PostgreSQL 那样 的 公共 领域 数据 库 的 另 一 个 好 处 是 ， 每 个 结 点 的 软件 成 本 非常 低 ; 相反 ， 商 用 数据 库 
在 每 个 处 理 器 上 有 着 很 高 的 成 本 。 

还 值得 一 提 的 是 ，Netezza 和 DATAllegro 实际 上 销售 的 是 数据 仓库 "装置 ”， 包 括 硬件 和 软件 ， 人 允许 
客户 以 最 小 代价 建立 并 行 数 据 库 。 


18.9 多 核 处 理 器 的 并 行 性 


并 行 性 在 当今 大 多 数 计算 机 中 已 经 司空 见 惯 ,其 至 是 在 一 些 最 小 的 计算 机 中 。 那 是 由 于 目前 计算 
机 体系 结构 的 趋势 所 致 。 其 结果 是 ， 现 今 所 有 数据 库 系 统 实际 上 都 运行 在 并 行 平台 上 。 本 节 将 简要 地 
探讨 这 一 架构 趋势 出 现 的 原因 及 其 对 数据 库 系统 设计 和 实现 的 影响 。 
18. 9. 1 并 行 性 与 原始 速度 

由 于 计算 机 的 出 现 ， 处 理 器 速度 呈 指 数 级 增长 ， 每 18 ~ 24 个 月 增加 一 倍 。 这 种 增长 源 于 在 一 块 单 
位 面积 的 硅 芯片 上 能 够 放 和 人 的 晶体 管 数目 是 呈 指 数 增 加 的 ， 即 众所周知 的 摩尔 定律 (Moore's law), H 
命名 来 自 英特尔 联合 创始 人 戈 登 . 摩尔 (Gordon Moore) 。 从 技术 上 讲 ， 摩 尔 定 律 并 不 是 定律 ， 而 是 一 
个 关于 技术 发 展 趋势 的 观察 和 预测 。 直 到 最 近 ， 晶 体 管 数量 的 增长 及 其 大 小 的 减少 导致 不 断 出 现 更 快 
的 处 理 器 。 尽 管 技 术 发 展 继续 符合 摩尔 定律 的 预测 ， 但 出 现 了 另 一 个 因素 使 得 处 理 器 速度 的 增长 放 缓 。 
快速 的 处 理 器 在 功 耗 上 是 低 效 的 。 这 会 造成 功 耗 和 成 本 、 移 动 电脑 的 电池 寿命 和 热 散 逸 (使 用 的 所 有 能 
量 最 终 都 换 转 化 为 热 ) 方 面 的 问题 。 因 此 ， 现 代 的 处 理 器 通常 不 是 单 处 理 器 ， 而 是 由 一 块 芯片 上 的 多 个 
处 理 器 组 成 。 为 了 保持 在 单 芯片 上 的 多 处 理 器 与 传统 处 理 器 之 间 的 区 别 ， 核 (core ) 这 个 术语 用 于 单 芯 
片 处 理 器 。 这 样 我 们 可 以 说 一 台 机 器 上 有 一 个 多 核 处 理 器 。s 
18.9.2 高 速 缓冲 存储 器 和 多 线程 

每 个 核 都 具备 处 理 一 个 独立 的 机 器 指令 流 的 能 力 。 但 是 ， 由 于 处 理 器 处 理 数据 的 速度 比 从 主 存 上 
访问 数据 要 快 ， 因 此 主 存 可 能 成 为 限制 整体 性 能 的 瓶颈 。 出 于 这 个 原因 ， 电 脑 设计 师 在 计算 机 系统 中 
设置 了 包括 一 个 或 多 个 级 别 的 高 速 缓冲 ( cache ) 存 储 器 。 高 速 缓冲 存储 器 的 每 字 节 成 本 比 主 内 存 高 ， 但 








O ”在 此 使 用 的 核 这 个 术语 和 早期 计算 中 所 使 用 的 术语 不 同 ， 后 者 指 基于 磁性 核心 的 主 存 技术 ， 
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提供 了 更 快 的 存 取 时 间 。 在 多 级 高 速 缓存 设计 中 ， 高 速 缓存 分 成 L, 、L, SRG, HPL, 是 最 快 的 高 速 
缓存 ( 因此 每 字 节 的 价格 也 最 昂贵 ， 所 以 容量 也 最 小 ) ，L, 是 第 二 快 的 ， 依 此 类 推 。 其 结果 是 将 第 10 
章 讨 论 的 存储 体系 架构 扩展 到 在 主 存 下 包含 不 同 级 别 的 高 速 缓存 。 

尽管 数据 库 系 统 可 以 控制 在 磁盘 和 主 存 之 间 传 输 数 据 ， 但 电脑 硬件 仍 可 控制 在 各 个 级 别 的 高 速 组 
存 之 间 以 及 在 高 速 缓存 与 主 存 之 间 的 数据 传输 。 尽 管 缺乏 这 种 直接 控制 ， 数 据 库 系 统 的 性 能 仍然 受到 
高 速 缓存 使 用 方式 的 影响 。 如 果 一 个 核 需要 访问 的 数据 项 不 在 高 速 缓 存 中 ,那么 它 必 须 从 主 存 获 取 
因为 主 存 比 处 理 器 要 慢 得 多 ， 所 以 当 一 个 核 等 待 来 自主 存 的 数据 时 ， 处 理 速度 就 可 能 会 蒙受 巨大 损失 
这 种 等 待 称 为 高 速 缓存 失效 ( cache miss) 。 

计算 机 设计 者 试图 减 小 高 速 缓存 失效 所 带 来 的 影响 的 一 种 方式 是 采用 多 线程 (multithreading ) 。 线 
程 (thread) 是 一 个 执行 流 ， 它 与 运行 在 同一 个 核 上 的 其 他 线程 共享 内 存 。 = 如 果 在 一 个 核 上 当前 执行 的 
线程 遇 到 高 速 缓存 失效 (或 其 他 类 型 的 等 待 ) ， 那 么 核 就 会 执行 另外 的 线程 ， 从 而 在 等 待 时 不 浪费 计算 
速度 。 

线程 引 了 在 多 核 之 上 的 另 一 种 并 行 性 。 每 个 新 一 代 的 处 理 器 都 支持 更 多 的 核 和 更 多 的 线程 。Sun 
UltraSPARC T2 处 理 器 有 8 个 核 ， 每 个 核能 支持 8 个 线程 ， 总 的 来 说 ， 在 一 块 处 理 器 芯片 上 能 支持 64 
个 线程 。 

原始 速度 增长 放 缓 同时 核 数 量 增长 这 样 的 体系 架构 上 的 趋势 对 数据 库 系统 设计 产生 了 重大 影响 ， 
这 点 我 们 很 快 就 会 看 到 。 

18.9.3 适应 现代 体系 架构 的 数据 库 系统 设计 

可 能 看 起 来 数据 库 系统 是 一 个 有 效 利 用 大 量 核 和 线程 的 理想 应 用 ， 因 为 数据 库 系 统 支 持 大 量 并 发 
事务 。 然 而 ， 有 很 多 因素 使 得 对 现代 处 理 器 的 优化 利用 充满 了 挑战 。 

当 我 们 允许 更 高 的 并 发 度 去 利用 现代 处 理 器 的 并 行 性 时 ， 我 们 会 增加 高 速 缓存 中 的 数据 量 。 这 可 
能 会 导致 更 多 的 高 速 缓存 失效 ， 甚 至 可 能 多 到 需要 多 线程 的 核 来 等 竺 来 自 内 存 中 的 数据 。 

并 发 事务 需要 某 种 形式 的 并 发 控制 来 保证 第 14 章 讨论 过 的 ACID 属性 。 当 并 发 事务 访问 相同 数据 
时 ， 必 须 对 该 并 发 访问 施加 某 种 限制 。 这 些 限制 ， 无 论 是 基于 封锁 、 时 间 惟 还 是 验证 ， 都 会 导致 等 待 
或 由 于 事务 中 止 而 损失 工作 。 为 了 避免 长 时 间 等 待 或 大 量 的 工作 损失 ， 理 想 情 况 是 并 发 事务 的 冲突 很 
少 ， 但 试图 确保 减少 冲突 会 增加 需要 存放 到 高 速 缓存 中 的 数据 量 ， 并 导致 更 多 的 高 速 缓存 失效 。 

最 后 ， 存 在 一 些 被 所 有 事务 所 共享 的 数据 库 系统 组 件 。 在 使 用 封锁 的 系统 中 ， 锁 表 被 所 有 事务 共 
享 ， 对 锁 表 的 访问 可 能 会 成 为 瓶颈 。 类 似 的 问题 也 同样 存在 于 其 他 形式 的 并 发 控制 中 。 同 样 IR 
所 有 事务 的 缓冲 管理 器 、 日 志 管 理 器 和 恢复 管理 器 也 是 潜在 的 瓶颈 。 

由 于 具有 大 量 的 并 发 事务 可 能 不 能 最 好 地 利用 现代 处 理 器 的 优势 ， 因 此 需要 找到 允许 多 核 在 单个 
事务 上 工作 的 方式 。 这 就 要 求 数据 库 查 询 处 理 器 找到 有 效 的 并 行 查询 方式 ， 而 不 会 对 高 速 缓存 产生 过 
多 的 需求 。 这 可 以 通过 建立 数据 库 查 询 操作 的 流水 线 以 及 通过 寻找 单个 数据 库 操 作 的 并 行 化 方式 来 
实现 。 

适应 于 多 核 和 多 线程 系统 的 数据 库 系统 设计 和 数据 库 查 询 处 理 仍然 是 一 个 活跃 的 研究 领域 。 更 多 
细节 请 参见 文献 注解 。 


18.10 总结 


。 在 过 去 20 年 中 ， 并 行 数 据 库 已 经 得 到 了 广泛 的 商业 认同 。 

。 在 LO 并 行 中 ， 把 关系 划分 到 多 张 可 用 的 磁盘 中 ， 从 而 使 检索 速度 更 快 。 三 种 常用 的 划分 技术 是 轮 
转 法 划分 、 散 列 划分 和 范围 划分 。 

© 偏 斜 是 一 个 主要 的 问题 ， 特 别 是 当 并 行 度 增高 时 。 平 衡 的 划分 向 量 、 使 用 直方 图 以 及 虚 处 理 器 划分 
是 用 于 减少 偏 斜 的 技术 。 

。 在 查询 间 并 行 中 ， 我 们 并 发 地 运行 不 同 的 查询 以 提高 吞吐 量 。 





日 在 技术 上 ， 以 操作 系统 的 术语 来 讲 ， 指 其 地 址 空间 。 
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查询 内 并 行 试 图 减少 运行 查询 的 代价 。 有 两 类 查询 内 并 行 : 操作 内 并 行 和 操作 间 并 行 。 

我 们 采用 操作 内 并 行 来 并 行 地 执行 关系 运算 ， 例 如 排序 和 连接 。 因 为 关系 运算 是 面向 集合 的 ， 所 以 

操作 内 并 行 对 关系 运算 是 很 自然 的 。 

对 于 像 连接 这 样 的 二 元 运算 ， 有 两 种 基本 的 并 行 化 方法 。 

口 在 基于 划分 的 并 行 中 ， 两 个 关系 分 成 几 个 部 分 ， 而 且 六 中 的 元 组 仅 与 s 中 的 元 组 进行 连接 。 基于 
划分 的 并 行 仅 适 用 于 自然 连接 和 等 值 连 接 。 

口 在 分 片 和 复制 中 ， 两 个 关系 都 被 划分 ， 并 且 每 个 划分 都 被 复制 。 在 非 对 称 的 分 片 和 复制 中 ， 一 
关系 被 复制 ， 而 另 一 个 关系 被 划分 。 与 基于 划分 的 并 行 不 同 ， 分 片 和 复制 以 及 非 对 称 的 分 片 和 复 
制 对 于 任何 连接 条 件 都 适用 。 

这 两 种 并 行 技术 都 可 以 与 任何 一 种 连接 技术 结合 使 用 。 

© 在 独立 的 并 行 中 ， 互 不 依赖 的 多 个 不 同 的 操作 按 并 行 方式 执行 。 

在 流水 线 并 行 中 ， 处 理 器 在 计算 一 个 操作 结果 的 同时 将 结果 发 送 给 另 一 个 操作 ， 无 须 等 待 整个 操作 

的 完成 。 

。 并 行 数据 库 中 的 查询 优化 比 串 行 数据 库 中 的 查询 优化 要 复杂 得 多 。 

© 现代 的 多 核 处 理 器 引入 了 并 行 数据 库 中 新 的 研究 问题 。 














术语 回顾 
。 决策 支持 查询 O 平衡 的 范围 划分 向 量 口 基于 划分 的 并 行 散 列 连接 
。 VO 并 行 口 直方 图 并 行 嵌 套 循环 连接 
。 水 平 划分 口 虚 处 理 器 。 并 行 选择 
© 划分 技术 。 查询 间 并 行 。 并 行 去 重 
口 轮转 法 。 高 速 缓存 一 致 性 。 并 行 投影 
口 散 列 划分 。 查询 内 并 行 。 并 行 聚 集 
口 范围 划分 O 操作 内 并 行 。 并 行 计算 的 代价 
。 划分 属性 口 操作 间 并 行 。 操作 间 并 行 
。 划分 向 量 。 并 行 排序 口 流水 线 并 行 
。 点 查询 口 范围 划分 排序 口 独立 并 行 
。 范围 查询 口 并 行 的 外 部 排序 归并 。 查询 优化 
。 mE 。 数据 并 行 。 调度 
O 执行 偏 斜 。 并 行 连接 。 交换 算 子 模型 
口 属性 值 偏 斜 口 基于 划分 的 连接 。 并 行 系统 设计 
O 划分 偏 斜 口 分 片 -复制 连接 。 联机 索引 创建 
。 偏 斜 处 理 O 非 对 称 的 分 片 -复制 连接 。 多 核 处 理 器 
实践 习题 


18.1 当 在 范围 划分 属性 上 进行 范围 选择 时 ， 可 能 仅 需要 访问 一 张 磁盘 ， 请 描述 这 一 特性 的 优点 和 缺点 。 
18.2 ”对 于 下 述 每 种 任务 ， 哪 种 并 行 形式 ( 查询 间 并 行 、 操 作 间 并 行 或 操作 内 并 行 ) 可 能 是 最 重要 的 ? 
a 提高 具有 许多 小 查询 的 系统 的 吞吐 量 。 
b. 在 磁盘 和 处 理 器 的 数目 都 很 大 的 情况 下 ， 提 高 具有 少量 大 查询 的 系统 的 吞吐 量 。 
18.3 ”对 于 流水 线 并 行 ， 即 便当 有 许多 处 理 器 可 用 时 ， 在 单个 处 理 器 上 用 流水 线 来 执行 多 个 操作 通常 是 个 好 
主意 。 
a. 请 解释 原因 。 
b 如 果 机 器 采用 共享 内 存 体系 结构 ， 你 在 a 部 分 提出 的 论据 还 成 立 吗 ? 请 解释 成 立 或 不 成 立 的 原因 。 
c. 对 于 独立 的 并 行 ，a 部 分 提出 的 论据 成 立 吗 ? (也 就 是 说 ， 即 使 在 不 将 操作 组 织 到 流水 线 中 ， 而 且 
有 许多 处 理 器 可 用 的 情况 下 ， 在 同一 个 处 理 器 上 执行 几 个 操作 是 否 仍然 是 个 好 主意 呢 ?) 
18.4 ”考虑 采用 范围 划分 的 对 称 的 分 片 和 复制 来 处 理 连 接 。 如 果 连 接 条 件 形 如 |r. 4 -s. 8|<k， 其 中 上 是 一 
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个 小 常数 ，|x | 表示 取 x 的 绝对 值 ， 带 有 这 种 连接 条 件 的 连接 称 作 带 状 连 接 ( band join) ， 那 么 你 如 何 

来 优化 查询 计算 ? 

回顾 一 下 ， 可 以 利用 直方 图 来 建立 负载 均衡 的 范围 划分 。 

a. 假设 你 有 一 个 取 值 范围 为 1 ~ 100 的 直方 图 ， 划 分 为 10 个 范围 : 1 ~10, 11 ~20，…，91 ~100, 其 
出 现 频率 分 别 为 15，5，20，10，10, 5, 5, 20, 5, 5。 请 给 出 一 个 负载 均衡 的 范围 划分 函数 ， 将 
这 些 值 划分 成 5 个 部 分 。 

b. 请 写 出 一 个 算法 ， 对 于 给 定 的 包括 个 范围 的 频率 分 布 直方 图 ， 计 算出 划分 为 p 个 分 区 的 一 个 均 
衡 的 范围 划分 。 

大 规模 并 行 数据 库 系统 对 每 个 数据 项 都 会 在 附属 于 不 同 处 理 器 的 磁盘 上 存储 一 个 额外 的 副本 ， 以 避免 

当 一 个 处 理 器 失效 时 所 引起 的 数据 丢失 

a. 不 是 把 来 自 一 个 处 理 器 的 数据 项 的 额外 副本 保存 到 一 个 单 点 备份 的 处 理 器 上 ， 更 好 的 方法 是 把 一 
个 处 理 器 的 数据 项 副本 划分 到 多 个 处 理 器 上 。 请 解释 原因 。 

b. 解释 如 何 利用 虚 处 理 器 划分 来 有 效 实施 前 述 副本 的 划分 。 

c. 如 果 采 用 RAID 存储 ， 而 不 是 存储 每 个 数据 项 的 额外 副本 ， 有 哪些 优点 和 缺点 ? 

假设 我 们 要 对 一 个 已 经 划分 的 关系 进行 索引 。 这 种 划分 的 思想 (包括 虚 处 理 器 划分 ) 能够 应 用 于 索引 

吗 ? 解释 你 的 答案 ， 考 虑 下 面 两 种 情况 (为 了 简单 起 见 ， 假 设 划分 和 索引 都 是 在 单个 属性 上 进行 的 ) 。 

a. 索引 建立 在 关系 的 划分 属性 上 。 

b. 索引 基于 的 属性 不 是 关系 的 划分 属性 。 

假设 已 经 为 一 个 关系 选 好 了 非常 平衡 的 范围 划分 向 量 ， 但 是 这 个 关系 随后 更 新 了 ， 导 致 划分 失衡 。 即 

使 采用 虚 处 理 器 划分 ， 某 个 虚 处 理 器 最 终 也 可 能 在 更 新 后 得 到 相当 大 量 的 元 组 ， 从 而 需要 重新 划分 。 

a 假设 一 个 虚拟 处 理 器 有 相当 多 的 超 量 元 组 ( 比如 说 ， 超 过 平均 值 的 两 倍 ) 。 解 释 如 何 通过 分 裂 分 区 
从 而 增加 虚 处 理 器 的 数量 来 实现 重新 划分 。 

b. 如 果 虚 处 理 器 不 是 轮流 分 配 的 ， 虚 拟 分 区 可 以 以 任意 的 方式 分 配给 处 理 器 ， 并 使 用 映射 表 来 记录 
分 配 信息 。 如 果 某 个 特定 的 节点 过 载 ( 相 比 其 他 节点 而 言 ) ， 请 解释 如 何 均衡 负载 。 

c. 假设 没有 更 新 ， 那么 在 执行 重新 划分 或 者 重新 分 配 虚 处 理 器 的 过 程 中 是 否 需要 中 断 查询 处 理 ? 解 
释 你 的 答案 。 


对 于 轮转 法 、 散 列 划分 和 范围 划分 这 三 种 划分 技术 ， 请 各 给 出 一 个 查询 实例 ， 使 得 应 用 该 划分 技术 能 
提供 最 快 的 响应 。 

当 关 系 在 它 的 一 个 属性 上 采用 : 

© 散 列 划分 

。 范围 划分 

进行 划分 时 ， 哪 些 因素 会 导致 偏 斜 ? 对 于 上 述 两 种 情况 ， 分 别 可 以 采取 什么 措施 来 减 小 偏 斜 ? 

请 给 出 一 个 连接 的 实例 ， 它 不 是 简单 的 等 值 连接 ， 但 可 以 采用 基于 划分 的 并 行 。 应 该 基于 什么 属性 
来 进行 划分 ? 

对 于 下 述 每 种 运算 ， 给 出 一 种 好 的 并 行 化 方法 。 

a. 差 运算 。 

b. 使 用 count 运算 的 聚集 。 

c. 使 用 count distinct 运算 的 聚集 。 

d. 使 用 ave 运算 的 聚集 。 

e. 左 外 连接 ， 其 连接 条 件 只 涉及 相等 比较 。 

f 左 外 连接 ， 其 连接 条 件 涉及 相等 之 外 的 比较 。 

g 完全 外 连接 ， 其 连接 条 件 涉及 相等 之 外 的 比较 。 

请 描述 流水 线 并 行 的 优点 和 缺点 。 

假设 你 希望 使 用 无 共享 体系 结构 的 并 行 来 处 理 一 个 由 大 量 小 事务 组 成 的 工作 负载 。 

a. 在 这 样 的 情形 中 需要 查询 内 并 行 吗 ?” 如 果 不 需要 ， 为 什么 ?” 哪 种 形式 的 并 行 适用 呢 ? 
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b. 对 于 这 样 的 工作 负载 ， 哪 种 形式 的 偏 斜 会 很 显著 呢 ? 
c. 假设 大 多 数 事务 都 会 访问 一 条 account 记录 ， 该 记录 包括 一 个 account_type 属性 ， 以 及 一 条 对 应 的 
823 account_type_master 记录 ， 它 提供 了 有 关 账 户 类 型 的 信息 。 你 会 如 何 划分 和 (或 ) 复制 数据 以 加 速 
事务 的 执行 ? 你 可 以 假定 account_type_master 关系 极 少 会 更 新 。 
18.15 ”对 关系 进行 划分 所 基于 的 属性 可 以 对 查询 代价 产生 很 大 的 影响 。 
a. 给 定 在 单个 关系 上 的 一 个 SQL 查询 工作 负载 ， 什 么 属性 会 作为 划分 的 候选 属性 ? 
b. 基于 这 样 的 工作 负载 ， 你 会 如 何在 不 同 的 划分 技术 中 进行 选择 ? 
c. 有 可 能 在 关系 的 不 止 一 个 属性 上 进行 划分 吗 ? 请 解释 你 的 答案 。 


文献 注解 


在 20 世纪 70 年 代 末 和 80 年 代 初 ， 当 关系 模型 取得 了 相当 稳固 的 地 位 时 ， 人 们 意识 到 关系 运算 是 高 度 
可 并 行 的 ， 而 且 具 有 很 好 的 数据 流 特性 。 因 而 发 起 了 包括 CAMMA( DeWitt 等 [ 1990 ] ) 、XPRS( Stonebraker 等 
[1989 ] ) 和 Volcano( Graefe [1990] ) 在 内 的 几 个 研究 项 目 来 研究 关系 运算 并 行 执行 的 实用 性 。 

Teradata 是 最 早 的 商用 并 行 数据 库 系 统 之 一 ， 并 继续 占有 着 一 个 很 大 的 市 场 份额 。Red Brick 数据 仓库 是 
另 一 个 早期 的 并 行 数据 库 系统 ， 后 来 Red Brick 被 Informix 收购 ， 而 Infomix 自己 又 被 IBM 收购 。 更 新 的 并 行 
数据 库 系 统 包括 Netezza, DATAllegro( 现 为 微软 的 一 部 分 ) 、Greenplum 和 Aster Data, 

Joshi[ 1991] 以 及 Mohan 和 Narang[ 1992 ] 讨论 了 并 行 数据 库 中 的 封锁 问题 。Dias 等 [1989 ] Mohan 和 
Narang[ 1992] Rahm[ 1993 ] 讨 论 了 并 行 数据 库 系 统 的 高 速 缓存 一 致 性 协议 。Carey 等 [1991 ] 讨 论 了 客户 - 
服务 器 系统 中 的 高 速 缓存 问题 。 

Graefe 和 McKenna[ 1993b] 对 于 查询 处 理 ( 包括 查询 的 并 行 处 理 ) 给 了 一 个 极 好 的 综述 。 交 换算 子 模 型 是 
Graefe[ 1990 ] 以 及 Graefe 和 McKenna[ 1993b] 提 出 的 。 

DeWitt 等 [1992] 讨 论 了 并 行 排序 。Garcia 和 Korth[ 2005 ] 以 及 Chen 等 [2007 ] 讨 论 了 基于 多 核 和 多 线程 
处 理 器 的 并 行 排 序 。Nakayama “#[ 1984], Richardson 等 [1987 ] 、Kitsuregawa 和 Ogawa[ 1990 | 、Wilschut 等 
[1995] ， 以 及 其 他 文献 讨论 了 并 行 连接 算法 。 

Walton 等 [1991] 、Wolf[ 1991], Dewitt 等 [1992 |] 描述 了 并 行 连接 中 的 偏 斜 处 理 。 

Lu 等 [1991] 、Ganguly 等 [1992 ] 描述 了 并 行 查询 优化 技术 。 

Á 2005 年 以 来 ， 每 年 举办 一 次 现代 硬件 上 的 数据 管理 ( Data Management on Modern Hardware，DaMoN ) 

国际 研讨 会 ， 其 论文 集 讨论 了 适用 于 多 核 和 多 线程 体系 架构 的 数据 库 系 统 设计 和 查询 处 理 算法 。 
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分 布 式 数据 库 


不 同 于 并 行 系统 中 处 理 器 是 紧密 耦合 的 并 组 成 单个 数据 库 系统 ， 分 布 式 数据 库 系 统 由 松散 耦合 的 
站 点 组 成 ， 这 些 站 点 不 共享 物理 部 件 。 此 外 ， 运 行 在 每 个 站 点 上 的 数据 库 系统 可 以 有 实质 上 的 相互 独 
立 程 度 。 第 17 章 讨论 了 分 布 式 系统 的 基本 结构 。 

每 个 站 点 都 可 以 参与 到 事务 的 执行 中 ， 这 些 事务 所 访问 的 数据 可 以 位 于 一 个 站 点 上 也 可 以 位 于 几 
个 站 点 上 。 集 中 式 数据 库 系 统 和 分 布 式 数据 库 系统 之 间 的 主要 差别 在 于 ， 在 前 者 中 数据 存放 于 单个 地 
方 ， 在 而 后 者 中 数据 存放 于 儿 个 地 方 。 数 据 的 这 种 分 布 给 事务 处 理 和 查询 处 理 带 来 了 很 多 困难 。 本 章 
将 论述 这 些 困难 。 

首先 在 19. 1 节 中 ， 首 先 将 分 布 式 数据 库 分 为 同 构 或 异 构 两 类 。 然 后 19. 2 节 论 述 如 何在 分 布 式 数 
据 库 中 存储 数据 的 问题 。19. 3 节 概 述 分 布 式 数据 库 系统 中 的 事务 处 理 模型 。19. 4 节 描 述 如 何 通 过 使 用 
特殊 的 提交 协议 来 实现 分 布 式 数据 库 中 的 原子 事务 。19. 5 节 描 述 分 布 式 数据 库 中 的 并 发 控制 。19.6 节 
概述 如 何 通 过 复制 来 提供 分 布 式 数 据 库 中 的 高 可 用 性 ， 使 得 即使 出 现 故 障 ， 系 统 仍 然 可 以 继续 处 理事 
务 。19. 7 节令 述 分 布 式 数 据 库 中 的 查询 处 理 。19. 8 节 概 述 处 理 异 构 数 据 库 的 问题 。19. 10 节 描 述 目录 
系统 ， 它 可 以 视 为 一 种 特殊 形式 的 分 布 式 数据 库 。 

在 本 章 中 ,我 们 将 用 图 19-1 的 银行 数据 库 来 解释 我 们 的 例子 。 





branch( branch_name, branch_city, assets) 
account (account_number, branch_name, balance) 
depositor ( customer_name, account_number ) 








19-1 银行 数据 库 


19.1 同 构 和 异 构 数 据 库 


在 同 构 分 布 式 数据 库 ( homogeneous distributed database) 系统 中 ， 所 有 站 点 都 使 用 相同 的 数据 库 管 理 
系统 软件 ， 它 们 彼此 了 解 ， 共同 合 作 处 理 用 户 的 请 求 。 在 这 样 的 系统 中 ， 本 地 站 点 放弃 了 它们 的 部 分 [825 | 
自治 性 ， 以 修改 模式 或 者 数据 库 管理 系统 软件 这 方面 的 权利 的 方式 。 为 使 事务 处 理 能 在 多 个 站 点 间 进 
行 ， 数据库 管理 系统 软件 还 必须 和 其 他 站 点 合作 来 交换 与 事务 有 关 的 信息 。 

相反 ， 在 异 构 分 布 式 数据 库 (heterogeneous distributed database) 中 ， 不 同 站 点 可 能 使 用 不 同 的 模式 
和 不 同 的 数据 库 管 理 系 统 软 件 。 站 点 之 间 可 能 彼此 并 不 了 解 ， 在 合作 处 理事 务 的 过 程 中 ， 它 们 可 能 仅 
提供 有 限 的 功能 。 模 式 的 差别 经 常 是 查询 处 理 中 的 主要 问题 ， 而 软件 的 差异 成 为 处 理 访问 多 站 点 事务 
的 一 个 障碍 。 

在 本 章 中 ， 我 们 关注 同 构 的 分 布 式 数据 库 。 不 过 ，19. 8 节 将 简要 讨论 异 构 分 布 式 数据 库 系统 中 的 
问题 。 


19.2 分布 式 数据 存储 
考虑 一 个 要 存储 到 数据 库 中 的 关系 r。 在 分 布 式 数据 库 中 存储 这 个 关系 有 两 种 方法 : 
。 复制 (replication) 。 系 统 维护 这 个 关系 的 几 个 相同 的 副本 (拷贝 ) ， 并 把 每 个 副本 存储 在 不 同 的 
站 点 上 。 复 制 的 替代 方式 是 只 存储 关系 + 的 一 份 拷贝 
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© 分 片 (fragmentation) 。 系 统 把 关系 划分 为 几 个 片 ， 并 把 每 个 片 存储 在 不 同 的 站 点 上 
分 片 和 复制 可 以 组 合 : 一 个 关系 可 以 划分 为 几 个 片 ， 并 且 每 个 片 可 以 有 几 个 副本 。 下 面 几 个 节 将 
详细 阐述 每 种 这 样 的 技术 。 
19. 2.1 数据 复制 
MEXR r 被 复制 ， 则 关系 7 的 拷贝 会 存放 在 两 个 或 多 个 站 点 上 。 在 最 极端 的 情况 下 ,我们 采用 全 
复制 (full replication) ， 这 时 拷贝 会 存放 在 系统 中 的 每 个 站 点 上 。 
复制 有 很 多 优点 和 缺点 。 
826 e 可 用 性 (availability) 。 如 果 包 含 关 系 7r 的 站 点 之 一 发 生 故 障 ， 那么 关系 7 可 以 在 男 一 个 站 点 中 找 
到 。 因 此 ， 即 使 一 个 站 点 发 生 了 故障 ， 系 统 仍 可 以 继续 处 理 涉及 7 的 查询 。 
o 增加 的 并 行 度 (increased parallelism) 。 如 果 大 多 数 对 关系 的 访问 都 只 会 导致 对 该 关系 的 读 取 ， 
那么 几 个 站 点 可 以 并 行 地 处 理 涉 及 7 的 查询 。r 的 副本 越 多 ， 在 事务 执行 的 站 点 上 发 现 所 需 数 
据 的 机 会 就 越 大 。 因 此 ， 数 据 复制 将 站 点 之 间 的 数据 移动 减 到 了 最 小 。 
。 增加 的 更 新 开销 (increased overhead on update)。 系 统 必须 保证 关系 7 的 所 有 副本 是 一 致 的 ; 否 
则 可 能 产生 错误 的 计算 。 因 此 ， 只 要 "更 新 了 ， 更 新 就 必须 传播 到 包含 其 副本 的 所 有 站 点 。 结 
果 增 加 了 开销 。 例 如 ， 在 银行 系统 中 ,账户 信息 被 复制 到 不 同 站 点 中 ， 必 须 保 证 特定 账户 中 的 
余额 在 所 有 站 点 上 是 一 致 的 。 
通常 情况 下 ， 复 制 提高 了 read 操作 的 性 能 ， 并 增加 了 数据 对 只 读 事务 的 可 用 性 。 但 是 ， 更 新 事务 
的 开销 会 增 大 。 控 制 几 个 事务 对 复制 数据 的 并 发 更 新 比 我 们 在 第 15 章 学 习 的 集中 式 系统 中 更 为 复杂 。 
我 们 可 以 通过 选择 关系 的 副本 之 一 作为 r 的 主 拷贝 (primary copy ) 来 简化 关系 7 的 副本 管理 。 例 如 ， 在 
银行 系统 中 ， 账 户 可 以 同 与 其 开户 站 点 关联 起 来 。 类 似 地 ， 在 机 票 预订 系统 中 ， 航 班 可 以 与 其 起 飞 的 
站 点 关联 起 来 。19. 5 节 将 讨论 用 于 分 布 式 并 发 控制 的 主 拷贝 方案 和 其 他 可 选 方案 。 
19. 2.2 数据 分 片 
如 果 关 系 r 是 分 片 的 ， 那么 r 划分 为 多 个 分 片 ，r;,，…,r, 中 。 这 些 分 片 包 含 足够 的 信息 使 得 
能 够 重 构 出 原始 关系 r-。 有 两 种 不 同 的 方案 用 于 对 关系 分 片 : 水 平分 片 和 垂直 分 片 。 水 平分 片 通过 将 
r 的 每 个 元 组 分 给 一 个 或 多 个 分 片 来 划分 关系 。 垂 直 分 片 通过 对 关系 的 模式 R 进行 分 解 来 划分 
关系 。 
在 水 平分 片 (horizontal fragmentation) 中 ,关系 7 划分 为 多 个 子 集 7 ，r,，…,，r,。 关 系 7 的 每 个 元 组 
必须 至 少 属于 其 中 一 个 分 片 ， 以 使 得 在 需要 时 可 以 重 构 出 原始 关系 。 
举 一 个 例子 ，account 关系 可 以 划分 为 几 个 不 同 的 分 片 ， 每 个 分 片 由 属于 特定 支行 的 账户 的 元 组 构 
成 。 如 果 银 行 系统 只 有 两 个 支行 ， 即 Hillside 和 Valleyview， 那 么 就 有 两 个 不 同 的 分 片 : 
account; = C branch nans="Hillaide" ( @CCOUNL ) 
account, = O branch name = "Valleyview" ( ACCOUN ) 
水 平分 片 通常 用 来 把 元 组 保持 在 它们 最 常 使 用 的 站 点 上 以 最 小 化 数据 的 传输 。 
一 般 而 言 ， 水 平分 片 可 以 定义 为 整个 关系 r 上 的 一 个 选择 。 也 就 是 说 ,使 用 谓词 P; 来 构造 分 片 7,: 
r=0p,(7) 
通过 将 所 有 分 片 合并 来 重 构 关系 r， 即 : 
rr Ur Ur 
在 该 例子 中 ,分 片 是 不 相交 的 。 通 过 改变 用 于 构造 分 片 的 选择 谓词 ， 可 以 让 7 的 特定 元 组 出 现在 
A ik—* 7, Fo 
垂直 分 片 最 简单 的 形式 和 分 解 ( 见 第 8 章 ) 是 一 样 的 。r(R) 的 垂直 分 片 (vertical fragmentation ) 涉及 
定义 模式 RULE SER, R, 00, Ro, ET: 
R=R UR U UR, 
r 的 每 个 分 片 7; 定义 为 : 
r, =p (7) 
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分 片 采用 的 方式 应 使 得 我 们 可 以 通过 采用 自然 连接 来 从 分 片 中 重 构 出 关系 7: 
r=r, Mr Mr XKE MT, 

保证 关系 -能 重 构 的 一 种 方法 是 在 每 个 R 中 包含 R 的 主 码 属 性 。 更 一 般 地 ， 可 以 使 用 任何 超 码 。 
在 模式 R 中 加 入 一 个 称 为 tuple-id 的 特殊 属性 通常 会 比较 方便 。 元 组 的 tuple-id 值 是 唯一 的 ， 可 以 将 该 
元 组 与 其 他 所 有 元 组 区 别 开 来 。 这 样 tuple-id 属性 就 作为 扩展 后 模式 的 一 个 候选 码 ， 并 包含 到 每 个 R 
中 。 元 组 的 物理 地 址 或 逻辑 地 址 可 以 用 作 tuple-id， 因 为 每 个 元 组 有 一 个 唯一 的 地 址 。 

为 了 说 明 垂 直 分 片 ， 考 虑 一 个 大 学 数据 库 ， 它 包含 关系 employee_info 来 存储 每 位 员工 的 employee_ 
id, name, designation 和 salary。 出 于 保密 的 缘故 ， 这 个 关系 可 能 分 为 关系 employee _private_info ( 包含 
employee_id 和 salary) 以 及 男 一 个 关系 employee_public_info( 包含 属性 employee_id, name 和 designation ) 。 
可 能 同样 出 于 安全 考虑 ， 它 们 可 能 存储 在 不 同 的 站 点 。 

两 种 类 型 的 分 片 可 以 应 用 到 单个 模式 上 ; 例如 ， 对 关系 水 平 划 分 后 得 到 的 分 片 可 以 进一步 垂直 划 

分 。 分 片 也 可 以 复制 。 一 般 而 言 ， 一 个 分 片 可 以 复制 ， 分 片 的 副本 可 以 进一步 分 片 ， 依 此 类 推 。 
19.2.3 透明 性 
分 布 式 数 据 库 系统 的 用 户 不 要 求知 道 数 据 的 物理 位 置 在 哪里 或 者 在 特定 本 地 站 点 上 的 数据 应 如 何 
访问 。 该 特点 称 为 数据 透明 性 (data transparency) ， 它 可 以 有 几 种 形式 ， 
© 分 片 透 明 性 ( fragmentation transparency) 。 用 户 不 要 求知 道 关 系 是 如 何 分 片 的 。 
。 复制 透明 性 (replication transparency) 。 在 用 户 看 来 ， 每 个 数据 对 象 逻 辑 上 都 是 唯一 的 。 分 布 式 
系统 可 能 为 了 提高 系统 性 能 或 者 数据 可 用 性 而 复制 对 象 。 用 户 不 必 关 心 什么 数据 对 象 被 复制 
了 ， 也 不 必 关 心 副 本 存放 在 何 处 。 

© 位 置 透明 性 (location transparency) 。 用 户 无 须知 道 数据 的 物理 位 置 。 只 要 用 户 事务 提供 数据 标 
识 符 ， 分 布 式 数据 库 系 统 应 能 够 找到 任何 数据 。 

数据 项 (例如 关系 、 分 片 和 副本 ) 必须 有 唯一 的 名 字 。 在 集中 式 数据 库 中 这 种 特性 容易 保证 。 但 
是 ,在 分 布 式 数据 库 中 我 们 必须 小 心 ， 保 证 两 个 站 点 没有 对 不 同 的 数据 项 使 用 相同 的 名 字 。 

解决 这 个 问题 的 一 种 方法 是 要 求 所 有 的 名 字 都 要 在 中 央 名 字 服 务 器 ( name server) 中 注册 。 和 名 字 服 
务 器 有 助 于 确保 同样 的 名 字 不 会 用 于 不 同 的 数据 项 。 我 们 也 可 以 使 用 名 字 服 务 器 根据 给 定 项 的 名 字 来 
定位 数据 项 。 但 是 ， 这 种 方法 受制 于 两 个 主要 的 缺点 。 首 先 ， 当 数据 项 通过 它们 的 名 字 来 定位 时 ， 名 
字 服 务 器 可 能 成 为 性 能 瓶颈 ， 导 致 性 能 低下 。 其 次 ， 如 果 名 字 服 务 器 崩溃 ， 分 布 式 系统 中 的 任何 站 点 
都 不 可 能 继续 运行 。 

一 种 更 为 广泛 使 用 的 可 选 方 法 要 求 每 个 站 点 都 将 其 自身 的 站 点 标识 符 作为 前 缀 加 到 它 所 产生 的 任 
何 名 字 前 面 。 这 种 方法 保证 没有 两 个 站 点 会 产生 相同 的 名 字 ( 因 为 每 个 站 点 都 有 唯一 的 标识 符 ) 。 此 外 
不 需要 中 央 控 制 。 但 是 ， 这 种 方法 无 法 实现 位 置 透明 性 ， 因 为 站 点 标识 符 被 附加 到 名 字 上 了 了。 这样， 
关系 account 就 可 能 需要 用 site17. account 或 者 account@ site17 来 引用 ， 而 不 是 简单 地 用 account 来 引用 . 
许多 数据 库 系统 使 用 站 点 的 互联 网 地 址 ( 卫 地 址 ) 来 标识 。 

为 了 解决 这 个 问题 ， 数 据 库 系 统 可 以 为 数据 项 创建 一 套 另外 的 名 字 或 别名 (alias) 。 这 样 用 户 就 可 
以 用 简单 的 名 字 来 引用 数据 项 ， 而 简单 的 名 字 被 系统 翻译 为 完整 的 名 字 。 从 别名 到 真实 名 字 的 映射 可 
以 存储 在 每 个 站 点 上 。 有 了 别名 ， 用 户 就 可 以 无 须 了 解数 据 项 的 物理 位 置 。 此 外 ， 如 果 数 据 库 管 理 员 
决定 将 数据 项 从 一 个 站 点 移 到 另 一 个 站 点 ， 用 户 也 不 会 受到 影响 。 

用 户 应 该 无 须 引 用 数据 项 的 特定 副本 。 相 反 ， 系 统 应 该 决定 在 read 请 求 时 引用 哪个 副本 ， 在 write 
请 求 时 应 该 更 新 所 有 副本 。 通 过 维护 目录 表 ( 系 统 用 它 来 确定 数据 项 的 所 有 副本 ) ， 我 们 可 以 保证 完成 
上 述 工作 。 


19.3 分布 式 事务 


在 分 布 式 系 统 中 对 各 种 数据 项 的 访问 常常 通过 事务 来 完成 ， 事 务必 须 保 持 ACID 特性 ( 见 14.1 
WW) 。 我 们 需要 考虑 两 种 类 型 的 事务 。 局 部 事务 ( local transaction) 是 那些 只 在 一 个 局 部 数据 库 中 访问 和 
更 新 数据 的 事务 ; 全 局 事务 (global transaction) 是 那些 多 个 局 部 数据 库 中 访问 和 更 新 数据 的 事务 。 局 部 
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事务 的 ACID 特性 可 以 用 在 第 14 ~ 16 章 中 讨论 的 方式 来 保证 。 但 是 对 于 全 局 事务 来 说 ， 这 项 任务 就 复 
杂 得 多 了 ， 因 为 多 个 站 点 可 能 参与 到 事务 的 执行 中 。 这 些 站 点 中 的 一 个 发 生 故障 ， 或 者 连接 这 些 站 点 
的 通信 和 链 路 发 生 故障 ， 都 可 能 导致 错误 的 计算 。 

在 本 节 中 ， 我 们 学 习 分 布 式 数 据 库 的 系统 结构 及 其 可 能 的 故障 模式 。 在 19.4 节 中 ,我们 学 习 为 了 
保证 全 局 事务 原子 性 提交 的 协议 ,在 19. 5 节 中 ， 我 们 学 习 分 布 式 数据 库 中 并 发 控制 的 协议 。 在 19. 6 
节 中 ， 我 们 学 习 分 布 式 数据 库 在 出 现 各 种 类 型 的 故障 的 情况 下 如 何 继续 工作 。 

19. 3. 1 系统 结构 


每 个 站 点 都 有 其 自身 的 局 部 事务 管理 器 ， 其 功能 是 保证 在 该 站 点 上 执行 的 那些 事务 的 ACID 特性 。 
各 个 事务 管理 器 相互 协作 以 执行 全 局 事务 。 为 了 理解 这 样 的 管理 器 是 怎样 实现 的 ， 考 虑 一 个 事务 系统 
的 抽象 模型 ， 其 中 每 个 站 点 包括 两 个 子 系统 : 
。 事务 管理 器 (transaction manager) 管理 那些 访问 存储 在 一 个 局 部 站 点 中 的 数据 的 事务 ( 或 子 事务 ) 
的 执行 。 注 意 每 个 这 样 的 事务 既 可 以 是 局 部 事务 ( 即 只 在 该 站 点 上 执行 的 事务 ) ， 也 可 以 是 全 局 
事务 ( 即 在 几 个 站 点 上 执行 的 事务 ) 的 一 部 分 。 
。 事务 协调 器 (transaction coordinator) 协调 在 该 站 点 上 发 起 的 各 个 事务 ( 既 有 局 部 的 也 有 全 局 的 ) 的 
执行 。 
整个 系统 的 体系 结构 如 图 19-2 所 示 。 








计算 机 1 计算 机 xn 
图 19-2 系统 体系 结构 


事务 管理 器 的 结构 在 许多 方面 同 集中 式 系统 的 结构 是 类 似 的 。 每 个 事务 管理 器 都 要 负责 : 
。 维护 一 个 用 于 恢复 目的 的 日 志 。 
。 参与 到 一 个 合适 的 并 发 控制 方案 ， 以 协调 在 该 站 点 上 执行 的 事务 的 并 发 执行 。 
正如 我 们 将 要 看 到 的 ， 为 了 适应 事务 的 分 布 性 ,我 们 需要 修改 恢复 方案 和 并 发 方案 。 
在 集中 式 环境 中 不 需要 事务 协调 器 子 系统 ， 因 为 事务 所 访问 的 数据 仅 在 单个 站 点 上 。 顾 名 思 义 ， 
事务 协调 器 负责 协调 该 站 点 上 发 起 的 所 有 事务 的 执行 。 对 每 个 这 样 的 事务 ， 协 调 器 负责 : 
。 启动 事务 的 执行 。 
。 将 事务 分 成 一 些 子 事务 ， 并 将 这 些 子 事务 分 派 给 合适 的 站 点 去 执行 。 
。 协调 事务 的 中 止 ， 这 可 能 导致 事务 在 所 有 站 点 上 都 提交 或 在 所 有 站 点 上 都 中 止 。 
19. 3.2 系统 故障 模式 
830 Ay Ai RFA BEY EE SS AE PRR HE FT HA SS AAA EEE (i RR BEER wk RE A 
| | on), PAEAAESSRIRSEEA SAh EEEE, BERAE: 
。 站 点 故障 。 
。 消息 丢失 。 
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© 通信 和 链 路 故障 。 

© 网 络 划分 。 

分 布 式 系统 中 总 是 可 能 发 生 消息 的 丢失 或 损坏 。 系 统 采用 传输 控制 协议 (如 TCP/IP) 来 处 理 这 样 的 
错误 。 关 于 这 类 协议 的 信息 在 有 关 网 络 的 标准 教科 书 中 可 以 找到 ( 见 文献 注解 ) 。 

然而 ， 如 果 两 个 站 点 4 和 B 不 直接 相连 ,消息 必须 通过 一 系列 的 通信 和 链 路 从 一 个 站 点 路 由 到 另 
一 个 站 点 。 如 果 有 一 条 通信 链 路 发 生 故 障 ， 通 过 该 链 路 传送 的 消息 必须 重新 路 由 。 在 某 些 情况 下 ， 
可 能 发 现 网 络 中 的 另 一 条 路 由 ， 这 样 消息 仍 能 到 达 它 们 的 目的 地 。 在 另 一 些 情况 下 ， 故 障 可 能 导致 
在 某 些 站 点 对 之 间 没 有 了 连接 。 如 果 一 个 系统 分 成 了 两 个 (或 更 多 ) 子 系统 ， 称 为 分 区 (partition ) ， 分 
区 之 间 缺 乏 任 何 连接 ， 该 系统 就 是 被 划分 ( partitioned) 的 。 注 意 在 这 种 定义 下 ， 分 区 可 能 由 单个 站 点 
构成 。 


19.4 提交 协议 


如 果 我 们 要 保证 原子 性 ， 执 行事 务 7 的 所 有 站 点 就 必须 在 执行 的 最 终结 果 上 达成 一 致 。7 必须 做 
到 要 么 在 所 有 站 点 上 都 提交 ， 要 么 在 所 有 站 点 上 都 中 止 。 为 了 保证 这 个 特性 ，7 的 事务 协调 器 必须 执 
行 一 个 提交 协议 。 

两 阶段 提交 (Two-Phase Commit, 2PC) 协议 是 最 简单 且 使 用 最 广泛 的 提交 协议 之 一 ， 将 在 19.4. 1 
节 介 绍 。 另 外 一 种 是 三 阶段 提交 (Three-Phase Commit, 3PC) 协议 ， 它 避免 了 2PC 协议 的 某 些 缺点 但 也 
增加 了 复杂 性 和 开销 。19. 4. 2 节 将 简要 概述 3PC 协议 。 

19. 4.1 两 阶段 提交 
我 们 首先 描述 两 阶段 提交 (2PC ) 协议 在 一 般 的 操作 中 是 如 何 进行 的 ， 然 后 描述 它 如 何 处 理 故 障 ， 
并 在 最 后 描述 它 如 何 实现 恢复 和 并 发 控制 。 
考虑 一 个 从 站 点 $; 发 起 的 事务 7, 设 $; 的 事务 协调 器 是 Co 
19.4.1.1 提交 协议 
当 了 完成 其 执行 时 ( 即 执行 了 的 所 有 站 点 都 通知 C; 已 完成 了 7 的 执行 ) C 启动 2PC 协议 。 
。 阶段 1。C; 将 记录 < prepare T> 加 到 日 志 中 ， 并 强制 日 志 写 人 稳定 存储 器 上 。 接 着 它 将 一 条 
prepare T 消息 发 送 到 执行 了 的 所 有 站 点 上 。 当 收 到 这 样 一 条 消息 时 ， 站 点 上 的 事务 管理 器 确 
定 它 是 否 愿 意 提 交 了 中 属于 它 的 那 部 分 。 如 果 答 案 是 “不 ”， 事 务 管理 器 就 把 记录 < no 7 > 加 到 
日 志 中 ， 然 后 通过 向 C; 发 送 一 条 abort T 消息 来 作为 响应 。 如 果 答 案 为 "是 ”， 事 务 管理 器 就 把 
记录 < ready 7 了 > 加 到 日 志 中 ， 并 将 日 志 (包括 所 有 与 了 相关 的 日 志 记录 ) 强 制 写 人 稳定 存储 器 
上 。 然 后 事务 管理 器 通过 向 C; 回复 一 条 ready 7 消息 作为 回答 。 

© 阶段 2。 当 Ci; 收 到 所 有 站 点 对 prepare 7 消息 的 回答 时 ， 或 者 自 prepare 7 消息 发 送 后 经 过 了 一 
个 预定 的 时 间 间 隔 时 ，C; 就 可 以 确定 是 将 事务 7 提交 还 是 中 止 。 如 果 C; 接受 到 来 自 所 有 参与 
站 点 的 ready T 消息， 那么 事务 了 可 以 提交 。 和 否则 ， 事 务 7 必须 中 止 。 根 据 结论 ， 要 么 将 记录 
< commit T > 要 么 将 记录 < abort T> 加 到 日 志 中 ， 并 将 日 志 强 制 写 人 稳定 存储 器 上 。 这 时 ， 事 
务 的 最 终结 果 就 已 经 确定 了 。 此 后 ， 协 调 器 向 所 有 参与 站 点 发 送 消息 commit Tak abort 7, “4 
站 点 收 到 此 消息 时 ， 它 就 把 此 消息 记录 到 日 志 中 。 

在 向 协调 器 发 送 ready 7 消息 之 前 ， 执 行 7 了 的 站 点 可 以 在 任何 时 候 无 条 件 地 中 止 7。 一 旦 发 出 
ready 7 消息 ， 站 点 上 的 事务 就 称 为 处 于 就 绪 状 态 ( ready state) 。 在 效果 上 ，ready 7 消息 是 站 点 所 做 的 
承诺 : 即 按照 协调 器 的 命令 来 提交 了 或 中 止 7。 为 了 做 出 这 样 的 承诺 ， 所 需 信 息 必 须 首 先 存储 在 稳定 
存储 器 中 。 否 则 ， 如 果 站 点 在 发 送 ready 7 后 崩溃 ， 它 可 能 就 不 能 兑现 自己 的 承诺 。 进 而 言 之 ， 事 务 
拥有 的 锁 必 须 继续 保留 直到 事务 结束 。 

由 于 提交 事务 需要 全 体 一 致 ， 因 此 一 旦 有 至 少 一 个 站 点 回答 abort 7， 事 务 7 的 最 终结 果 就 决定 
了 。 因 为 作为 协调 器 的 站 点 S 是 执行 7 的 站 点 之 一 ， 所 以 协调 器 可 以 单方 面 决定 中 止 7。 关 于 7 的 最 
后 结论 是 在 协调 器 将 此 结论 (提交 或 中 止 ) 写 入 日 志 并 强制 将 其 写 入 稳定 存储 器 时 确定 的 。 在 2PC 协议 
的 某 些 实现 中 ， 站 点 在 协议 第 二 阶段 的 最 后 向 协调 器 发 送 acknowledge 7 消息 。 当 协调 器 收 到 所 有 站 
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点 发 来 的 acknowledge 7 消息 时 ， 它 就 把 记录 < complete T> 加 到 日 志 中 
19.4.1.2 故障 处 理 
2PC 协议 对 于 不 同类 型 的 故障 有 不 同方 式 的 反应 : 
° 参与 站 点 故障 (failure of a participating site) 。 如 果 协 调 器 C 检测 到 某 个 站 点 发 生 了 故障 ， 它 将 
采取 如 下 行动 : 如 果 站 点 在 用 ready 7 消息 回答 C, 前 发 生 故 障 ， 则 协调 器 假定 该 站 点 是 用 
abort 7 消息 来 回答 的 。 如 果 站 点 在 协调 器 接收 到 从 该 站 点 发 来 的 ready 7 消息 后 发 生 故障 ， 则 
协调 器 就 按照 通常 的 方式 执行 提交 协议 的 剩余 部 分 ， 忽 略 该 站 点 的 故障 。 
833 当 参 与 站 点 5 从 故障 中 恢复 时 ， 它 必须 检查 它 的 日 志 来 决定 故障 发 生 时 正在 执行 中 的 事 
务 的 最 终结 果 。 设 7 是 一 个 这 样 的 事务 。 我 们 考虑 每 种 可 能 的 情况 : 

O 日 志 包 含 < commit 7 > 记录 。 在 这 种 情况 下 ， 该 站 点 执行 redo(7) ， 

O 日 志 包 含 <abort T > 记录 。 在 这 种 情况 下 ， 该 站 点 执行 undo(7) . 

O 日 志 包含 < ready T > 记录。 在 这 种 情况 下 ， 该 站 点 必须 询问 C, 以 决定 了 的 最 终结 果 。 如 果 
C; 正在 工作 ， 它 就 通知 S 关于 了 是 否 提交 或 中 止 的 信息 。 在 前 一 种 情况 下 ，S, 执行 redo 
(T); 在 后 一 种 情况 下 ，5, 执行 undo(7) 。 如 果 C, 出 现 故 障 ，5, 就 必须 试图 从 其 他 站 点 找 
到 了 的 最 终结 果 。 它 通过 向 系统 中 所 有 站 点 发 送 querystatus 7 消息 来 进行 这 一 操作 。 站 点 收 
到 这 样 一 条 消息 ， 就 必须 查阅 其 日 志 来 判定 了 是 否 在 该 站 点 上 执行 过 ， 如 果 是 ， 还 要 看 了 是 
否 提交 或 中 止 。 接 着 它 把 这 样 的 结果 告知 %。 如 果 没 有 站 点 提供 恰当 的 信息 ( 即 了 是 否 提交 
或 中 止 )， 那 么 S, 既 不 能 中 止 了 也 不 能 提交 7。 关于 7 的 决定 被 推迟 到 S, 能 得 到 所 需 信息 时 
Hiko PA, S, 必须 定期 地 向 其 他 站 点 重 发 querystatus 消息 。 它 不 断 这 么 做 ， 直 到 包含 所 
需 信 息 的 某 个 站 点 恢复 为 止 。 注 意 C 所 在 站 点 总 会 有 所 需 的 信息 。 

O 日 志 没 有 包含 关于 了 的 控制 记录 (abort、commit、ready)。 因 此 ， 我们 知道 S 在 响应 来 自 
C, 的 prepare 7 消息 前 发 生 了 故障 。 由 于 S, 的 故障 排除 了 发 送 这 样 一 个 响应 的 可 能 性 ， 根 据 
我 们 的 算法 ，C, 必须 中 止 了。 因此 ，5; 必须 执行 undo(7) . 

© 协调 器 故障 (failure of the coordinator) 。 如 果 协 调 器 在 为 事务 了 执行 提交 协议 的 过 程 中 发 生 故 障 ， 
那 就 必须 由 参与 的 那些 站 点 来 决定 事务 7 的 最 终结 果 。 我 们 将 会 看 到 ， 在 特定 情况 下 ， 参 与 站 
点 不 能 决定 是 否 提交 或 中 止 7， 因 此 这 些 站 点 必须 等 待 发 生 故障 的 协调 器 恢复 。 

O 如 果 活 跃 站 点 在 其 日 志 中 包含 <commit 7 > 记录 ， 则 7 了 必须 提交 。 

O 如 果 活 跃 站 点 在 其 日 志 中 包含 <abort 7> 记 录 ， 则 7 了 必须 中 止 。 

O 如 果 某 些 活 路 站 点 在 其 日 志 中 没有 包含 < ready 7 > 记录 ， 则 发 生 故 障 的 协调 器 C 不 可 能 已 
经 决定 将 7 提交， 因为 在 其 日 志 中 没有 < ready 7> 记录 的 站 点 不 会 已 经 向 C; 发 送 过 ready T 
消息 。 但 是 ， 协 调 器 可 能 已 经 决定 中 止 7 而 不 是 提交 7。 与 等 待 C; 恢复 相 比 ， 中 止 了 更 

834 为 可 取 。 

口 如 果 上 述 情况 均 不 成 立 ， 则 所 有 活跃 站 点 在 它们 的 日 志 中 都 有 < ready 7 > 记录 ,但 没有 
别 的 控制 记录 (如 <abort T > 或 < commit 7>)。 由 于 协调 器 已 发 生 故 障 ， 因 此 不 等 到 
协调 器 恢复 ， 就 不 可 能 确定 是 否 已 经 做 出 决定 ， 就 算 已 做 了 决定 也 不 知道 做 出 的 决定 是 
什么 。 因 此 ,活跃 站 点 必须 等 待 C; 的 恢复 。 由 于 了 的 最 终结 果 仍 然 是 一 个 疑问 ， 因 此 了 
可 能 继续 占用 系统 资源 。 例 如 ， 如 果 使 用 封锁 ，7 可 能 拥有 活跃 站 点 的 数据 上 的 锁 。 这 
种 情况 不 是 所 希望 的 ， 因 为 可 能 需要 数 小 时 或 者 数 天 之 后 C; 才能 重新 变 得 活跃 。 在 这 
段 时 间 内 ， 其 他 事务 可 能 被 迫 等 待 T7。 其 结果 是 ， 数 据 项 不 仅 在 发 生 故 障 的 站 点 (C;) 上 
不 可 用 ， 而 且 在 活跃 站 点 上 也 不 可 用 。 这 种 情况 称 为 阻塞 (blocking) 问题 ， 因 为 了 在 站 
AC 恢复 的 过 程 中 阻塞 。 

网 络 划分 (network partition) 。 当 网 络 被 划分 时 ， 存 在 两 种 可 能 性 : 

口 协调 器 和 它 的 所 有 参与 者 处 于 一 个 分 区 中 。 这 种 情况 下 ， 故 障 对 提交 协议 没有 影响 。 

O 协调 器 和 它 的 参与 者 属于 几 个 分 区 。 从 其 中 一 个 分 区 的 站 点 的 角度 来 看 ， 就 好 像 其 他 分 区 中 
的 站 点 发 生 了 故障 一 样 。 不 在 协调 器 所 位 于 的 分 区 中 的 站 点 只 需要 执行 协议 来 处 理 协 调 器 的 
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故障 。 协 调 器 以 及 与 协调 器 在 同一 分 区 中 的 站 点 遵循 平常 的 提交 协议 ， 假 设 其 他 分 区 中 的 站 
点 发 生 了 故障 。 

因此 ，2PC 协议 的 主要 缺陷 在 于 协调 器 故障 可 能 导致 阻塞 ， 这 种 情况 下 必须 等 到 C, 恢复 才能 做 出 
提交 或 中 止 了 的 决定 。 

19.4.1.3 恢复 与 并 发 控制 

当 故 障 站 点 重新 启动 时 ， 我 们 可 以 通过 使 用 如 16. 4 节 描 述 的 恢复 算法 来 执行 恢复 。 为 了 处 理 分 布 
式 提交 协议 ， 恢 复 过 程 必须 特殊 对 待 疑问 事务 (in-doubt transaction) ; 疑问 事务 是 发 现 有 < ready T> 日 
志 记 录 ， 但 既 未 发 现 < commit 7 > 日 志 记 录 ， 也 未 发 现 <abort T> 日 志 记 录 的 事务 。 如 同 19. 4. 1.2 节 
描述 的 那样 ， 恢 复 站 点 必须 通过 与 其 他 站 点 的 联系 来 确定 这 种 事务 的 提交 - 中 止 状 态 。 

但 是 ， 如 果 恢 复 像 刚才 所 描述 的 那样 执行 ， 该 站 点 上 正常 的 事务 处 理 就 只 有 等 所 有 疑问 事务 提交 
或 回 滚 后 才能 开始 。 找 出 疑问 事务 的 状态 可 能 会 很 慢 ， 因 为 可 能 不 得 不 与 多 个 站 点 进行 联系 。 此 外 ， 
如 果 协 调 器 发 生 故 障 ， 并 且 别 的 任何 站 点 都 没有 关于 未 完成 事务 的 提交 - 中 止 状态 信息 ， 在 使 用 2PC 
时 就 存在 恢复 被 阻塞 的 潜在 可 能 。 其 结果 是 ， 执 行 重启 恢复 的 站 点 在 很 长 一 段 时 间 内 都 保持 不 可 使 用 
状态 。 

为 了 防止 这 个 问题 ， 恢 复 算 法 通常 提供 对 在 日 志 中 记载 封锁 信息 的 支持 。( 我 们 在 此 假设 封锁 用 于 
并 发 控制 。) 该 算法 所 写 的 日 志 记录 不 是 <ready 7 > ， 而 是 < ready T, L> 日 志 记录 ， 其 中 也 是 写 人 日 
志 记 录 时 事务 了 持 有 的 所 有 写 锁 的 列表 。 在 恢复 时 ， 在 执行 局 部 恢复 动作 之 后 ， 对 每 个 疑问 事务 T 而 
言 ，< ready T, L> 日 志 记录 (从 日 志 中 读 到 ) 中 所 记载 的 所 有 写 锁 都 需要 重新 获取 。 

当 所 有 疑问 事务 的 封锁 重新 获取 完成 后 ， 即 使 在 疑问 事务 的 提交 - 中 止 状态 确定 之 前 ， 该 站 点 上 
的 事务 处 理 就 可 以 开始 了 。 疑 问 事 务 的 提交 或 回 深 与 新 事务 的 执行 是 并 发 进行 的 。 这 样 ， 站 点 恢复 就 
更 快 了 ， 并 且 不 再 会 阻塞 。 注 意 如 果 新 事务 持 有 的 封锁 与 疑问 事务 持 有 的 任何 写 锁 冲突 的 话 ， 那 么 新 
事务 只 有 等 与 之 冲突 的 疑问 事务 提交 或 回 滚 后 才能 继续 运行 。 
19.4.2 三 阶段 提交 

三 阶段 提交 (3PC ) 协 议 是 对 两 阶段 提交 协议 的 扩展 ， 它 在 特定 假设 下 避免 了 阻塞 问题 。 特 别 地 ， 
它 假设 不 发 生 网 络 划分 ， 并且 不 超过 此 个 站 点 发 生 故 障 ， 这 里 的 是 某 个 预先 定义 的 数值 。 在 这 些 假 
设 下 ， 该 协议 通过 引入 一 个 额外 的 第 三 阶段 来 避免 阻塞 ， 在 该 阶段 多 个 站 点 会 涉及 提交 的 决定 。 协 调 
器 不 是 在 其 持久 存储 中 直接 记录 提交 决定 ， 而 是 首先 保证 至 少 有 上 个 其 他 站 点 知道 它 打算 提交 事务 。 
如 果 协 调 器 出 故障 ， 剩 下 的 站 点 首先 选择 一 个 新 的 协调 器 。 这 个 新 的 协调 器 从 剩 下 的 站 点 中 检查 协议 
的 状态 ;如 果 协 调 器 已 经 决定 提交 ， 那 么 其 他 大 个 被 通知 的 站 点 中 至 少 有 一 个 还 在 工作 而 且 确保 提交 
决定 会 考虑 。 如 果 一 些 站 点 知道 旧 的 协调 器 打算 提交 事务 ， 那 么 新 的 协调 器 重新 开始 协议 的 第 三 阶段 , 
否则 新 的 协调 器 中 止 该 事务 。 

虽然 3PC 协议 有 令 人 满意 的 特性 一 一 它 只 在 个 站 点 故障 时 才 会 阻 寨 , 但 是 它 有 一 个 缺点 是 网 络 
划分 会 与 超过 上 个 站 点 发 生 故 障 产 生 同 样 的 效果 ， 而 这 将 导致 阻塞 。 协议 还 必须 小 心地 实现 以 保证 网 
络 划 分 (或 者 多 于 上 个 站 点 发 生 故 障 ) 不 会 导致 不 一 致 性 ， 即 在 一 个 分 区 中 事务 提交 ， 而 在 另 一 个 分 区 
中 事务 中 止 。 由 于 其 开销 的 原因 ，3PC 协议 没有 广泛 使 用 。 请 参看 文献 注解 中 的 文献 来 了 解 3PC 协议 
的 更 多 细节 。 
19. 4.3 事务 处 理 的 可 选择 性 模型 

对 于 许多 应 用 ， 两 阶段 提交 的 阻塞 问题 是 不 可 接受 的 。 这 里 的 问题 是 单个 事务 在 多 个 站 点 上 工作 
的 概念 。 这 一 节 描 述 如 何 使 用 持久 消息 来 避免 分 布 式 提交 的 问题 ， 然 后 简单 概述 工作 流 的 更 大 的 问题 ; 
26. 2 节 将 从 更 多 细节 上 考虑 工作 流 。 

为 了 理解 持久 消息 ， 考 虑 如 何在 两 个 不 同 的 银行 之 间 转 账 资金 ， 其 中 每 个 银行 都 有 它 自己 的 计算 
机 。 一 种 方法 是 产生 一 个 跨越 两 个 站 点 的 事务 ， 并 采用 两 阶段 提交 来 保证 原子 性 。 然 而 ， 该 事务 可 能 
需要 更 新 银行 的 总 余额 ， 并 且 阻 塞 会 对 每 个 银行 的 所 有 其 他 事务 产生 严重 影响 ， 因 为 几乎 银行 中 的 所 
有 事务 都 会 更 新 银行 的 总 余额 。 
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相反 ， 考 虑 如 何 通 过 银行 支票 来 进行 资金 转账 。 银 行 首先 从 可 用 的 余额 里 扣除 支票 金额 ， 并 把 支 
票 打 印 出 来 。 然 后 ， 支 票 被 物理 地 送 到 它 需 要 存 人 的 另 一 家 银行 。 在 审核 支票 之 后 ， 银 行 根据 支票 金 
额 来 增加 本 地 的 余额 。 支 票 就 构成 了 两 家 银行 之 间 的 一 次 消息 传递 。 为 了 使 资金 不 消失 也 不 错误 地 增 
长 ， 支 票 必须 不 能 丢失 、 复 制 或 者 存 人 多 次 。 当 银行 的 计算 机 通过 网 络 相 连 时 ， 持 久 消息 就 提供 和 支 
票 同样 的 服务 ( 当然 要 快 得 多 ) 。 
持久 消息 (persistent message) 是 这 样 的 消息 : 如 果 发 送 该 消息 的 事务 提交 ， 则 不 管 是 否 发 生 故 障 ， 
它 都 保证 传送 给 接受 者 恰好 一 次 ( 既 不 多 也 不 少 ) ; 如 果 该 事务 中 止 则 持久 消息 保证 不 传送 。 我 们 马上 
将 会 看 到 ， 在 一 般 网 络 通道 的 上 面 ， 采 用 数据 库 恢 复 技术 来 实现 持久 消息 。 相 反 ， 通 常 的 消息 在 某 些 
情况 下 可 能 会 丢失 或 者 甚至 传送 多 次 。 
持久 消息 的 错误 处 理 比 两 阶段 提交 更 复杂 。 例 如 ， 如 果 支 票 要 存 人 的 账户 已 经 关闭 ， 则 支票 必须 
被 送 回 并 且 退 还 到 原来 的 账户 。 因 此 两 个 站 点 都 必须 有 错误 处 理 代 码 ， 以 及 处 理 持 久 消 息 的 代码 。 相 
反 ， 使 用 两 阶段 提交 ， 错 误 可 以 被 事务 检测 到 ， 该 事务 就 不 会 扣除 第 一 家 银行 的 资金 。 
可 能 出 现 的 异常 情况 类 型 取决 于 应 用 ， 因 此 数据 库 系统 不 可 能 自动 处 理 异 常 。 发 送 和 接受 持久 消 
息 的 应 用 程序 必须 包含 处 理 异常 情况 的 代码 ， 并 且 可 以 使 系统 恢复 到 一 致 性 状态 。 例 如 ， 如 果 接 受 资 
金 的 账户 已 经 关闭 ， 则 丢失 正在 转账 的 资金 是 不 可 接受 的 : 资金 必须 归还 给 原来 的 账户 ， 并 且 如 果 由 
于 某 些 原因 不 能 这 样 处 理 ， 必 须发 出 警告 来 人 工 解 决 这 种 问题 。 
在 许多 应 用 中 消除 阻塞 的 好 处 和 实现 使 用 持久 消息 的 系统 所 需 付出 的 额外 代价 相 比 是 值得 的 。 事 
实 上 ， 由 于 故障 会 导致 本 地 数据 访问 的 阻塞 ， 因 此 很 少 有 组 织 机 构 会 同意 支持 在 该 组 织 机 构 之 外 发 起 
的 事务 的 两 阶段 提交 。 因 此 持久 消息 在 执行 跨越 组 织 机 构 边界 的 事务 中 扮演 了 重要 角色 。 
工作 流 提供 了 一 种 通用 的 事务 处 理 模 型 ， 涉 及 多 个 站 点 并 可 能 需要 人 工 处 理 特定 的 步骤 。 例 如 ， 
当 银 行 接收 到 一 个 借贷 申请 时 ， 在 批准 或 者 拒绝 这 个 借贷 申请 之 前 ， 它 必须 经 过 很 多 步 又， 包括 联系 
外 部 信用 检查 代理 。 所 有 步骤 一 起 形成 了 一 个 工作 流 。 我 们 将 在 26. 2 节 学 习 工 作 流 的 更 多 细节 。 我 们 
还 注意 到 持久 消息 在 分 布 式 环境 中 形成 了 工作 流 的 基础 。 
我 们 现在 考虑 持久 消息 的 实现 (implementation ) 。 持 久 消 息 可 以 通过 下 面 这 些 协 议 在 不 可 靠 的 消息 
传递 基础 架构 之 上 实现 ， 这 种 基础 架构 可 能 丢失 消息 或 多 次 传送 消息 。 
© 发 送 站 点 协议 (sending site protocol); 当 事 务 希 望 发 送 持久 消息 时 ， 它 在 专用 关系 messages_to_ 
send 中 写 一 条 包含 消息 的 记录 ， 而 不 是 直接 向 外 发 送 消 息 。 这 个 消息 也 被 赋予 一 个 唯一 的 消息 
标识 符 。 
消息 传送 进程 监控 该 关系 ， 当 发 现 一 条 新 消息 时 ， 它 将 消息 发 送 到 其 目的 地 。 通 常 的 数据 
库 并 发 控制 机 制 保证 系统 进程 只 在 写 消 息 的 事务 提交 之 后 才能 读 取 消息 ， 如 果 该 事务 中 止 ， 通 
常 的 恢复 机 制 将 从 该 关系 中 删除 消息 。 
消息 传送 进程 只 在 它 收 到 目的 站 点 的 确认 之 后 才 从 该 关系 中 删除 消息 ， 如 果 它 没有 收 到 来 
自 目的 站 点 的 确认 ， 在 一 段 时 间 之 后 它 将 重 发 消息 。 它 如 此 反复 直到 收 到 确认 为 止 。 万 一 发 生 
永久 故障 ， 系 统 将 在 一 段 时 间 之 后 决定 消息 无 法 传达 。 然 后 调用 由 应 用 程序 提供 的 异常 处 理 代 
码 来 处 理 故障 。 
在 事务 提交 之 后 才 将 消息 写 到 关系 并 处 理 它 ， 保 证 了 当 且 仅 当 事务 提交 之 后 消息 才 会 传 
送 。 重 复发 送 消息 保证 了 即使 在 ( 临时 的 ) 系 统 或 者 网 络 故障 的 时 候 ， 消 息 也 会 传送 。 
© 接收 站 点 协议 (receiving site protocol) 。 当 站 点 接收 到 持久 消息 时 ， 它 运行 一 个 事务 将 消息 加 入 
到 专用 关系 received_messages 中 ， 前 提 是 该 消息 没有 出 现在 该 关系 中 (唯一 的 消息 标识 符 允许 检 
测 出 重复 ) 。 在 事务 提交 之 后 ,或 者 消息 已 经 出 现在 该 关系 中 时 ， 接 收 站 点 向 发 送 站 点 发 回 一 
个 确认 。 
注意 到 在 事务 提交 前 发 送 确认 是 不 安全 的 ， 因 为 随后 发 生 的 系统 故障 可 能 导致 消息 的 丢失 。 有 必 
要 检查 消息 是 否 早先 已 经 接收 过 以 避免 消息 的 多 次 传送 。 
在 许多 消息 系统 中 ， 尽 管 随机 的 消息 延迟 很 少 发 生 ， 但 是 有 可 能 发 生 。 因 此 ， 为 了 安全 ， 消 息 必 
须 永 不 从 关系 received_messages 中 删除 。 删 除 消息 会 导致 无 法 检测 到 重复 传送 。 但 是 这 样 做 的 结果 会 导 
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致 关系 received_messages 的 无 限 增长 。 为 了 处 理 这 个 问题 ， 每 条 消息 被 赋 子 一 个 时 间 稚 ， 并 且 如 果 接 收 
到 的 消息 的 时 间 戳 比 某 个 截止 期 老 ， 则 该 消息 被 丢弃 。 在 关系 received_messages 中 记录 的 比 截止 期 老 的 
所 有 消息 都 可 以 删除 。 


19.5 分布 式 数据 库 中 的 并 发 控制 


这 里 说 明 第 15 章 所 讨论 的 某 些 并 发 控制 模式 该 做 何 种 修改 以 使 之 适用 于 分 布 式 环境 。 我 们 假设 每 
个 站 点 都 参与 到 提交 协议 的 执行 中 ， 以 保证 全 局 事务 的 原子 性 。 

本 节 描 述 的 协议 需要 对 数据 项 的 所 有 副本 进行 更 新 。 如 果 任 何 一 个 包含 数据 项 副本 的 站 点 发 生 故 
障 ， 那么 对 该 数据 项 的 更 新 就 不 能 进行 。19.6 节 描 述 即 使 在 一 些 站 点 或 者 链接 发 生 故 障 时 仍 能 继续 事 
务 处 理 ， 从 而 提供 高 可 用 性 的 一 些 协议 。 

19.5.1 封锁 协议 

第 15 章 描 述 的 各 种 封锁 协议 都 可 用 于 分 布 式 环境 中 。 需 要 做 的 唯一 改变 是 锁 管 理 器 处 理 复 制 数据 
的 方式 。 我 们 给 出 适用 于 数据 能 在 几 个 站 点 上 复制 的 环境 下 的 几 种 可 能 的 模式 。 和 第 15 章 一 样 ， 我 们 
将 假设 存在 共享 和 排他 封锁 模式 。 

19.5.1.1 单一 锁 管 理 器 方式 

在 单一 锁 管 理 器 (single lock-manager) 方 式 下 ， 系 统 维护 位 于 单个 选 定 站 点 (如 S) 中 的 单一 锁 管 理 
器 。 所 有 封锁 和 解锁 请 求 都 在 站 点 5; 上 处 理 。 当 事务 需要 给 数据 项 加 锁 时 ， 它 就 向 S, 发 封锁 请 求 。 锁 
管理 器 决定 锁 是 否 能 够 立即 授予 。 如 果 锁 能 够 授予 ， 锁 管理 器 就 给 发 起 封锁 请 求 的 站 点 发 一 条 告知 此 
结果 的 消息 。 和 否则， 请 求 就 推迟 直到 锁 能 授予 为 止 ， 这 时 才能 发 送 消息 给 发 起 封锁 请 求 的 站 点 。 事 务 
可 以 从 该 数据 项 副本 所 在 站 点 中 的 任何 一 个 来 读 取 该 数据 项 。 在 写 情 况 下 ， 所 有 存在 该 数据 项 副本 的 
站 点 都 必须 参与 到 写 操作 中 。 

这 个 模式 有 这 些 优点 : 

© 实现 简单 (simple implementation) 。 该 模式 处 理 封锁 请 求 需要 两 条 消息 ， 处 理解 锁 请 求 需要 一 条 

消息 。 

© 死 锁 处 理 简 单 (simple deadlock handling) 。 由 于 所 有 封锁 和 人 解锁 请 求 在 一 个 站 点 上 处 理 ， 因 此 可 

以 直接 运用 第 15 章 讨 论 的 死 锁 处 理 算法 。 

这 个 模式 的 缺点 是 : 

© 瓶颈 (bottleneck) 。 站 点 $; 成 为 瓶颈 ， 因 为 所 有 请 求 都 必须 在 这 里 处 理 。 

© Wess tt (vulnerability), MRS, 发 生 故 障 ， 就 会 丢失 并 发 控制 器 。 要 么 必须 停止 处 理 过 程 ， 要 么 

必须 像 19. 6. 5 节 描 述 的 那样 使 用 恢复 方案 来 使 一 个 后 备 站 点 从 S 那里 接手 封锁 管理 。 

19. 5. 1.2 分 布 式 锁 管理 器 

通过 分 布 式 锁 管理 器 ( distributed lock-manager) 方 法 可 以 达到 优点 和 缺点 之 间 的 一 种 折 中 方案 ,在 
该 方案 中 封锁 管理 器 功能 分 布 在 多 个 站 点 上 。 

每 个 站 点 维护 一 个 本 地 锁 管 理 器 ， 它 的 功能 是 管理 存储 在 该 站 点 上 的 那些 数据 项 的 封锁 和 解锁 
请 求 。 当 事务 想 要 封锁 数据 项 O(@ 未 复制 ， 且 存储 在 站 点 5; 上 ) 时 ， 就 发 送 一 条 消息 到 站 点 5, 上 的 
锁 管 理 器 来 请 求 一 个 锁 ( 以 特定 的 锁 模 式 ) 。 如 果 数 据 项 0 以 不 相 容 的 模式 封锁 ， 那 么 请 求 就 会 延迟 
到 锁 可 以 授予 为 止 。 一 旦 锁 管 理 器 决定 允许 封锁 请 求 ， 就 向 发 起 者 发 消息 来 表明 其 封锁 请 求 已 经 
许可 。 

19.5.1.3 ~ 19. 5. 1. 6 节 将 讨论 处 理 数据 项 复制 的 几 种 可 选 方法 。 

分 布 式 锁 管 理 器 模式 具有 实现 简单 的 优点 ， 而 且 减 轻 了 协调 者 成 为 瓶颈 的 程度 。 它 有 合理 的 低 开 
销 ， 处 理 封锁 请 求 需要 两 次 消息 传输 ， 并 且 处 理解 锁 请 求 只 需 一 次 消息 传输 。 但 是 ， 由 于 封锁 和 解锁 
请 求 不 再 在 单个 站 点 上 处 理 ， 因 此 死 锁 处 理 更 加 复杂 : 即使 在 单个 站 点 内 没有 死 锁 ， 仍 可 能 会 在 站 点 
之 间 发 生死 锁 。 为 了 检测 全 局 的 死 锁 ， 第 15 章 讨论 的 死 锁 处 理 算法 必须 修改 ， 对 此 我 们 将 在 19. 5.4 
节 讨 论 。 
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19.5.1.3 主 副 本 
在 系统 使 用 数据 复制 时 ， 我 们 可 以 选择 一 个 副本 作为 主 副本 (primary copy ) 。 对 每 个 数据 项 0 而 
，Q 的 主 副本 必然 正好 位 于 一 个 站 点 上 ， 我 们 称 其 为 Q 的 主 站 点 (primary site), 
当 事 务 需要 封锁 数据 项 0 时 ， 它 在 @ 的 主 站 点 上 请 求 封锁 。 和 前 面 一 样 ， 对 该 请 求 的 响应 会 推迟 
到 该 请 求 能 满足 为 止 。 主 副本 使 得 对 已 复制 数据 的 并 发 控制 可 以 像 处 理 未 复制 的 数据 一 样 。 这 种 相似 
性 简化 了 实现 。 然 而 ， 如 果 0 的 主 站 点 发 生 故 障 ， 即 使 包含 副本 的 其 他 站 点 是 可 以 访问 的 ，0 也 不 能 
被 访问 了 。 
19.5.1.4 多 数 协 议 
多 数 协 议 ( majority protocol) 以 这 种 方式 工作 : 如 果 数 据 项 0 在 n 个 不 同 的 站 点 复制 ， 则 封锁 请 求 
消息 必须 发 送 到 存储 0 的 nn 个 站 点 中 一 半 以 上 的 站 点 。 每 个 锁 管 理 器 ( 只 要 是 牵涉 的 ) 确定 锁 是 否 能 立 
即 授予 。 和 前 面 一 样 ， 响 应 推迟 到 该 请 求 能 满足 时 为 止 。 事务 只 有 在 成 功 获得 0 的 多 数 副 本 上 的 锁 之 
后 才能 开始 Q 上 的 操作 。 
我 们 暂时 假定 在 所 有 副本 上 执行 写 操作 时 ， 要 求 包含 副本 的 所 有 站 点 都 是 可 用 的 。 但 是 ， 多 数 协 
议 的 主要 优点 是 它 能 扩展 来 处 理 站 点 故障 ， 正 如 我 们 将 在 19. 6. 1 节 中 看 到 的 那样 。 此 协议 还 以 分 散 的 
方式 来 处 理 复制 的 数据 ， 因 此 避免 了 集中 控制 的 缺点 。 但 是 ， 它 有 这 些 缺 点 : 
。 实现 (implementation)。 多 数 协 议 比 前 面 的 方案 在 实现 上 更 为 复杂 。 它 至 少 需 要 2(n/2+1) 条 消 
息 来 处 理 封锁 请 求 ， 至 少 需 要 (n/2 +1) 条 消息 来 处 理解 锁 请 求 。 

© 死 锁 处 理 ( deadlock handling) 。 除 了 因为 使 用 分 布 式 锁 管 理 器 方式 而 产生 的 全 局 死 锁 问 题 ， 即 使 
只 有 一 个 数据 项 被 封锁 也 可 能 发 生死 锁 。 作 为 例子 ， 考 查看 一 个 有 4 个 站 点 和 完全 复制 的 系 
统 。 假 设 事务 7, AT, 希望 以 排他 模式 封锁 数据 项 0。 事务 7, 可 能 在 站 点 S AS, 上 成 功 封锁 
Q, MBS T, 可 能 在 站 点 S, AS, 上 成 功 封锁 0。 然 后 两 个 事务 必须 等 待 获得 第 三 个 锁 ; 于 是 
就 发 生 了 死 锁 。 幸 运 的 是 ， 通 过 要 求 所 有 站 点 以 相同 的 预定 顺序 来 请 求 数 据 项 副本 上 的 封锁 ， 
我 们 可 以 比较 容易 地 避免 这 样 的 死 锁 。 

19.5.1.5 有 偏 协 议 

有 偏 协议 (biased protocol) 是 另 一 种 处 理 复制 的 方法 。 与 多 数 协议 的 区 别 是 对 共享 锁 请 求 的 待遇 比 
排他 锁 请 求 要 优越 一 些 。 

。 共享 锁 ( shared lock) 。 当 事务 需要 封锁 数据 项 O 时 ， 它 只 需要 向 包含 8 的 副本 的 一 个 站 点 上 的 

锁 管 理 器 请 求 0 上 的 锁 。 
© 排他 锁 (exclusive lock) 。 当 事务 需要 封锁 数据 项 0 时 ， 它 需要 向 包含 Q 的 副本 的 所 有 站 点 上 的 
锁 管 理 器 请 求 0 上 的 锁 。 
和 前 面 一 样 ， 对 请 求 的 响应 推迟 到 该 请 求 能 满足 为 止 。 

有 偏 模 式 具 有 附加 到 读 (read) 操 作 上 的 开销 比 多 数 协 议 要 小 的 优点 。 通 常情 况 下 读 ( read) 频 率 比 
写 (write ) 频率 要 高 得 多 ， 这 种 开销 的 节省 就 尤为 明显 。 但 是 ， 写 上 的 额外 开销 是 此 模式 的 一 个 缺点 。 
此 外 ， 有 偏 协议 和 多 数 协 议 一 样 具 有 死 锁 处 理 复杂 的 缺点 。 

19.5.1.6 法 定 人 数 同意 协议 

法 定 人 数 同意 ( quorum consensus ) 协 议 是 多 数 协议 的 一 种 概 化 。 法 定 人 数 同意 协议 给 每 个 站 点 分 配 
一 个 非 负 的 权重 。 它 为 数据 项 x 上 的 读 和 写 操作 分 配 两 个 整数 ， 称 作 读 法 定 人 数 (read quorum) Q, 和 写 
法 定 人 数 (write quorum) 0,， 它 们 必须 满足 下 面 的 条 件 ， 其 中 5 是 x 所 在 的 所 有 站 点 的 总 权重 : 

Q,+ Q,> Sand20,>5 

为 了 执行 读 操作 ， 必 须 封锁 足够 的 副本 ， 使 它们 的 总 权重 至 少 是 r。 为 了 执行 写 操作 ， 必 须 封锁 足 
够 的 副本 ， 使 它们 的 总 权重 至 少 是 w。 

法 定 人 数 同意 方法 的 好 处 是 : 通过 合适 地 定义 读 和 写法 定 人 数 ， 它 能 够 选择 性 地 降低 读 或 者 写 封 
锁 的 代价 。 例 如 ， 如 果 读 法 定 人 数 很 小 ， 读 操作 只 须 获 得 较 少 的 锁 ， 但 是 写法 定 人 数 就 会 比较 高 ， 因 
此 写 操作 需要 获得 更 多 的 锁 。 当 然 ， 如 果 某 些 站 点 被 分 配 了 较 大 的 权重 (例如 ， 那 些 很 少 可 能 发 生 故 障 
的 站 点 ) ， 那 么 在 封锁 请 求 时 需要 访问 的 站 点 会 更 少 一 些 。 事 实 上 ， 通 过 合适 地 设置 权重 和 法 定 人 数 ， 
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法 定 人 数 同意 协议 可 以 模拟 多 数 协 议和 有 偏 协议 。 

和 多 数 协 议 一 样 ， 法 定 人 数 同意 协议 能 扩展 为 甚至 在 站 点 故障 情况 下 工作 ， 正 如 我 们 将 在 19. 6. 1 
节 中 看 到 的 那样 。 
19.5.2 MFE 

15. 4 节 中 的 时 间 戳 模式 后 面 的 基本 思想 是 : BS SR — or R, ATER 
决定 串 行 化 顺序 。 因 而 ， 在 将 集中 式 模式 推广 到 分 布 式 模式 时 ， 我 们 的 首要 任务 就 是 设计 一 种 产生 唯 
一 时 间 惟 的 方案 。 这 样 ， 前 面 的 各 种 协议 就 可 以 直接 运用 于 无 复制 的 环境 

产生 唯一 时 间 戳 的 方法 主要 有 两 种 ， 一 种 是 集中 式 的 ， 而 另 一 种 是 分 布 式 的 。 在 集中 式 模式 中 ， 
由 单个 站 点 来 分 发 时 间 惟 。 这 个 站 点 可 以 用 逻辑 计数 器 或 其 自身 的 本 地 时 钟 来 达到 此 目的 。 

在 分 布 式 模式 中 ， 每 个 站 点 使 用 逻辑 计数 器 或 本 地 时 钟 来 产生 唯一 的 局 部 时 间 戳 。 通 过 将 唯一 的 
局 部 时 间 惟 和 站 点 标识 符 (也 必须 是 唯一 性 的 ) 串 接 起 来 ,我们 得 到 了 唯一 的 全 局 时 间 戳 ( 见 图 19-3 ) 
串 接 的 顺序 是 很 重要 的 ! 我 们 把 站 点 标识 符 放 在 重要 性 低 的 位 置 ， 以 保证 一 个 站 点 上 产生 的 全 局 时 间 
堆 不 会 总 是 比 另 一 个 站 点 上 产生 的 全 局 时 间 戳 大。 请 比较 这 种 产生 唯一 时 间 戳 的 技术 和 19. 2. 3 节 介绍 
的 产生 唯一 名 称 的 技术 。 


局 部 唯一 
FA Fa] 


站 点 
标识 符 





全 局 唯一 
标识 符 


图 19-3 ”唯一 时 间 戳 的 产生 


如 果 一 个 站 点 产生 局 部 时 间 戳 的 速率 比 其 他 站 点 高 ， 我 们 仍然 会 遇 到 问题 。 在 这 种 情况 下 ， 人 快 站 
点 的 逻辑 计数 器 会 比 其 他 站 点 的 大 。 因 此 ， 快 站 点 产生 的 所 有 时 间 惟 会 比 其 他 站 点 产生 的 时 间 惟 大 
我 们 需要 一 种 机 制 来 保证 整个 系统 中 局 部 时 间 戳 能 公平 地 产生 。 我 们 在 每 个 站 点 5; 中 定义 一 个 逻辑 时 
钟 (logical clock) (ZC;) ， 后 者 产生 唯一 的 局 部 时 间 戳 。 逻 辑 时 钟 可 以 用 计数 器 来 实现 ， 每 产生 一 个 新 
的 局 部 时 间 惟 计数 器 就 递增 。 为 了 保证 不 同 的 逻辑 时 钟 是 同步 的 ， 我 们 要 求 无 论 什 么 时 候 ， 只 要 具有 
AY TBR <x, y> 的 事务 7, 访问 站 点 5; 并 且 x 大 于 LC; 的 当前 值 ，S; 就 增 大 其 逻辑 时 钟 。 在 这 种 情况 下 ， 
站 点 5; 将 其 逻辑 时 钟 增 大 到 值 x+ 1。 

如 果 用 系统 时 钟 来 产生 时 间 戳 ， 只 要 任意 站 点 的 系统 时 钟 都 不 会 运行 过 快 或 过 慢 ， AA fal 
分 配 就 是 公平 的 。 由 于 时 钟 可 能 不 是 完全 精确 的 ， 因 此 必须 采用 和 用 于 逻辑 时 钟 类 似 的 技术 来 保证 没 
有 时 钟 比 另 一 个 时 钟 更 快 或 更 慢 。 
19.5.3 ” 弱 一 致 性 级 别 的 复制 

现在 许多 商用 数据 库 都 支持 某 种 形式 的 复制 。 在 主 从 复制 (master-slave replication) 的 情况 下， 数据 
库 允许 在 主 站 点 上 更 新 ， 并 自动 将 更 新 传播 到 其 他 站 点 上 的 副本 。 事 务 可 以 在 其 他 站 点 上 读 取 副本 ， 
但 是 不 允许 对 它们 更 新 。 . 

这 种 复制 的 一 个 重要 特性 是 事务 在 远程 站 点 上 没有 得 到 锁 。 为 了 保证 运行 在 副本 站 点 上 的 事务 看 
到 数据 库 的 一 致 性 (但 可 能 是 过 期 的 ) 视 图 副本 应 该 反映 主 站 点 上 数据 的 事务 一 致 快照 (transaction- 
consistent snapshot) ; 即 ， 副 本 应 该 反映 在 串 行 化 顺序 中 先 于 某 个 事务 的 那些 事务 所 做 的 所 有 更 新 ， 而 
不 应 该 反映 在 串 行 化 顺序 中 后 于 该 事务 的 那些 事务 所 做 的 任何 更 新 。 

数据 库 可 能 配置 成 在 主 站 点 发 生 更 新 之 后 马上 传播 更 新 ， 或 者 只 是 周期 性 地 传播 更 新 。 

主 从 复制 对 于 分 发 信息 特别 有 用 ， 例 如 从 一 个 组 织 机 构 的 中 央 办 公 室 到 分 支 办 公 室 。 这 种 复制 形 
式 的 另 一 个 应 用 是 创建 数据 库 的 副本 以 运行 大 的 查询 ， 这 样 查询 就 不 会 与 事务 交互 。 更 新 应 该 周期 性 
地 传播 (例如 ， 每 个 晚上 ) ， 这 样 更 新 传播 就 不 会 影响 到 查询 处 理 。 

Oracle 数据 库 系 统 支 持 快照 创建 (create snapshot) 语句， 该 语句 可 以 创建 远程 站 点 上 一 个 关系 或 一 
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组 关系 的 事务 一 致 性 快照 副本 。 它 也 支持 快照 刷新 ， 可 以 通过 重新 计算 或 增 量 更 新 快照 来 实现 。Oracle 


支持 自动 刷新 ， 刷 新 可 以 是 连续 的 也 可 以 是 按 周 期 性 时 间 间 隔 的 。 





在 多 主 副 本 (multimaster replication) (也 称 为 可 在 任何 地 方 更 新 的 复制 (update-anywhere replication ) ) 
情况 下 ， 人 允许 在 数据 项 的 任何 副本 上 更 新 ， 并 且 自 动 传播 到 所 有 副本 。 这 种 模型 是 用 于 管理 分 布 式 数 
据 库 副 本 的 基本 模型 。 事 务 更 新 本 地 的 副本 ， 并 由 系统 透明 地 更 新 其 他 副本 。 
更 新 副本 的 一 种 方法 是 使 用 我 们 见 过 的 一 种 分 布 式 并 发 控制 技术 ， 以 两 阶段 提交 来 实现 立即 更 新 。 
许多 数据 库 系 统 使 用 有 偏 协 议 来 作为 它们 的 并 发 控制 技术 ， 其 中 写 操 作 必 须 封 锁 和 更 新 所 有 副本 ， 且 
读 操 作 仅 封锁 和 读 取 任 意 副 本 。 
许多 数据 库 系 统 提 供 另 一 种 形式 的 更 新 : 它们 在 一 个 站 点 上 更 新 ， 采 用 延迟 传播 (lazy propagation ) 
将 更 新 传播 到 其 他 站 点 ， 而 不 是 把 更 新 立即 传播 到 所 有 副本 的 操作 作为 事务 执行 更 新 的 一 部 分 。 即 使 
在 一 个 站 点 与 网 络 断 连 时 ， 基 于 延迟 传播 的 方案 仍 允 许 进行 事务 处 理 ( 包 括 更 新 ) ， 因 而 提高 了 可 用 
性 ， 但 遗憾 的 是 ， 这 样 做 是 以 牺牲 一 致 性 为 代价 的 。 在 使 用 延迟 传播 时 ， 以 下 两 种 方法 之 一 通常 被 
采用 : 
。 在 副本 上 的 更 新 被 转化 为 在 主 站 点 上 的 更 新 ， 然 后 延迟 传播 到 所 有 副本 。 这 种 方法 保证 对 数据 
项 的 更 新 以 串 行 化 顺序 进行 ， 但 是 可 能 发 生 可 串 行 化 问题 ， 因 为 事务 可 能 读 取 某 些 其 他 数据 项 
的 旧 值 并 用 它 来 执行 更 新 。 

。 更 新 在 任何 副本 上 执行 ， 并 传播 到 所 有 其 他 副本 。 由 于 同一 个 数据 项 可 能 在 多 个 站 点 并 发 地 更 
新 ， 因 此 这 种 方法 可 能 导致 更 多 的 问题 。 

当 更 新 传播 到 其 他 站 点 (我 们 将 在 25. 5. 4 节 中 看 到 如 何 操作 ) 时 ， 由 于 缺少 分 布 式 的 并 发 控制 ， 可 
能 会 检测 到 一 些 冲 突 ， 但 是 解决 冲突 涉及 已 提交 事务 的 回 滚 ， 这 样 就 无 法 保证 已 提交 事务 的 持久 性 。 
并 且 ， 可 能 需要 人 为 干涉 来 处 理 冲突 。 因 此 上 面 的 方案 应 该 避免 或 者 小 心 使 用 。 

19.5.4 死 锁 处 理 

第 15 章 中 的 死 锁 预 防 和 死 锁 检测 算法 只 要 做 一 些 修改 就 可 以 用 于 分 布 式 系统 中 。 例 如 ， 我 们 可 以 
通过 在 系统 数据 项 之 间 定 义 一 棵 全 局 树 就 可 以 使 用 树 协议 。 类 似 地 ， 正 如 我 们 在 19.5.2 节 中 看 到 的 那 
样 ， 时 间 惟 排序 方法 可 以 直接 用 于 分 布 式 环境 。 

死 锁 预防 可 能 导致 不 必要 的 等 待 和 回 滚 。 此 外 ， 特 定 的 死 锁 预 防 技术 与 不 采用 这 些 技术 的 情况 相 
比 ， 可 能 需要 更 多 站 点 参与 到 事务 的 执行 中 。 

如 果 我 们 允许 发 生死 锁 并 依赖 于 死 锁 检测 ， 那 么 分 布 式 系统 中 的 主要 问题 就 是 决定 如 何 维护 等 待 
图 。 处 理 这 个 问题 的 常用 技术 要 求 每 个 站 点 维护 一 个 局 部 等 待 图 ( local wait-for graph) 。 图 中 的 节点 对 
应 于 目前 占有 或 请 求 该 站 点 上 任何 局 部 数据 项 的 所 有 事务 ( 局 部 的 和 非 局 部 的 ) 。 例 如 ， 图 19-4 描述 了 
一 个 包含 两 个 站 点 的 系统 ， 每 个 站 点 维护 自己 的 局 部 等 待 图 。 注 意 事务 T, 和 7 在 两 个 图 中 都 出 现 ， 
这 表明 它们 在 两 个 站 点 上 都 有 数据 项 请 求 。 

这 些 局 部 等 待 图 以 一 种 通常 的 方式 来 构造 ， 用 于 表达 局 部 事务 和 数据 项 。 当 站 点 S, 上 的 事务 7 需 
要 站 点 S 上 的 资源 时 ， 它 就 向 站 点 5S, 发 请 求 消息 。 如 果 该 资源 被 事务 7 占用， 系统 就 把 一 条 7. 一 7 
的 边 插入 到 站 点 S, 的 局 部 等 待 图 中 。 

显然 ， 如 果 任 意 的 局 部 等 待 图 中 存在 环 ， 就 已 经 发 生 了 死 锁 。 另 一 方面 ， 任 意 的 局 部 等 待 图 中 
都 不 存在 环 却 并 不 意味 着 没有 和 死 锁 。 为 了 说 明 这 个 问题 ， 我 们 考虑 图 19-4 中 的 局 部 等 竺 图。 每 个 等 
待 图 都 是 无 环 的 ; 然而 ， 系 统 中 却 存 在 死 锁 ， 因 为 局 部 等 待 图 的 并 包含 一 个 环 。 这 个 图 在 图 19-5 中 
给 出 。 

在 集中 式 死 锁 检测 ( centralized deadlock detection ) 方 法 中 ， 系 统 在 单个 站 点 中 构造 和 维护 一 个 全 局 
等 待 图 ( global wail-for graph) ( 所 有 局 部 图 的 并 ) : 该 站 点 是 死 锁 检测 的 协调 器 。 由 于 系统 中 存在 通信 延 
述 ， 我 们 必须 区 分 两 类 等 待 图 。 真 实 图 描述 了 系统 在 任意 时 刻 真实 的 但 不 为 人 知 的 状态 ， 就 像 无 所 不 
知 的 观察 者 所 能 看 到 的 那样 。 构 造 图 是 控制 器 在 执行 控制 器 算法 中 产生 的 一 种 近似 。 显 然 ， 控制 器 必 
须 以 下 述 方式 产生 构造 图 : 即 无 论 何 时 调用 检测 算法 ， 报 告 的 结果 都 是 正确 的 。 这 种 情况 下 的 正确 是 
指 : 如 果 存 在 死 锁 ， 会 迅速 报告 它 ; 而 如 果 系 统 报告 了 死 锁 ， 它 就 确实 处 于 死 锁 状态 。 


站 点 51 站 点 So 
图 19-4 局 部 等 待 图 


全 局 等 待 图 可 以 在 这 些 情况 下 重 构 或 更 新 : 


© 每 当 一 条 新 的 边 插入 到 局 部 等 待 图 或 从 中 删除 一 条 边 时 。 


周期 性 地 ， 当 局 部 等 待 图 中 发 生 大 量 改变 时 。 
每 当 协 调 器 需要 调用 环 检测 算法 时 。 
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图 19-5 图 19-4 的 全 局 等 待 图 








在 协调 器 调用 死 锁 检 测算 法 的 时 候 ， 协 调 器 搜索 它 的 全 局 图 。 如 果 它 发 现 环 ， 就 选 出 环 中 的 一 个 
牺牲 者 去 回 滚 。 协 调 器 必须 告知 所 有 站 点 特定 事务 被 选 作 牺牲 者 。 于 是 这 些 站 点 将 该 牺牲 事务 回 滚 。 

在 下 述 情况 下 ， 该 方案 可 能 产生 不 必要 的 回 滚 : 

。 在 全 局 等 待 图 中 存在 假 环 (false cycle) 。 作 为 例子 ， 考 察 图 19-6 中 的 局 部 等 待 图 所 代表 的 系统 


快照 。 假 设 T, 释放 它 在 站 点 S 中 所 占用 的 资 
源 ， 导 致 从 S 中 删除 边 T 一 7,。 接 着 事务 7 
请 求 站 点 $5, ERT, 所 占用 的 资源 ， 导 致 在 >。 
中 增加 边 一 7 。 如 果 来 自 S, 的 消息 insert 
7T, 一 7T, 早 于 来 自 $ 的 消息 remove 7 一 7,， 则 
协调 器 在 insert 后 (但 在 remove 前 ) 可 能 会 发 现 
假 环 7 一 7, 一 7。 死 锁 恢复 可 能 启动 ， 尽 管 并 
没有 发 生死 锁 。 

注意 假 环 现象 在 两 阶段 封锁 中 是 不 会 发 生 
的 。 假 环 的 可 能 性 通常 足够 小 ， 不 会 导致 严重 
的 性 能 问题 。 
当 死 锁 确 已 发 生 且 牺牲 事务 已 经 选 定 ， 但 其 中 
一 个 事务 由 于 与 该 死 锁 无 关 的 原因 而 中 止 。 例 
如 ， 假 设 图 19-4 中 站 点 $ 决定 中 止 To RIA, 
协调 器 发 现 了 环 并 选 定 T, 作为 牺牲 者 。 此 时 T, 
ALT, RER, BRERA T, 需要 回 滚 。 











协调 器 
图 19-6 全 局 等 待 图 中 的 假 环 





死 锁 检测 可 以 分 布 式 方式 进行 ， 由 几 个 站 点 来 承担 任务 的 几 个 部 分 ， 而 不 是 在 单个 站 点 上 进行 
但 是 ， 这 样 的 算法 会 更 加 复杂 和 更 加 昂贵 。 关 于 这 类 算法 请 参考 文献 注解 中 的 文献 


19.6 可 用 性 


使 用 分 布 式 数 据 库 的 一 个 目的 是 高 可 用 性 ( high availability); 即 ， 分 布 式 数据 库 必须 在 几乎 所 有 时 
候 都 能 工作 。 特 别 地 ， 因 为 在 大 型 分 布 式 系统 中 发 生 故 障 的 可 能 性 更 大 ， 即 使 在 各 种 类 型 的 故障 发 生 
的 时 候 ， 分 布 式 数据 库 也 必须 能 继续 工作 。 在 故障 期 间 仍 能 继续 工作 的 能 力 称 为 健壮 性 (robustness ) 。 
为 了 使 分 布 式 系统 是 健壮 的 ， 它 必须 检测 故障 ， 能 重新 配置 系统 以 便 继续 计算 ， 并 在 处 理 吉 或 链 
路 修复 后 能 进行 恢复 。 
不 同类 型 的 故障 以 不 同方 式 处 理 。 例 如 ， 消 息 丢 失 通 过 重 传 来 处 理 。 对 通过 某 链 路 的 一 条 消息 进 
行 重复 的 重 传 ， 却 接收 不 到 确认 ， 这 常常 是 链 路 故障 的 征兆 。 网 络 通常 会 试图 为 此 消息 寻找 替换 路 径 
无 法 找到 这 样 的 路 径 常 常 是 网 络 划分 的 征兆 。 
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但 是 ， 明 确 区 分 站 点 故障 和 网 络 划 分 一 般 是 不 可 能 的 。 系 统 通常 可 以 检测 到 故障 的 发 生 ， 但 它 有 
可 能 不 能 识别 出 故障 类 型 。 例 如 ， 假 设 站 点 5, 不 能 同 5, 通信 。 可 能 是 S, 发 生 了 故障 ， 但 另 一 种 可 能 
是 由 于 5, 和 S, 之 间 的 链 路 故障 而 导致 了 网 络 划分 。 通 过 在 站 点 间 使 用 多 条 链 路 可 以 部 分 解决 这 个 问 
题 ， 这 样 即使 一 条 链 路 发 生 故 障 站 点 仍 能 保持 连接 。 然 而 ， 多 条 链 路 故障 仍 可 能 发 生 ， 因 此 在 有 些 情 
况 下 我 们 无 法 确定 是 发 生 了 站 点 故障 还 是 网 络 划 分 。 
假设 站 点 S 已 经 发 现 有 故障 发 生 。 这 时 5, 必须 发 起 一 个 过 程 ， 此 过 程 使 得 系统 可 以 重新 配置 并 
继续 通常 的 操作 模式 。 
。 如 果 在 发 生 故 障 时 ， 事 务 在 故障 或 者 无 法 访问 的 站 点 上 是 活跃 的 ， 则 这 些 事务 就 应 该 中 止 。 最 
好 是 立即 中 止 这 样 的 事务 ， 因 为 它们 可 能 持 有 在 仍然 活跃 的 站 点 的 数据 上 的 锁 ; 等 待 发 生 故障 
或 无 法 访问 的 站 点 变 得 重新 可 访问 可 能 会 阻碍 可 操作 站 点 上 的 其 他 事务 。 然 而 ， 在 某 些 情况 
下 ， 当 数据 对 象 被 复制 后 ， 即 使 有 些 副 本 不 能 访问 ， 它 仍然 可 能 继续 进行 读 和 更 新 。 在 这 种 情 
况 下 ， 当 故障 站 点 恢复 的 时 候 ， 如 果 它 有 任何 数据 对 象 的 副本 ， 它 必须 得 到 这 些 数据 对 象 的 当 
前 值 ， 而 且 必须 确保 它 能 接收 到 所 有 未 来 的 更 新 。 我 们 将 在 19. 6. 1 节 阑 述 这 个 问题 。 
© 如 果 被 复制 的 数据 存储 在 故障 或 者 无 法 访问 的 站 点 上 ， 就 应 更 新 目录 ， 使 得 查询 不 再 引用 该 故 
障 站 点 上 的 拷贝 。 当 站 点 重新 连接 时 ， 必 须 注意 确保 该 站 点 上 的 数据 的 一 致 性 ， 正 如 我 们 将 在 
19. 6. 3 节 中 看 到 的 那样 。 
。 如 果 故 障 站 点 是 某 些 子 系统 的 中 央 服 务 器 ， 就 必须 进行 选举 来 决定 新 的 服务 器 ( 见 19. 6.5 节 ) 
中 央 服 务 器 的 例子 包括 名 字 服 务 器 、 并 发 协调 器 或 者 全 局 死 锁 检 测 器 。 
由 于 通常 情况 下 ， 不 可 能 区 分 网 络 链 路 故障 和 站 点 故障 ， 因 此 任何 重新 配置 方案 都 必须 设计 成 能 
够 在 网 络 划分 的 情况 下 正确 运行 。 特 别 地 ， 为 确保 一 致 性 必须 避免 这 些 情况 : 
© 两 个 或 更 多 的 中 央 服 务 器 在 不 同 的 分 区 中 选 出 。 
。 不 止 一 个 分 区 更 新 某 个 复制 的 数据 项 。 
虽然 传统 数据 库 系 统 非常 重视 一 致 性 ， 但 是 目前 有 很 多 应 用 比 一 致 性 更 加 看 重 可 用 性 。 为 这 样 的 
系统 设计 的 复制 协议 是 不 同 的 ， 这 点 将 在 19. 6. 6 节 讨 论 。 
19.6.1 基于 多 数 的 方法 
可 以 对 19. 5. 1. 4 节 中 基于 多 数 方法 的 分 布 式 并 发 控制 进行 修改 使 其 能 在 发 生 故 障 时 仍 能 工作 。 在 
这 种 方法 中 ， 每 个 数据 对 象 都 存储 它 的 一 个 版 本 号 来 检测 最 后 一 次 写 入 它 的 时 间 。 每 当 事 务 写 对 象 的 
时 候 ， 它 还 要 以 如 下 方式 来 更 新 版 本 号 : 
。 如 果 数 据 对 象 被 复制 到 ”个 不 同 的 站 点 ， 那 么 一 条 锁 请 求 消息 必须 被 发 送 到 存储 a 的 n 个 站 
点 中 的 一 半 以 上 。 事 务 直到 成 功 获得 了 a 的 大 多 数 副本 上 的 锁 之 后 才 对 a 进行 操作 。 
。 读 操作 检查 所 有 已 经 加 锁 的 副本 ， 并 从 具有 最 高 版 本 号 的 副本 读 取 值 。( 它们 还 可 以 选择 把 该 
值 写 回 到 低 版 本 号 的 副本 。) 写 操作 和 读 操 作 一 样 ， 也 要 读 所 有 的 副本 来 找到 最 高 版 本 号 (这 一 
步 通常 通过 读 操 作 在 事务 中 早已 完成 ， 并 且 结果 可 以 重用 ) 。 新 版 本 号 是 一 个 比 最 高 版 本 号 还 
要 高 的 版 本 号 。 写 操作 写 它 已 获得 封锁 的 所 有 副本 ， 并 将 所 有 副本 的 版 本 号 设置 为 新 的 版 
本 号 。 
在 事务 处 理 中 的 故障 (无 论 是 网 络 划分 还 是 站 点 故障 ) 是 可 以 容忍 的 ， 只 要 : (1) 提交 时 可 用 的 站 点 包 
含 被 写 的 所 有 对 象 的 大 多 数 副 本 ， 同 时 (2) 在 读 取 过 程 中 ， 需 要 读 大 多 数 副本 来 找到 版 本 号 。 如 果 违 
反 了 这 些 要 求 ， 事 务必 须 中 止 。 只 要 满足 这 些 要 求 ， 两 阶段 提交 协议 就 可 以 像 通常 那样 在 可 用 的 站 点 
上 使 用 。 
在 这 种 模式 中 ， 重 建 就 微不足道 了 ; 什么 都 不 需要 做 。 这 是 因为 写 已 经 更 新 了 大 多 数 副本 ， 而 读 
会 读 取 大 多 数 副 本 并 找到 至 少 一 个 有 最 新 版 本 号 的 副本 。 
用 于 多 数 协议 的 版 本 编号 技术 也 可 以 用 于 使 法 定 人 数 同意 协议 工作 在 出 现 故 障 的 情况 下 。 我 们 把 
(简单 的 ) 细 节 留 给 读者 。 然 而 ， 如 果 某 些 站 点 被 赋予 较 高 的 权重 ， 则 防止 系统 处 理事 务 的 故障 的 危险 
性 也 会 增加 。 
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19.6.2 读 一 个 、 写 所 有 可 用 的 方法 

作为 法 定 人 数 同意 的 特殊 例子 ， 我 们 可 以 将 单位 权重 授予 所 有 站 点 来 实施 有 偏 协议 : 设置 读 法 定 
人 数 为 1， 并 设置 写法 定 人 数 为 n( 所 有 站 点 )。 在 这 种 特殊 情况 下 ， 不 需要 使 用 版 本 号 ; 但 是 ， 即 使 只 
要 容纳 数据 项 的 一 个 站 点 发 生 故 障 ， 对 该 数据 项 的 写 操作 就 不 能 进行 ， 这 是 由 于 写法 定 人 数 不 够 。 因 
为 必须 写 所 有 的 副本 ， 所 以 这 种 协议 被 称 为 读 一 个 、 写 所 有 ( read one, write all) 协议 。 

为 了 使 发 生 故障 时 工作 能 够 继续 进行 ,我 们 倾向 于 使 用 读 一 个 、 写 所 有 可 用 (read one, write all 
available) 协议 。 在 这 种 方法 中 ， 读 操作 与 读 一 个 、 写 所 有 (read one, write all) 模式 一 样 处 理 : 任何 可 
用 副本 都 可 以 读 取 ， 并 在 那个 副本 上 获得 读 锁 。 写 操作 转移 到 所 有 副本 上 ; 并 需要 获得 所 有 副本 上 的 
写 锁 。 如 果 一 个 站 点 罕 机 ， 事 务 管理 器 不 等 待 该 站 点 恢复 而 继续 进行 。 

尽管 这 种 方法 看 起 来 非常 吸引 人 ， 但 它 有 几 个 复杂 的 因素 。 特 别 地 ， 和 暂时 的 通信 故障 会 可 能 使 得 
站 点 表现 为 不 可 用 ， 导 致 写 不 能 执行 ， 但 是 当 链 路 恢复 时 ， 该 站 点 不 会 意识 到 它 必 须 执 行 一 些 重建 动 
作 来 弥补 它 已 经 丢失 的 写 。 另 外 ， 如 果 发 生 网 络 划 分 ， 由 于 认为 在 其 他 划分 中 的 站 点 都 已 经 发 生 故 障 
死机 ， 每 个 划分 可 能 对 相同 的 数据 项 进行 更 新 。 

在 绝 不 会 发 生 网 络 划 分 的 情况 下 ， 可 以 使 用 读 一 个 、 写 所 有 可 用 的 模式 ， 但 是 在 发 生 网 络 划 分 的 
情况 下 ， 它 会 导致 不 一 致 性 。 

19. 6.3 站 点 重建 

将 修复 的 站 点 或 链 路 重建 到 系统 中 要 小 心 。 当 故障 站 点 恢复 时 ， 它 必须 发 起 一 个 过 程 来 更 新 其 系 
统 表 ， 使 之 反映 在 该 站 点 宕 机 时 所 发 生 的 变化 。 如 果 该 站 点 有 任何 数据 项 的 副本 ， 它 必须 获得 这 些 数 
据 项 的 当前 值 ， 并 保证 它 能 接收 到 以 后 的 所 有 更 新 。 站 点 重建 绝 不 像 第 一 眼看 起 来 那么 简单 ， 因 为 在 
该 站 点 处 于 恢复 中 时 可 能 存在 对 数据 项 的 更 新 。 

一 种 容易 的 解决 办 法 是 当 故 障 站 点 重新 连 入 时 暂时 停止 整个 系统 。 但 是 ， 在 大 多 数 应 用 中 ， 这 种 
暂时 的 停止 可 能 会 引起 无 法 接受 的 破坏 。 已 经 开发 出 一 些 技术 允许 故障 站 点 在 并 发 执行 对 数据 项 的 并 
发 更 新 的 同时 进行 重建 。 在 对 任意 数据 项 授予 读 或 写 锁 之 前 ， 站 点 必须 确保 它 已 经 更 新 成 为 最 新 的 数 
据 项 。 如 果 一 条 故障 链 路 恢复 ， 两 个 或 更 多 分 区 可 以 重新 连接 起 来 。 由 于 网 络 划 分 限制 了 某 些 或 所 有 
站 点 可 允许 的 操作 ， 应 该 将 该 链 路 的 恢复 迅速 通知 给 所 有 站 点 。 有 关 分 布 式 系统 中 恢复 的 更 多 信息 请 
参见 文献 注解 。 

19. 6.4 与 远程 备份 的 比较 

我 们 在 16. 9 节 中 学 习 的 远程 备份 系统 和 分 布 式 数据 库 中 的 复制 是 提供 高 可 用 性 的 两 种 可 供 选 择 的 
方法 。 这 两 种 方案 的 主要 区 别 是 : 使 用 远程 备份 系统 时 ， 诸 如 并 发 控制 和 恢复 那样 的 操作 在 单个 站 点 
上 执行 ， 并 且 只 有 数据 和 日 志 记 录 被 复制 到 其 他 站 点 。 特 别 地 ， 远 程 备份 系统 有 助 于 避免 两 阶段 提交 
及 其 导致 的 开销 。 而 且 ， 事 务 只 须 和 一 个 站 点 ( 主 站 点 ) 联 系 ， 并 因此 避免 了 在 多 个 站 点 运行 事务 代码 
的 开销 。 因 此 远程 备份 系统 提供 了 一 种 比 复制 开销 低 的 高 可 用 性 方法 。 

另 一 方面 ， 通 过 使 用 多 个 可 用 副本 并 使 用 多 数 协议 ， 复 制 可 以 提供 更 高 的 可 用 性 ， 

19. 6.5 协调 器 的 选择 

我 们 给 出 的 几 种 算法 需要 用 到 协调 器 。 如 果 协 调 器 因为 它 所 位 于 的 站 点 发 生 故障 而 失效 ， 系 统 只 
有 在 另 一 站 点 重新 启动 一 个 新 协调 器 才能 继续 执行 。 能 够 继续 执行 的 一 种 方法 是 通过 维护 协调 器 的 一 [850 | 
个 备份 ， 准 备 在 协调 器 失效 时 承担 其 职责 。 

备份 协调 器 (backup coordinator) 是 这 样 的 一 个 站 点 ， 除 了 其 他 任务 以 外 ， 它 在 本 地 维护 足够 的 信 
息 ， 使 它 可 以 在 给 分 布 式 系统 带 来 最 小 限度 干扰 的 情况 下 担当 起 协调 器 的 角色 。 所 有 发 给 协调 器 的 消 
息 会 被 协调 器 及 其 备份 同时 接收 。 备 份 协调 器 同 真实 协调 器 一 样 ， 执 行 相 同 的 算法 并 维护 相同 的 内 部 
状态 信息 (例如 ， 对 并 发 协调 器 来 说 是 锁 表 ) 。 协 调 器 和 它 的 备份 之 间 在 功能 上 的 唯一 区 别 在 于 ， 备 份 
不 会 采取 任何 影响 到 其 他 站 点 的 动作 。 这 些 动作 留 给 真实 协调 器 来 执行 。 

在 备份 协调 器 检测 到 事实 协调 器 发 生 故障 的 情况 下 ， 它 就 担当 起 协调 器 的 角色 。 由 于 备份 协调 器 
拥有 故障 协调 器 具有 的 所 有 可 用 信息 ， 因 此 无 须 中 断 就 可 以 继续 处 理 。 
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备份 方式 的 主要 优点 是 能 立即 将 处 理 继续 下 去 的 能 力 。 如 果 备 份 没有 准备 好 来 承担 协调 器 的 职责 ， 
新 指定 的 协调 器 为 了 执行 协调 任务 ， 就 必须 从 系统 中 的 所 有 站 点 寻找 信息 。 故 障 协调 器 常常 是 某 些 必 
需 信息 的 唯一 来 源 。 在 这 种 情况 下 ， 可 能 有 必要 中 止 几 个 (或 所 有 ) 活 跃 事 务 ， 并 在 新 协调 器 的 控制 下 
重新 启动 它们 。 

因此 ， 备 份 协调 器 方式 避免 了 分 布 式 系统 从 协调 器 故障 恢复 所 需 的 大 量 延 迟 。 其 缺点 在 于 协调 器 
任务 重复 执行 的 开销 。 此 外 ， 协 调 器 及 其 备份 需要 定期 通信 ， 以 保证 它们 的 活动 是 同步 的 。 

简 言 之 ， 备 份 协调 器 方式 引入 正常 处 理 时 的 开销 来 使 得 系统 可 以 从 协调 器 故障 中 迅速 恢复 。 

在 缺少 指定 的 备份 协调 器 或 者 为 了 处 理 多 种 故障 的 情况 下 ， 可 以 由 活路 站 点 来 动态 地 选 出 新 的 协 
调 器 。 选 举 算法 (election algorithm) 使 各 站 点 以 分 散 的 方式 选 出 一 个 站 点 作为 新 的 协调 器 。 选 举 算法 需 
要 系统 中 每 个 活跃 站 点 都 关联 一 个 唯一 的 标识 号 。 

用 于 选举 的 威逼 算法 (bully algorithm) 的 工作 过 程 如 下 : 为 了 保持 符号 和 讨论 的 简单 性 ， 假 设 站 点 
S: 的 标识 号 为 i， 并 假设 选 出 的 协调 器 总 是 具有 最 大 标识 号 的 活路 站点。 这 样 ， 当 协调 器 发 生 故障 时 ， 
该 算法 必须 选 出 具有 最 大 标识 号 的 活路 站点。 该 算法 必须 将 该 号 码 送 到 系统 中 的 每 个 活跃 站 点 。 另 外 ， 
该 算法 必须 提供 一 种 能 使 从 崩溃 中 恢复 的 站 点 识别 出 当前 协调 器 的 机 制 。 假 设 站 点 5; 发 出 的 请 求 在 预 
定 的 时 间 间 隔 了 内 没有 得 到 协调 器 的 回答 。 在 这 种 情况 下 ， 假 设 协调 器 发 生 了 故障 ， 并 且 S, 试图 选举 
自己 作为 新 协调 器 的 站 点 。 

站 点 5; 给 每 个 具有 更 大 标识 号 的 站 点 发 一 条 选举 消息 。 接 着 5; 就 等 待 一 个 时 间 间 隔 7， 等 这 些 站 
点 中 的 任何 一 个 作出 回答 。 如 果 在 时 间 7 内 没有 收 到 任何 回答 ， 它 就 假设 具有 大 于 i 的 号 码 的 所 有 站 
点 都 已 经 发 生 故 障 ， 于 是 选举 自己 来 作 新 协调 器 的 站 点 ， 并 给 具有 小 于 i 的 标识 号 的 所 有 活跃 站 点 发 
消息 ,通知 这 些 站 点 它 已 成 为 新 协调 器 所 在 站 点 。 

如 果 5; 收 到 回答 ， 它 就 开始 一 个 时 间 间 隔 7 ， 来 接收 通知 自己 一 个 具有 更 大 标识 号 的 站 点 已 选中 
的 消息 。( 某 些 别 的 站 点 正 选举 自己 为 协调 器 ， 并 应 该 在 时 间 7 内 报告 结果 。) 如 果 在 7" 时 间 内 没有 收 
到 消息 ， 那 么 它 就 假设 具有 更 大 标识 号 的 站 点 发 生 了 故障 ， 站 点 $; 重新 开始 该 算法 的 执行 。 

当 故 障 站 点 恢复 后 ， 它 马上 开始 执行 相同 的 算法 。 如 果 没 有 具有 更 大 标识 号 的 活路 站 点 ,恢复 后 
的 站 点 就 强迫 具有 和 较 小 标识 号 的 所 有 站 点 让 自己 成 为 协调 器 站 点 ， 即 使 当前 有 一 个 具有 较 小 标识 号 的 
活跃 协调 器 。 正 因为 如 此 ， 这 个 算法 称 为 威逼 算法 。 如 果 出 现 网 络 划分 ， 威 盘 算 法 在 每 个 分 区 中 选举 
出 一 个 独立 的 协调 器 ; 为 了 保证 至 多 选举 出 一 个 协调 器 ， 获 胜 的 站 点 应 该 另外 查证 多 数 站 点 在 它们 的 
分 区 中 。 

19. 6.6 为 可 用 性 而 牺牲 一 致 性 

到 目前 为 止 我 们 所 看 到 的 协议 需要 (加 权 的 ) 大 多 数 站 点 位 于 一 个 分 区 内 以 进行 更 新 。 位 于 少数 分 
区 内 的 站 点 是 不 能 进行 更 新 的 ; 如 果 网 络 故障 造成 了 多 于 两 个 分 区 ， 可 能 没有 分 区 包含 大 部 分 站 点 。 
在 这 种 情况 下 ， 系 统 将 会 完全 无 法 用 于 更 新 ,并且 根 据 读 法 定 人 数 ， 甚 至 可 能 导致 无 法 用 于 读 。 我 们 
前 面 看 到 的 写 全 部 可 用 协议 提供 了 可 用 性 ， 但 不 提供 一 致 性 。 

理想 情况 下 ， 即 使 面 对 划 分 ， 我 们 也 和 希望 获得 一 致 性 和 可 用 性 。 遗 憾 的 是 ， 这 是 不 可 能 的 ， 这 一 
事实 就 是 所 谓 的 CAP 定理 (CAP theorem) 所 确定 的 ， 它 表明 任何 分 布 式 数据 库 最 多 只 能 具有 以 下 三 个 
性 质 中 的 两 个 : 

e 一 致 性 (consistency ) 。 

e 可 用 性 (availability ) 。 

o 划分 容忍 性 (partition-tolerance ) 。 

CAP 定理 的 证 明 借助 于 下 述 复制 数据 上 的 一 致 性 定义 : 如 果 在 复制 数据 上 执行 一 组 操作 ( 读 和 写 ) 
的 结果 与 在 单个 站 点 上 以 某 种 串 行 次 序 执行 这 些 操作 的 结果 相同 ， 并 且 该 串 行 次 序 与 每 个 进程 (事务 ) 
发 出 操作 的 次 序 相 一 致 ， 那 么 就 称 该 组 操作 在 复制 数据 上 是 一 致 的 。 一 致 性 的 概念 类 似 于 事务 的 原子 
性 ， 只 是 其 中 每 个 操作 被 看 作 一 个 事务 ， 且 弱 于 事务 的 原子 性 性 质 。 

在 任何 大 规模 分 布 式 系统 中 ， 划 分 是 不 可 避免 的 ， 其 结果 是 必须 牺牲 可 用 性 或 者 一 致 性 。 我 们 前 
面 看 到 的 方案 在 面临 划分 时 为 了 一 致 性 而 牺牲 了 可 用 人 性。 
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考虑 一 个 基于 Web 的 社交 网 络 系统 ， 其 数据 被 复制 在 三 台 服 务 器 上 ， 并 且 出 现 了 一 个 网 络 划分 ， 
它 阻止 了 这 些 服务 器 之 间 的 相互 通信 。 由 于 没有 一 个 分 区 包含 大 多 数 站 点 ， 因 此 不 可 能 在 任意 一 个 分 
区 上 执行 更 新 。 如 果 这 些 服务 器 中 的 一 台 与 用 户 在 同一 个 分 区 中 ,用户 实际 上 已 经 访问 了 数据 ， 但 会 
无 法 更 新 数据 ， 因 为 另 一 个 用 户 可 能 正在 另 一 个 分 区 中 并 发 更 新 相同 的 对 象 ， 这 将 造成 潜在 的 不 一 致 
性 。 与 银行 数据 库 中 相对 ， 社 交 网 络 系统 中 不 一 致 性 的 风险 要 小 。 这 种 系统 的 设计 者 可 以 决定 一 个 能 
够 访问 系统 的 用 户 应 该 允许 在 可 访问 的 任何 副本 上 执行 更 新 ， 哪 怕 存 在 不 一 致 的 风险 . 

与 需要 满足 ACID 性 质 的 银行 数据 库 那 样 的 系统 不 同 ， 上 述 诸如 社会 网 络 系统 那样 的 系统 要 求 满 
Æ BASE 性 质 ; 

e 基本 上 可 用 (basically available) 。 

e 软 状态 (soft state ) 。 

o 最 终 一 致 性 (eventually consistent) 。 

主要 的 需求 是 可 用 性 ， 哪 怕 以 一 致 性 为 代价 。 即 使 在 出 现 划分 的 情况 下 ， 也 应 该 允许 更 新 ， 下 面 
将 以 写 所 有 可 用 协议 为 例 ( 这 类 似 于 19. 5. 3 节 描 述 的 多 主 站 点 副本 ) 。 软 状态 指 的 是 数据 库 状 态 可 能 不 
能 准确 确定 的 性 质 ， 由 于 网 络 划 分 每 个 副本 有 可 能 有 一 定 程度 不 同 的 状态 。 最 终 一 致 性 要 求 ， 当 解决 
划分 之 后 ， 最 终 所 有 副本 之 间 将 形成 一 致 。 

最 后 一 步 要 求 能 够 识别 不 一 致 的 数据 项 副本 ; 如 果 一 个 副本 是 另 一 个 副本 的 更 早 版 本 ， 应 该 用 较 
新 的 版 本 取代 更 早 的 版 本 。 然 而 ， 还 是 可 能 出 现 对 一 个 共同 的 基本 副本 进行 独立 更 新 而 产生 的 两 个 版 
本 。 一 种 检测 这 种 不 一 致 更 新 的 方案 叫 版 本 向 量 方案 ， 这 将 在 25. 5. 4 节 描述 。 

应 对 不 一 致 性 更 新 的 一 致 性 恢复 需要 把 各 种 更 新 以 某 种 对 应 用 来 说 有 意义 的 方式 进行 整合 。 此 步 
又 不 能 由 数据 库 来 处 理 ; 相反 ， 数 据 库 检 测 并 通知 应 用 程序 有 关 不 一 致 性 的 现象 ， 然 后 由 应 用 程序 决 [853] 
定 如 何 处 理 不 一 致 性 。 


19.7 分 布 式 查询 处 理 


在 第 13 章 中 ,我 们 看 到 计算 一 个 查询 的 结果 有 各 种 方法 。 我 们 调查 了 几 种 技术 来 选择 一 种 处 理 查 
询 的 策略 ， 它 使 得 花费 在 计算 结果 上 的 时 间 总 和 最 小 。 对 集中 式 系统 来 说 ， 衡 量 特定 策略 的 代价 的 基 
本 准则 是 磁盘 访问 量 。 在 分 布 式 系统 中 ， 我 们 必须 考虑 另外 的 几 个 因素 ， 包 括 : 

© 数据 在 网 络 上 的 传输 代价 。 

。 通过 在 几 个 站 点 并 行 处 理 查询 的 一 部 分 而 可 能 得 到 的 性 能 提升 。 

数据 在 网 络 上 传输 和 数据 转 入 和 转 出 磁盘 的 相对 代价 依赖 于 网 络 类 型 和 磁盘 速度 而 变化 很 大 。 因 
此 ， 通 常情 况 下 我 们 不 能 仅仅 注意 磁盘 开销 或 网 络 开 销 。 相 反 ， 我们 必须 在 这 两 者 之 间 取 得 良好 的 
折 中 。 
19. 7. 1 查询 转换 

考虑 一 个 极其 简单 的 查询 :“ 找 出 acount 关系 中 的 所 有 元 组 "虽然 这 个 查询 很 简单 (实际 上 是 微 
不 足 道 的 ) ,但 对 它 的 处 理 不 是 微不足道 的 ， 因 为 正如 我 们 在 19. 2 节 中 看 到 的 那样 ，account 关系 可 能 
分 片 ， 复制 ,或 者 既 分 片 又 复制 。 如 果 account 关系 被 复制 ， 我 们 就 需要 选择 副本 。 如 果 所 有 副本 都 没 
有 分 片 ， 我 们 选择 传输 代价 最 小 的 副本 。 但 是 ， 如 果 副 本 分 片 了 ， 选 择 就 不 那么 容易 了 ， 因 为 我 们 需 
要 计算 一 些 连接 或 并 来 重 构 account 关系 。 在 这 种 情况 下 ， 我 们 这 个 简单 例子 的 策略 可 能 会 很 多 。 在 这 
种 情况 下 ， 通 过 穷 举 所 有 可 能 的 策略 来 对 查询 进行 优化 是 不 现实 的 。 

分 片 透明 性 意味 着 用 户 可 以 书写 这 样 的 查询 : 

O branch name =" Hilside” ( ACCOUN) 
由 于 account 定义 为 : 
account, U account, 

由 名 字 翻 译 模式 产生 的 表达 式 为 : 


O branch name =" Hillside” (ACCount, U account, ) 


采用 第 13 章 的 查询 优化 技术 ， 我 们 可 以 自动 简化 上 述 表 达 式 。 结 果 表 达 式 为 : [854 
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Or branch_name =" Hillside” ( ACCOUN, ) U Obronch name= “Hillside” ( ACCOunNt, ) 
此 表达 式 包 括 两 个 子 表 达 式 。 第 一 个 只 涉及 account, ， 因 此 可 以 在 Hillside 站 点 上 求 值 。 第 二 个 只 涉及 
account, ， 因 此 可 以 在 Valleyview 站 点 上 求 值 。 
在 对 
© branch_name = “Hillside” (ACCOUNE, ) 
求 值 时 还 可 以 进一步 优化 。 由 于 account, 只 包含 属于 Hillside 支行 的 元 组 ， 因 此 我 们 可 以 去 掉 选 择 运 
算 。 在 对 





O ranch _name = “Hillside” (ACCOUNE, ) 
求 值 时 ， 我 们 可 以 运用 account, 分 片 的 定义 来 得 到 : 
O branch_name = “Hillside” (o branch_name =“ Valleyview” (account) ) 
ANE account 关系 的 内 容 是 什么 ， 此 表达 式 都 是 空 集 。 
因此 ， 我 们 最 终 的 策略 就 是 让 Hillside 站 点 返回 account, 作为 查询 结果 。 
19.7.2 简单 的 连接 处 理 
正如 我 们 在 第 13 章 中 看 到 的 那样 ， 选 择 查询 处 理 策略 的 一 个 主要 决定 就 是 选择 连接 策略 。 考 虑 下 
面 的 关系 代数 表达 式 : 
account X depositor IX branch 
假设 这 三 个 关系 都 既 没 复制 又 没 分 片 ， 且 account 存储 在 站 点 S, E, depositor 存储 在 S, E, branch 存储 
ES, Eo WS, 表示 发 出 查询 的 站 点 。 系 统 需要 在 站 点 5, 产生 结果 。 下 面 是 处 理 这 个 查询 可 以 采取 的 
几 种 策略 : 
。 将 所 有 三 个 关系 的 副本 都 送 到 站 点 5,。 使 用 第 13 章 的 技术 ， 在 站 点 S, 上 选择 一 种 本 地 处 理 整 
个 查询 的 策略 。 
e 将 关系 account 的 一 个 副本 送 到 站 点 9 ， 并 在 S, 上 计算 temp, = account M depositor。 将 temp, 从 
S, 送 到 S, HE S, 上 计算 temp, = temp, Mbranch。 将 结果 temp, 送 到 S, 。 
© 设计 和 前 一 种 类 似 的 策略 ， 只 是 交换 5S, S S 的 角色 。 

855 没有 一 种 策略 总 是 最 好 的 。 必 须 考虑 的 因素 中 包括 传输 的 数据 量 、 在 一 对 站 点 间 传 输 数据 块 的 代 
价 以 及 各 个 站 点 上 处 理 的 相对 速度 。 考 虑 上 面 列 出 的 前 两 种 策略 。 假 设 S AS, 上 的 索引 对 于 计算 连 
接 是 有 用 的 。 如 果 我 们 将 所 有 三 个 关系 都 送 到 站 点 5,， 我 们 要 么 需要 在 % 上 重新 创建 这 些 索 引 ， BA 
使 用 不 同 的 但 可 能 更 昂贵 的 连接 策略 。 重 新 创建 索引 必须 承担 额外 的 处 理 开销 和 额外 的 磁盘 访问 。 在 
使 用 第 二 种 策略 的 情况 下 ， 一 个 可 能 很 大 的 关系 (account NM depositor) 必须 从 S, 送 到 5;。 此 关系 中 ， 客 
户 每 拥有 一 个 账户 ， 其 名 字 就 要 重复 一 次 。 因 此 ， 同 第 一 种 策略 相 比 ， 第 二 种 策略 可 能 导致 额外 的 网 
络 传输 。 

19.7.3 半 连 接 策略 

假设 我 们 希望 计算 表达 式 7, Mr,， 其 中 7 和 7 分别 存储 在 站 点 S, AIS, Eo Sr 和 7 的 模式 为 R 
和 R,。 假 设 我 们 希望 在 站 点 S 得 到 结果 。 如 果 r, 中 有 许多 元 组 不 能 和 7, 中 的 任何 元 组 相连 接 ， 那么 
JE r, 送 到 5, 就 必须 传输 那些 对 结果 毫 无 贡献 的 元 组 。 我 们 和 希望 能 在 把 数据 送 到 S, 以 前 去 掉 这 样 的 元 
组 ， 特 别 是 在 网 络 代价 高 的 时 候 。 

为 了 实现 所 有 这 些 ， 一 种 可 能 的 策略 是 : 

E: Sı 计算 tempit 一 [In na,( i)o 

. 将 temp, 从 S, 送 到 5,。 

. FES, 计算 temp,<—r, D4 temp, o 

. 将 temp, 从 S, 送 到 S, 。 

. FES, 计算 m mtemp,。 产 生 的 关系 和 7 Mr, 一样 。 

在 考虑 这 种 策略 的 效率 之 前 ， 让 我 们 来 验证 此 策略 能 计算 出 正确 的 结果 。 在 第 3 步 中 ，temp, 是 
nA Tene (n) AR. EBS 步 中 ， 计 算 : 


nF WN = 
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ri KTX IMr ar (T) 
由 于 连接 是 可 结合 并 且 可 交换 的 ， 因 此 可 以 将 此 表达 式 重 写 为 : 
(r, x Taner) (r) )M ry 

由 于 mm W crnar,)(n)=7， 因 此 这 个 表达 式 事实 上 等 于 7,mr,， 此 表达 式 就 是 我 们 要 计算 的 表达 式 。 

当 7, 中 有 相对 较 少 的 元 组 对 连接 有 贡献 时 ， 这 种 策略 的 优势 尤其 明显 。 如 果 7, 是 一 个 涉及 选择 的 
关系 代数 表达 式 的 结果 ， 这 种 情况 就 可 能 发 生 。 在 这 种 情况 下 ，temp, 的 元 组 数 可 能 明显 少 于 7,。 这 种 
策略 节省 的 开销 源 于 只 须 将 temp, 而 不 是 rn 的 全 部 送 到 5,。 增 加 的 开销 源 于 将 temp, 送 到 So WR r [856 | 
中 对 连接 有 贡献 的 元 组 比例 足够 小 ， 传 输 temp, 的 开销 就 远 小 于 只 传输 r 中 的 部 分 元 组 而 节省 的 开销 . 

这 种 策略 称 为 半 连 接 策 略 (semijoin strategy) ， 以 关系 代数 中 的 半 连 接 运 算 符 来 命名 ， 记 为 x。r， 和 
n 的 半 连 接 记 为 m xr,， 即 : 

We, (% Mr,) 

FA, r Xr HEH PRAT, 中 对 7, Mr, 有 贡献 的 那些 元 组 。 在 第 3 AE, temp, = n Kr. 

对 于 几 个 关系 的 连接 来 说 ， 这 种 策略 可 扩展 到 一 系列 的 半 连 接 步 又 。 一 个 关于 将 半 连 接 用 于 查询 
优化 的 坚实 的 理论 体系 已 经 发 展 起 来 。 这 方面 的 一 些 理论 在 文献 注解 中 有 引用 。 
19.7.4 利用 并 行 性 的 连接 策略 

考察 对 4 个 关系 的 一 个 连接 : 

ri XTD r3 DA T4 

其 中 关系 六 存储 在 站 点 $;。 假 设 结果 必须 在 站 点 S 给 出 。 有 很 多 可 能 的 并 行 求 值 策略 。( 第 18 
章 详细 研究 过 并 行 查询 处 理 的 问题 ) 。 在 一 种 这 样 的 策略 中 , 将 7 送 到 S, 并 在 5, 上 计算 7 wry. 
同时 ， 将 六 送 到 S, HE S, 上 计算 n Mr, EIA n mr 的 过 程 中 站 点 5, 就 可 以 把 已 经 计算 出 的 元 
组 送 到 S$, ， 而 不 是 等 到 整个 连接 计算 完 。 同 样 ，$, 也 可 以 这 样 把 (r; r) 中 元 组 送 到 S,. RA 
12.7. 2.2 节 的 流水 线 连接 技术 ,一 旦 (7, Mr.) AC Mr ) 的 元 组 到 达 5S,， 就 可 以 开始 计算 (7 Mr, )m 
(nm Mn)。 因 此 ，5, 上 最 终 连接 结果 的 计算 可 以 同 S, 上 (m M7,) 的 计算 以 及 5, 上 (mn mr) 的 计算 并 
行 地 进行 。 


19.8 异 构 分 布 式 数 据 库 


很 多 新 的 数据 库 应 用 需要 来 自 各 种 先前 存在 的 数据 库 中 的 数据 ， 这 些 数据 库 位 于 异 构 的 硬件 及 软 
件 环境 的 集合 中 。 操 纵 位 于 异 构 分 布 式 数据 库 中 的 信息 需要 在 已 有 数据 库 系 统 之 上 增加 一 个 软件 层 。 
这 个 软件 层 称 为 多 数据 库 系统 ( multidatabase system) 。 局 部 的 数据 库 系 统 可 以 采用 不 同 的 逻辑 模型 以 及 
数据 定义 和 数据 操纵 语言 ， 并 可 以 在 它们 的 并 发 控制 和 事务 管理 机 制 上 存在 差异 。 多 数据 库 系 统 构造 
了 催 辑 上 集成 数据 库 的 一 种 虚拟 ， 而 不 需要 将 数据 库 在 物理 上 集成 。 
将 异 构 系统 完全 集成 为 一 个 同 构 的 分 布 式 数据 库 通 常 是 困难 的 或 不 可 能 的 : [857 
© 技术 上 的 困难 (technical difficulty) 。 基 于 已 有 数据 库 系统 的 应 用 程序 的 投资 可 能 是 巨大 的 ， 而 
将 这 些 应 用 进行 转化 的 代价 可 能 高 不 可 及 。 
。 组 织 上 的 困难 (organizational difficulty) 。 即 使 集成 在 技术 上 是 可 能 的 ， 它 在 政策 上 可 能 是 不 可 行 
的 ， 因 为 已 有 数据 库 系 统 属于 不 同 的 公司 或 组 织 。 在 这 种 情况 下 ， 对 多 数据 库 系 统 来 说 ， 人 允许 
局 部 数据 库 系 统 在 局 部 数据 库 及 其 数据 上 运行 的 事务 方面 保持 高 度 自治 (autonomy ) 是 很 重 
要 的 。 
由 于 这 些 原因 ， 多 数据 库 系 统 带 来 的 显著 优势 超出 了 它们 的 开销 。 本 节 从 数据 定义 和 查询 处 理 的 
立场 ， 给 出 构造 多 数据 库 环境 所 面临 的 挑战 的 一 个 概览 。 
19.8.1 数据 统一 视图 
每 个 本 地 数据 库 管 理 系 统 可 能 使 用 不 同 的 数据 模型 。 比 如 ， 有 些 可 以 采用 关系 模型 ， 而 另 一 些 可 
能 采用 更 早 的 数据 模型 ， 如 网 状 模型 ( 见 附录 D) 或 层次 模型 ( 见 附录 E)。 
由 于 多 数据 库 系 统 需要 提供 虚拟 的 、 集 成 的 单一 数据 库 系 统 ， 因 此 必须 使 用 一 个 公共 的 数据 模型 。 
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一 种 通用 的 选择 是 关系 模型 ， 并 将 SQL 作为 公共 查询 语言 。 事 实 上 ， 现 在 存在 多 个 系统 使 SQL 查询 能 
应 用 到 非 关 系 的 数据 库 管 理 系统 之 上 。 
另 一 个 困难 是 提供 公共 的 概念 模式 。 每 个 局 部 系统 都 提供 它 自 己 的 概念 模式 。 多 数据 库 系统 必须 
将 这 些 独立 的 模式 集成 为 一 个 公共 模式 。 模 式 集成 是 一 项 复杂 的 任务 ， 主 要 是 由 于 语义 的 差异 。 
模式 集成 不 是 在 数据 定义 语言 之 间 简 单 地 直接 转换 。 相 同 的 属性 名 可 能 出 现在 不 同 的 局 部 数据 库 
中 但 具有 不 同 的 含义 。 在 一 个 系统 中 使 用 的 数据 类 型 可 能 不 被 男 一 个 系统 支持 ， 而 且 类 型 之 间 的 转换 
可 能 也 不 简单 。 即 使 对 于 相同 的 数据 类 型 ， 也 可 能 由 于 数据 的 物理 表示 而 出 现 问题 : 一 个 系统 可 能 用 
8 位 ASCII， 而 另 一 个 用 16 位 Unicode， 另 外 还 可 能 用 EBCDIC; 浮 点 表示 可 能 不 同 ; 整数 可 以 用 高 位 
在 前 或 低位 在 前 的 形式 表示 。 在 语义 层 ， 一 个 系统 中 表示 长 度 的 整数 值 可 能 是 英寸 而 另 一 个 系统 中 可 
能 是 毫米 ， 因 此 造成 整数 相等 只 能 是 一 种 近似 概念 这 样 的 尴 众 境地 ( 正如 浮 点 数 通常 的 情况 一 样 )。 相 
同 的 称 字 可 能 出 现在 不 同系 统 的 不 同 语言 中 。 例 如 ， 美 国 的 系统 可 能 表示 城市 “Cologne”， 而 德国 的 系 
FERIR“ Köln” 。 
所 有 这 些 看 似 细小 的 区 别 必须 正确 记录 到 公共 全 局 概念 模式 中 。 必 须 提 供 转 换 函 数 。 必 须 为 与 系 
858] 统 相关 的 行为 (例如 ， 非 字母 字符 的 排序 在 ASCI 中 和 在 EBCDID 中 是 不 同 的 ) 附注 索引 。 正 如 我 们 前 
面 已 经 注意 到 的 ， 另 一 种 将 各 个 数据 库 转 换 为 一 种 公共 格式 的 方法 在 不 废弃 已 有 应 用 程序 的 前 提 下 是 
行 不 通 的 。 
19. 8.2 查询 处 理 
异 构 数据 库 的 查询 处 理会 比较 复杂 。 有 以 下 一 些 问题 : 
。 给 定 一 个 在 全 局 模式 上 的 查询 ， 该 查询 可 能 必须 翻译 成 需要 执行 查询 的 每 个 站 点 的 本 地 模式 上 
的 查询 。 查 询 结 果 必 须 翻 译 回 全 局 模式 。 
通过 为 每 个 数据 源 书写 包装 器 (wrapper) 可 以 简化 该 任务 ， 包 装 器 提供 一 种 全 局 模式 中 的 本 
地 数据 的 视图 。 包 装 器 也 将 全 局 模式 上 的 查询 翻译 成 本 地 模式 上 的 查询 ， 并 将 结果 翻译 回 全 局 模 
式 。 包 装 器 可 以 由 单独 站 点 来 提供 ， 或 者 也 可 以 作为 多 数据 库 系统 的 一 部 分 来 单独 书写 。 
包装 器 甚至 可 用 于 为 非 关 系数 据 源 提供 关系 视图 ， 例 如 网 页 ( 可 能 具有 表单 界面 ) 、 平 面 文 
件 、 层 次 和 网 状 数据 库 ， 以 及 目录 系统 。 
。 某 些 数据 源 可 能 仅 提 供 有 限 的 查询 能 力 : 例如 ， 它 们 可 能 支持 选择 ， 但 不 支持 连接 。 它 们 甚至 
可 能 限制 选择 的 形式 ， 人 允许 选择 仅 在 特定 域 上 进行 ; 具有 表单 界面 的 Web 数据 源 就 是 这 种 数据 
源 的 一 个 例子 。 查 询 因此 可 能 必须 分 开 执行 ， 使 得 部 分 在 数据 源 执行 ， 部 分 在 发 出 查询 的 站 点 
上 执行 。 
© 一 般 来 说 ， 为 了 回答 给 定 查询 可 能 需要 访问 不 止 一 个 站 点 。 可 能 必须 处 理 从 这 些 站 点 获得 的 结 
果 以 去 除 重复 。 假 设 一 个 站 点 包含 满足 选择 条 件 balance < 100 的 account 元 组 ， 而 另 一 个 站 点 包 
含 满足 balance >50 的 account 元 组 。 在 整个 account 关系 上 的 查询 将 需要 访问 这 两 个 站 点 ， 并 去 
除 由 余额 在 30 ~ 100 之 间 的 元 组 (这 些 元 组 在 两 个 站 点 重复 存在 ) 所 导致 的 重复 答案 。 
。 在 异 构 数 据 库 中 的 全 局 查询 优化 是 困难 的 ， 因 为 查询 执行 系统 可 能 不 知道 可 选 的 查询 计划 在 不 
同 站 点 上 执行 的 代价 。 通 常 的 解决 方案 是 只 依靠 本 地 级 别 的 优化 ， 而 且 仅 仅 在 全 局 级 别 使 用 启 
发 式 策略 。 
中 间 件 (mediator) 系统 是 集成 多 个 异 构 数据 源 、 提 供 数据 的 一 个 集成 的 全 局 视图 并 提供 在 全 局 视图 
上 的 查询 工具 的 系统 。 不 像 成 熟 的 多 数据 库 系 统 ， 中 间 件 系统 不 会 干扰 事务 处 理 。( 中 间 件 和 多 数据 库 
这 两 个 术语 经 常 可 以 交换 使 用 ， 并 且 称 为 中 间 件 的 系统 可 能 支持 受 限 形式 的 事务 。) 术 语 虚 拟 数 据 库 
(virtual database ) 用 来 指 代 多 数据 库 / 中 间 件 系统 ， 因 为 这 两 种 系统 提供 了 有 具有 全 局 模式 的 单一 数据 库 
的 表象 ， 尽 管 数据 是 以 本 地 模式 存在 于 多 个 站 点 上 。 


19. 8.3 多 数据 库 中 的 事务 管理 


多 数据 库 系统 支持 两 种 事务 类 型 : 
1. 局 部 事务 (local transaction) 。 这 些 事务 由 每 个 本 地 数据 库 系统 执行 ， 不 受 多 数据 库 系统 的 控制 . 
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2. 全 局 事务 ( global transaction) 。 这 些 事务 是 在 多 数据 库 系统 的 控制 下 执行 的 。 

多 数据 库 系 统 知道 局 部 事务 可 能 运行 在 本 地 站 点 上 的 这 一 事实 ， 但 它 不 知道 正在 执行 的 是 什么 样 
的 特定 事务 ， 或 者 它们 可 能 访问 什么 样 的 数据 。 

要 确保 每 个 数据 库 系统 的 局 部 自治 性 ， 要 求 数据 库 系统 自身 的 软件 不 能 发 生变 化 。 因 此 在 一 个 站 
点 上 的 数据 库 系统 不 能 与 在 其 他 任何 站 点 上 的 数据 库 系统 直接 通信 ， 以 同步 执行 在 几 个 站 点 上 活跃 的 
全 局 事务 。 

由 于 多 数据 库 系统 不 能 控制 本 地 事务 的 执行 ， 因 此 每 个 本 地 系统 必须 使 用 并 发 控制 方案 (例如 ， 两 
阶段 锁 或 时 间 戳 ) 来 确保 它 的 调度 是 可 串 行 化 的 。 此 外 ， 在 使 用 封锁 的 情况 下 ， 本 地 系统 必须 能 够 提防 
本 地 死 锁 的 可 能 性 。 

保证 局 部 可 串 行 化 并 不 足以 确保 全 局 可 串 行 化 。 举 个 例子 ,考虑 两 个 全 局 事务 AT, ， 每 个 都 访 
问 并 更 新 分 别 位 于 S, AS, 站 点 上 的 两 个 数据 项 4 和 下。 假设 本 地 调度 是 可 串 行 化 的 。 仍 然 可 能 出 现 这 
种 情况 : 在 站 点 5, ,7 在 7 之 后 执行 ， 而 在 站 点 S, T HET, 之 后 执行 ， 这 就 导致 了 全 局 调度 的 不 可 
串 行 化 。 事 实 上 ， 即 使 全 局 事务 之 间 不 是 并 发 的 (也 就 是 说 ， 全 局 事务 只 有 在 它 前 面 的 事务 提交 或 中 止 
之 后 才能 提交 ) ， 局 部 可 串 行 化 也 不 足以 保证 全 局 可 串 行 化 ( 见 实践 习题 19. 14) 

根据 本 地 数据 库 系 统 的 实现 ， 全 局 事务 可 能 不 能 控制 其 本 地 子 事务 的 精确 封锁 行为 。 因 此 ， 即 使 
所 有 本 地 数据 库 系统 都 遵循 两 阶段 封锁 ， 它 也 可 能 只 能 确保 每 个 局 部 事务 是 遵循 协议 规则 的 。 例 如 ， 
一 个 本 地 数据 库 系统 可 能 提交 其 子 事务 并 释放 封锁 ， 而 在 另 一 个 本 地 系统 中 的 子 事务 仍 在 执行 。 如 果 
本 地 系统 允许 控制 封锁 行为 ， 并 且 所 有 系统 都 遵循 两 阶段 封锁 ， 那 么 多 数据 库 系 统 可 以 确保 全 局 事务 
以 两 阶段 方式 封锁 ， 进 而 冲突 事务 的 锁 点 能 够 决定 它们 的 全 局 串 行 化 次 序 。 但是， 如果 不 同 的 本 地 系 
统 采用 不 同 的 并 发 控制 机 制 ， 这 种 直观 的 全 局 控制 方法 就 行 不 通 了 。 

尽管 在 多 数据 库 系 统 中 并 发 执行 全 局 事务 和 局 部 事务 ， 但 是 有 很 多 确保 一 致 性 的 协议 。 有 些 协 议 
是 基于 施加 足够 的 条 件 来 确保 全 局 可 串 行 性 。 其 他 的 仅 保 证 一 种 弱 于 可 串 行 性 的 一 致 性 ， 但 通过 较 少 
的 限制 手段 来 实现 这 种 一 致 性 。26. 6 节 描 述 不 带 可 串 行 性 的 一 致 性 方法 ; 在 文献 注解 中 引用 了 其 他 的 
方法 。 

早期 的 多 数据 库 系 统 将 全 局 事务 限制 为 只 读 事务 。 它 们 由 此 避免 全 局 事务 给 数据 带 来 不 一 致 性 的 
可 能 性 , 但 是 没有 作出 足够 的 限制 来 确保 全 局 可 串 行 性 。 的 确 可 以 得 到 这 种 全 局 调度 并 开发 一 套 方案 
来 保证 全 局 可 串 行 性 ， 我 们 将 在 实践 习题 19. 15 中 让 你 们 去 实现 这 两 种 设想 。 

有 很 多 通用 方案 用 于 确保 在 可 以 执行 更 新 和 只 读 事 务 的 环境 中 的 全 局 可 串 行 性 。 几 种 这 样 的 方案 
是 基于 标签 (ticket) 思想 的 。 称 作 标签 的 特殊 数据 项 在 每 个 本 地 数据 库 系 统 中 创建 。 访 问 站 点 上 数据 的 
每 个 全 局 事务 必须 在 该 站 点 上 写 标签 。 此 要 求 确保 全 局 事务 在 它们 所 访问 的 站 点 上 发 生 直接 的 冲突 。 
进而 ， 全 局 事务 管理 器 可 以 通过 控制 被 访问 标签 的 次 序 来 控制 全 局 事务 的 串 行 化 顺序 。 文 献 注解 中 有 
对 这 类 方案 的 引用 。 

如 果 我 们 要 在 每 个 站 点 都 不 会 产生 直接 的 本 地 冲突 的 环境 中 保证 全 局 可 串 行 化 ， 那 就 必须 作出 一 
些 关于 本 地 数据 库 系统 所 允许 的 调度 的 假设 。 例 如 ， 如 果 本 地 调度 是 那些 提交 次 序 与 串 行 化 次 序 总 保 
持 一 致 的 调度 ， 我 们 可 以 通过 只 控制 事务 的 提交 次 序 来 确保 可 串 行 化 。 

在 多 数据 库 系统 中 的 一 个 相关 问题 是 全 局 的 原子 性 提交 。 如 果 所 有 本 地 系统 都 遵循 两 阶段 提交 协 
WM, 该 协议 便 可 用 于 实现 全 局 的 原子 性 。 人 然而， 如 果 本 地 系统 不 是 作为 分 布 式 系统 的 一 部 分 来 设计 的 
话 ， 就 可 能 无 法 参与 到 这 样 的 协议 中 。 即 使 本 地 系统 能 够 支持 两 阶段 提交 ， 但 拥有 该 系统 的 组 织 机 构 
可 能 不 愿意 允许 在 发 生 阻塞 的 情况 下 等 待 。 在 这 种 情况 下 ， 可 能 会 作出 允许 在 特定 的 失效 模式 中 不 遵 
守 原 子 性 的 妥协 。 文 献 中 有 对 这 些 问 题 的 进一步 讨论 (参见 文献 注解 ) 。 


19.9 基于 云 的 数据 库 


云 计算 (cloud computing) 是 在 20 世纪 90 年 代 末 和 21 世纪 出 现在 计算 领域 中 的 一 个 相对 新 的 概念 ， 
开始 命名 为 软件 即 服务 ( software as a service) 。 最 初 的 软件 服务 供应 商 提供 的 是 驻 留 在 他 们 自己 的 机 器 
上 的 、 特 定 的 、 可 定制 的 应 用 程序 。 随 着 软件 供应 商 开 始 提供 通用 的 计算 机 来 作为 服务 ， 并 且 客 户 可 
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以 在 这 些 计算 机 上 运行 他 们 所 选 的 应 用 软件 ， 云 计算 的 概念 也 随 之 发 展 。 客 户 可 以 与 云 计算 供应 商 达 


[861] 成 协议 来 获得 具有 特定 能 力 和 特定 数据 存储 量 的 特定 数量 的 机 器 。 机 器 数量 和 存储 容量 都 可 以 根据 需 
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要 来 增加 和 缩减 。 除 了 提供 计算 服务 ， 很 多 供应 商 还 提供 其 他 服务 ， 比 如 数据 存储 服务 、 地 图 服务 以 
及 能 够 通过 使 用 Web 服务 应 用 编程 接口 来 访问 的 其 他 服务 。 

很 多 企业 正在 寻找 云 计 算 与 服务 的 双赢 模式 。 它 免除 了 企业 客户 维护 一 个 大 型 的 系统 支撑 团队 的 
需要 ， 并 允许 新 的 企业 不 必 在 计算 系统 上 进行 大 量 的 前 期 资本 投入 就 可 以 开始 运作 。 进 而 ， 随 着 企业 
需求 的 增长 ， 可 用 按 需 添加 更 多 的 资源 (计算 和 存储 ) ; 云 计算 供应 商 通常 拥有 很 大 的 计算 机 集群 ， 使 
得 他 们 能 够 容易 地 按 需 分 配 资源 。 

很 多 供应 商都 提供 云 服务 。 其 中 包括 传统 的 计算 供应 商 以 及 正在 寻找 利用 它们 拥有 的 大 规模 基础 
设施 来 代替 它们 的 核心 业务 的 公司 ， 比 如 Amazon 和 Google, 

需要 为 非常 大 量 的 用 户 ( 范 围 从 数 百 万 到 数 亿 ) 存 储 和 检索 数据 的 Web 应 用 已 经 成 为 基于 云 的 数据 
库 的 主要 驱动 者 。 这 些 应 用 的 需求 同 传统 数据 库 应 用 是 不 同 的 ， 因 为 它们 比 一 致 性 更 看 重 可 用 性 和 扩 
展 性 。 近 年 来 已 经 开发 出 几 种 基于 云 的 数据 存储 系统 来 满足 这 类 应 用 的 需求 。19. 9. 1 节 将 讨论 在 云 上 
创建 这 种 数据 存储 系统 的 问题 。 

在 19. 9.2 节 ， 我 们 考虑 在 云 上 运行 传统 数据 库 系 统 的 问题 。 基 于 云 的 数据 库 同时 具备 同 构 和 异 构 
系统 的 特点 。 虽 然 数据 被 某 个 组 织 ( 客 户 ) 拥 有 并 且 是 某 个 统一 的 分 布 式 数据 库 的 一 部 分 ， 但 底层 的 计 
算 机 被 另 一 个 组 织 (服务 供 应 商 ) 拥 有 和 管理 。 计 算 机 距离 客户 的 位 置 很 远 ， 是 通过 Internet 访问 的 。 
因此 ， 异 构 分 布 式 系统 的 一 些 挑战 依然 存在 ， 特 别 是 考虑 到 事务 处 理 的 情况 。 尽 管 如 此 ， 异 构 系 统 的 
很 多 组 织 性 和 政治 性 挑战 是 可 以 避免 的 。 

最 后 ，19. 9. 3 节 将 讨论 云 数 据 库 目 前 面临 的 几 种 技术 性 和 非 技术 性 挑战 。 

19.9.1 云 上 的 数据 存储 系统 

Web 上 的 应 用 有 极 高 的 可 扩展 性 要 求 。 常 见 的 应 用 具有 数 亿 用 户 ， 并且 许 多 应 用 在 一 年 之 内 ， 甚 
至 在 几 个 月 之 内 ， 它 们 的 负载 就 成 倍增 长 。 要 满足 这 类 应 用 对 数据 管理 的 需求 ， 数 据 必 须 在 数 千 个 处 
理 器 上 进行 划分 。 

在 过 去 几 年 中 已 经 开发 并 部 署 了 在 云 上 的 许多 数据 存储 系统 来 满足 这 类 应 用 对 数据 管理 的 需求 。 
它们 包括 Google 的 Bigtable; 来 自 Amazon 的 Simple Storage Service( $3), CA Dynamo 提供 了 Web 接口 ， 
是 一 种 码 - 值 存储 系统 ; 来 自 FaceBook 的 Cassandra, EFI Bigtable 类 似 ; 来 自 雅 虎 的 Sherpa/PNUTS ; 
来 自 微软 的 Azure 环境 的 数据 存储 组 件 ; 以 及 其 他 几 个 系统 。 

本 节 提 供 对 这 些 数据 存储 系统 的 体系 架构 的 概览 。 虽 然 一 些 人 把 这 些 系统 称 作 分 布 式 数据 库 系 统 ， 
但 它们 并 不 提供 被 认为 是 目前 数据 库 系 统 标准 的 很 多 特性 ， 比 如 对 SQL 的 支持 ， 或 者 对 具有 ACID 性 
质 的 事务 的 支持 。 

19.9.1.1 数据 表示 

作为 Web 应 用 对 数据 管理 需求 的 例子 ， 考 虑 用 户 的 个 人 简介 ， 由 一 家 组 织 机 构 运行 的 很 多 不 同 的 

应 用 需要 访问 用 户 简历 。 简 历 包含 各 种 属性 ， 并 且 会 频繁 添加 存储 在 简历 中 的 属性 。 某 些 属 性 可 能 包 
含 复杂 的 数据 。 简 单 的 关系 表示 往往 不 足以 表示 这 些 复杂 数据 。 

一 些 基 于 云 的 数据 存储 系统 支持 用 于 表示 这 种 复杂 数据 的 XML( 将 在 第 23 章 介 绍 ) 。 另 一 些 支持 
JavaScript 对 象 表示 法 (JavaScript Object Notation, JSON) 表示 ， 越 来 越 多 地 接受 ISON 来 表示 复杂 数据 。 
XML 和 JSON 表示 提供 了 一 条 记录 所 包含 的 属性 集 以 及 这 些 属性 类 型 的 灵活 性 。 然 而 还 有 一 些 系 统 ， 
比如 Bigtable， 为 复杂 数据 定义 了 它们 自己 的 数据 模型 包括 支持 具有 非常 多 的 可 选 列 的 记录 。 本 节 后 
面 再 来 探讨 Bigtable 数据 模型 。 

此 外 ， 很 多 这 样 的 Web 应 用 要 么 并 不 需要 全 面 的 查询 语言 支持 ， 要 么 至 少 在 没有 这 样 的 支持 下 可 
以 进行 管理 。 主 要 的 数据 访问 模式 是 存储 具有 相关 码 的 数据 ， 并 根据 这 个 码 检索 数据 。 在 上 述 用 户 简 
历 的 例子 中 , 用户 简历 数据 的 码 可 以 是 用 户 的 标识 符 。 有 一 些 应 用 在 概念 上 需要 连接 ， 但 通过 视图 物 
化 的 形式 来 实现 连接 。 比 如 ， 在 一 个 社交 网 络 应 用 中 ， 每 个 用 户 应 该 可 以 看 到 来 自 其 所 有 朋友 的 新 邮 
件 。 遗 憾 的 是 ， 当 数据 分 布 在 很 多 机 器 上 时 ， 找 到 朋友 的 集合 然后 查询 每 个 人 来 找到 他 们 的 邮件 会 带 


第 19 章 分 布 式 数据 库 485 


来 很 大 的 延迟 。 一 种 替代 的 方式 如 下 : 只 要 一 个 用 户 发 送 邮件 ， 就 向 该 用 户 的 所 有 朋友 发 送 一 条 消息 ， 
并 且 用 新 邮件 的 摘要 来 更 新 与 每 个 朋友 相关 联 的 数据 。 当 该 用 户 检查 更 新 时 ， 所 有 所 需 数据 已 经 在 某 
个 地 方 可 用 并 可 以 快速 检索 。 
因此 ， 云 数据 存储 系统 的 核心 是 基于 两 个 基本 函数 : 用 于 存储 具有 相关 码 的 值 的 put( key, value) 
和 用 于 检索 与 特定 码 关 联 的 存储 值 的 get( key) 。 一 些 系统 额外 提供 码 值 上 的 范围 查询 ， 比 如 Bigtable 
在 Bigtable 中 ， 一 条 记录 不 会 作为 单个 值 来 存储 ， 而 是 划分 成 组 成 属性 来 分 开 存储 。 因 此 ， 一 个 
属性 值 的 码 在 概念 上 由 (记录 标识 符 、 属 性 名 ) 组成。 每 个 属性 值 在 Bigtable 中 只 是 一 个 字符 串 。 要 获 [863 | 
得 一 条 记录 的 所 有 属性 ,需要 使 用 范围 查询 或 者 仅 由 记录 标识 符 构成 的 更 精确 的 前 级 匹配 查询 。get( ) 
函数 返回 属性 名 和 对 应 的 值 。 为 了 高 效 地 检索 出 一 条 记录 的 所 有 属性 ， 存 储 系统 按 码 的 次 序 存 放 各 个 
项 ， 这 样 一 条 特定 记录 的 所 有 属性 值 就 是 聚集 在 一 起 的 。 


JSON 
JavaScript 对 象 表示 法 或 JSON 是 复杂 数据 类 型 的 文本 表示 方式 ， 它 广泛 用 于 应 用 之 间 的 数据 传 
输 ， 以 及 复杂 数据 存储 。JSON 支持 基本 数据 类 型 ， 如 整数 、 实 数 和 字符 串 类 型 ， 以 及 数组 类 型 和 
“对 象 ” ， 对 象 是 (属性 名 、 值 ) 对 的 集合 。JSON 对 象 的 一 个 例子 是 : 
| 


"deptname" ; " Physics" , 
" children" : [ 
| "firstname" ; "Hans", "lastname"; "Einstein" | , 
| "firstname" ; " Eduard" , "lastname" ; "Einstein" | 
] 

ł 


上 面 的 例子 说 明 对 象 包含 (属性 名 、 值 ) 对 ， 并 且 数 组 是 用 方 括号 界定 的 。JSON 可 以 看 成 是 
XML 的 一 种 简化 形式 ; XML 将 在 第 23 章 介 绍 。 

开发 了 一 些 库 用 于 在 JSON 表示 和 用 在 JavaScript 和 PHP 脚本 中 以 及 其 他 编程 语言 中 的 对 象 表示 
之 间 的 数据 转换 。 


实际 上 ， 记 录 标 识 符 本 身 可 以 层次 化 构造 ， 尽 管 对 于 Bigtable 自身 来 说 ， 记 录 标 识 符 只 是 一 个 字 
符 串 。 例 如 ， 一 个 存放 通过 网 络 疏 虫 抓 取 到 的 页 面 的 应 用 可 以 把 如 下 形式 的 URL: 

www. cs. yale. edu/people/silberschatz. html 
映射 到 记录 标识 符 : 

edu. yale. cs. www/people/silberschatz. html [864 | 
这 样 页 面 就 按照 有 用 的 顺序 聚集 起 来 。 作 为 男 一 个 例子 ， 在 ISON 例子 ( 见 ISON 的 示例 框 ) 中 的 记录 可 
用 具有 “22222"” 标 识 符 的 记录 来 表示 ， 它 有 多 个 属性 名 ， 比 如 “name. lastname” , “deptname”, “children 
[1]. firstname” 或 “children[ 2 ]. lastname” 

此 外 ， 通 过 在 记录 标识 符 前 面 简单 地 加 上 应 用 名 和 表 名 作为 前 级 ， 单 个 Bigtable 实例 可 以 为 多 个 
应 用 存储 数据 ， 每 个 应 用 具有 多 个 表 。 

数据 存储 系统 基本 上 都 允许 存储 数据 项 的 多 个 版 本 。 版 本 号 往往 采用 时 间 戳 来 标识 ， 但 也 可 以 通 
过 一 个 整数 值 标识 的 方式 来 代替 ， 每 创建 一 个 数据 项 的 新 版 本 时 该 整数 值 就 递增 。 查 找 可 以 指定 数据 
项 的 所 需 版 本 ， 或 者 挑选 版 本 号 最 高 的 版 本 。 比 如 , 在 Bigtable 中 ， 码 实际 上 由 三 部 分 组 成 :〈 记 录 标 
识 符 、 属 性 名 、 时 间 惟 ) 。 

19.9. 1.2 划分 与 检索 数据 

当然 ， 数 据 划 分 是 数据 存储 系统 中 处 理 超大 规模 数据 的 关键 。 和 常规 并 行 数据 库 不 同 ， 它 常常 不 
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可 能 提前 决定 划分 函数 。 此 外 ， 如 果 负 载 增加 ， 就 需要 增加 更 多 的 服务 器 ， 并且 每 个 服务 器 应 该 能 够 
增 量 式 地 承担 部 分 负载 。 

为 了 解决 这 两 种 问题 ， 数 据 存储 系统 通常 把 数据 划分 成 相对 小 的 单元 (在 这 种 系统 上 的 小 可 能 意 
味 着 数 MB 的 量 级 ) 。 这 种 划分 通常 叫 表 块 (tablet) ， 反 映 了 每 个 表 块 作为 表 中 一 部 分 的 事实 。 数 据 划 
分 应 该 根据 搜索 码 来 进行 ， 这 样 对 特定 码 值 的 请 求 就 定位 到 单个 表 块 ; 否则 每 个 请 求 需要 在 多 个 站 点 
上 处 理 ， 大 大 增加 了 系统 负载 。 有 两 种 方法 可 以 使 用 : 或 者 在 码 上 直接 使 用 范围 划分 ， 或 者 在 码 上 应 
用 散 列 函数 并 且 在 散 列 函数 的 结果 上 应 用 范围 划分 。 

表 块 所 在 的 站 点 作为 该 表 块 的 主 站 点 。 所 有 更 新 通过 该 站 点 路 由 ， 然 后 把 更 新 传播 到 表 块 的 副本 
上 。 查 找 也 发 送 到 相同 的 站 点 ， 这 样 读 与 写 才 是 一 致 的 。 

请 求 请 求 请 求 

表 划 分 / 表 块 的 
主 副本 映射 





路 由 器 表 块 控制 器 


图 19-7 云 数据 存储 系统 体系 结构 


把 数据 划分 到 表 块 上 并 不 是 预先 确定 好 的 ， 而 是 动态 进行 的 。 随 着 数据 的 插入 ， 如 果 表 块 变 得 过 
大 ， 就 会 分 裂 成 更 小 的 部 分 。 此 外 ， 即 使 表 块 没有 达到 分 裂 的 指标 ， 如 果 在 这 个 表 块 上 的 负载 (获取 / 
上 传 操作 ) 过 大 ， 这 个 表 块 也 可 能 拆 分 成 更 小 的 表 块 ， 这 些小 的 表 块 可 以 分 布 在 两 个 或 多 个 站 点 上 来 分 
担负 载 。 通 常 表 块 的 数量 远 多 于 站 点 数量 ， 其 原因 与 并 行 数据 库 中 使 用 虚拟 划分 一 样 。 

知道 整个 系统 中 哪个 站 点 负责 特定 表 块 是 非常 重要 的 。 这 可 以 通过 表 块 控制 器 站 点 来 实现 ， 此 站 
点 跟踪 划分 函数 ， 以 便 把 get( ) 请 求 映 射 到 一 个 或 多 个 表 块 ， 此 外 还 跟踪 从 表 块 到 站 点 的 映射 函数 ， 
以 找到 哪个 站 点 负责 哪个 表 块 。 进 入 系统 的 每 个 请 求 必须 路 由 到 正确 的 站 点 ; 如 果 只 有 一 个 表 块 控制 

[865] 器 站 点 负责 此 项 任务 ， 那么 它 很 快 就 会 过 载 。 相 反 ， 映 射 信息 可 复制 到 路 由 器 站 点 集 上 ， 这 些 路 由 器 
站 点 把 请 求 路 由 到 具有 相应 表 块 的 站 点 上 。 当 拆 分 或 移动 表 块 时 ， 用 于 更 新 映射 信息 的 协议 被 设计 成 
不 使 用 封锁 的 方式 ; 其 结果 是 请 求 可 能 在 错误 的 站 点 上 结束 。 对 此 问题 的 处 理 是 通过 检测 该 站 点 不 再 
负责 请 求 所 指定 的 码 ， 并 根据 最 新 的 映射 信息 来 重新 路 由 请 求 。 

图 19-7 描述 了 云 数 据 存储 系统 的 体系 结构 ， 它 大 致 基于 PNUTS 架构 。 其 他 系统 也 提供 了 类 似 的 功 
能 ， 尽 管 它们 的 体系 结构 可 能 有 变化 。 例 如 ，Bigtable 并 没有 独立 的 路 由 器 ; 划分 和 表 块 - 服务 器 的 映 
射 信 息 是 存放 在 Google 文件 系统 中 的 ， 客 户 端 从 文件 系统 中 读 取 信息 ， 并 决定 向 何 处 发 送 它们 的 
请 求 。 

19.9.1.3 事务 和 复制 

云 上 的 数据 存储 系统 通常 不 完全 支持 事务 的 ACID。 两 阶段 提交 的 代价 太 高 ， 而 且 两 阶段 提交 可 能 
在 失效 发 生 时 导致 堵塞 ， 这 是 典型 的 Web 应 用 不 能 接受 的 。 这 就 意味 着 这 种 系统 通常 甚至 不 支持 事务 
一 致 性 的 二 级 索引 : 二 级 索引 可 能 按照 与 存储 数据 所 使 用 的 码 不 同 的 属性 进行 划分 ， 从 而 插入 或 更 新 
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就 需要 更 新 两 个 站 点 ， 这 就 需要 两 阶段 提交 。 在 最 好 情况 下 ， 这 样 的 系统 支持 在 单个 表 块 内 数据 上 的 
事务 ， 通 过 单个 主 站 点 来 控制 。Sherpa/PNUTS 还 提供 测试 与 设置 函数 ， 允 许 在 数据 项 当前 版 本 与 指定 
版 本 号 相同 的 情况 下 对 数据 项 进行 更 新 。 如 果 数 据 项 的 当前 版 本 号 比 指定 版 本 号 要 新 ， 那 么 更 新 就 不 
会 执行 。 应 用 可 以 用 测试 与 设置 函数 来 实现 一 种 受 限 形式 的 基于 有 效 性 检查 的 并 发 控制 ， 其 有 效 性 检 
查 被 限制 在 单个 表 块 中 的 数据 项 上 。 

在 具有 数 和 干 个 站 点 的 系统 中 ， 几 乎 可 以 肯定 在 任何 时 间 都 会 有 几 个 站 点 宕 机 。 云 上 的 数据 存储 系 
统 必须 在 即使 有 很 多 站 点 宕 掉 的 情况 下 也 能 够 继续 正常 的 处 理 。 这 种 系统 把 数据 ( 比如 表 块 ) 复制 到 同 
一 个 集群 中 的 多 台 机 器 上 ， 这 样 哪怕 一 个 集群 中 的 某 些 机 器 宕 掉 ， 这 些 数据 的 副本 还 可 能 是 可 用 的 。 
(集群 (cluster) 是 在 一 个 数据 中 心 的 机 器 的 集合 。) 比如 ， 谷 歌 文件 系统 (Google File System，GFS ) 是 一 
个 分 布 式 容错 的 文件 系统 ， 它 把 所 有 文件 系统 块 复制 到 一 个 集群 中 的 三 个 或 多 个 结 点 上 。 只 要 至 少 有 
一 个 数据 副本 可 用 ， 正 常 的 操作 就 可 以 继续 (关键 的 系统 数据 ， 比 如 文件 到 结 点 的 映射 ， 复 制 到 更 多 的 
站 点 上 ， 其 中 的 大 部 分 必须 可 用 ) 。 此 外 ， 副 本 还 可 以 在 地 理 上 分 布 的 集群 之 间 使 用 ， 至 于 其 原因 我 们 
很 快 就 会 看 到 。 

由 于 每 个 表 块 只 由 单个 主 站 点 控制 ， 如 果 这 个 站 点 失效 ,那么 表 块 应 该 重新 指派 给 具有 该 表 块 副 
本 的 一 个 不 同 的 站 点 ， 该 站 点 就 成 为 该 表 块 新 的 主 站 点 。 对 表 块 的 更 新 记录 为 日 志 ， 并 且 日 志 本 身 也 
备份 。 当 站 点 失效 时 ， 该 站 点 上 的 表 块 指派 给 其 他 站 点 ; 每 个 表 块 新 的 主 站 点 负责 执行 恢复 动作 ， 使 
用 日 志 来 使 其 表 块 副本 达到 最 新 的 一 致 性 状态 ， 此 后 可 以 在 该 表 块 上 执行 更 新 和 查找 。 

比如 ， 在 Bigtable 中 映射 信息 存储 在 一 个 索引 结构 中 ， 并 且 这 个 索引 和 实际 的 表 块 数据 一 起 存储 
在 文件 系统 中 。 表 块 数据 的 更 新 并 没有 立即 执行 ， 但 日 志 数 据 是 。 文 件 系统 确保 文件 系统 数据 被 复制 
而 且 面 对 集群 中 的 几 个 站 点 失效 时 依然 可 用 。 因 此 ， 当 一 个 表 块 被 重新 指派 时 ， 该 表 块 新 的 主 站 点 能 
够 访问 到 最 新 的 日 志 数据 。 另 一 个 方面 ， 雅 虎 的 Sherpa/PNUTS 系统 显 式 地 把 表 块 复制 到 集群 中 的 多 个 
结 点 上 ， 而 不 是 使 用 分 布 式 文件 系统 ， 并 且 采 用 可 靠 的 分 布 式 消息 系统 来 实现 高 可 用 人 性 日 志 。 

遗憾 的 是 ， 整 个 数据 中 心 变 得 不 可 用 并 非 是 不 常见 的 一 一 例如 ， 由 于 自然 灾害 或 者 火灾 。 因 此 对 
于 高 可 用 性 而 言 ， 远 程 站 点 的 备份 是 非常 重要 的 。 对 于 很 多 Web 应 用 ， 在 远 距离 网 络 上 的 往返 延迟 会 
严重 影响 性 能 ， 在 使 用 Ajax 应 用 中 这 个 问题 会 更 加 严重 ，Ajax 应 用 需要 在 浏览 器 和 应 用 之 间 进 行 多 轮 
通信 。 为 了 处 理 这 个 问题 ， 用 户 连接 到 地 理 上 离 他 们 最 近 的 应 用 服务 器 ， 并 且 数 据 在 多 个 数据 中 心 进 
行 备 份 ， 这 样 其 中 一 个 副本 可 能 靠近 应 用 服务 器 。 

但 是 ， 其 结果 是 网 络 划 分 的 危险 增加 了 。 假 设 大 多 数 Web 应 用 对 可 用 性 的 重视 超过 了 一 致 性 ， 云 
上 的 数据 存储 系统 通常 允许 即使 在 发 生 划分 时 也 执行 更 新 ， 并 提供 对 随后 恢复 一 致 性 的 支持 ， 正 如 之 
前 在 19. 6. 6 节 介绍 的 那样 。 我 们 在 19. 5. 3 节 看 到 的 具有 更 新 的 延迟 传播 的 多 主 复制 常常 用 于 处 理 更 
新 。 延 迟 传播 意味 着 更 新 并 不 作为 更 新 事务 的 一 部 分 来 传播 给 副本 ， 尽 管 通常 采用 消息 传递 基础 设施 
尽 可 能 快 地 传播 它们 。 

除了 对 数据 项 副本 的 更 新 传播 ， 对 二 级 索引 的 更 新 ， 或 者 对 特定 类 型 物化 视图 ( 比如 之 前 在 
19. 9. 1. 1 节 我 们 看 到 的 社交 网 络 应 用 中 , 来自 好 友 的 更 新 ) 的 更 新 ， 都 可 以 使 用 消息 传递 基础 设施 来 
进行 发 送 。 二 级 索引 本 质 上 是 表 ， 和 正常 的 表 一 样 基于 索引 搜索 码 划 分 ， 对 表 中 一 条 记录 的 更 新 可 以 
映射 到 表 上 二 级 索引 中 的 一 个 或 多 个 表 块 的 更 新 。 对 这 种 二 级 索引 或 物化 视图 的 更 新 没有 事务 性 保证 ， 
只 是 尽 最 大 努力 保证 更 新 尽快 到 达 其 目的 地 。 
19.9.2 云 上 的 传统 数据 库 

我 们 现在 考虑 在 云 上 实现 一 个 支持 ACID 特性 和 查询 的 传统 分 布 式 数据 库 系统 的 问题 。 

计算 工具 是 一 个 老 概 念 ， 可 以 追溯 到 20 世纪 60 年 代 。 此 概念 的 首次 出 现 是 在 分 时 系统 中 ， 其 中 
多 个 用 户 共享 地 访问 单 台大 型 计算 机 。 后 来 ,在 20 世纪 60 ERR, HAT EWH virtual machine) 的 
概念 ， 在 此 概念 中 用 户 在 感觉 上 好 像 拥 有 私人 计算 机 ， 但 实际 上 是 单 台 计算 机 在 模拟 多 台 虚 拟 机 。 

云 计算 充分 利用 了 虚拟 机 的 概念 来 提供 计算 服务 。 虚 拟 机 提供 了 很 大 的 灵活 性 ， 因 为 客户 可 以 选 
择 他 们 自己 的 软件 环境 ， 不 仅 包括 应 用 软件 ， 而 且 包括 操作 系统 。 如 果 客 户 的 计算 需求 较 低 ， 多 个 客 
户 的 虚拟 机 可 以 运行 在 单 台 物理 计算 机 上 。 另 一 方面 ， 如 果 客 户 的 虚拟 机 负载 很 高 ， 整 台 计 算 机 可 以 
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分 配给 一 个 客户 的 每 台 虚 拟 机 。 客 户 可 以 请 求 多 台 虚 拟 机 ， 用 于 在 其 上 运行 应 用 程序 。 通 过 简单 地 增 
加 或 释放 虚拟 机 ， 这 使 得 随 着 负载 的 增加 和 缩减 来 添加 或 前 减 计算 能 力 变 得 简单 。 

拥有 一 组 虚拟 机 非常 适合 易于 并 行 化 的 应 用 。 数 据 库 系 统 ， 正 如 我 们 所 看 到 的 ， 都 属于 这 一 类 。 
每 台 虚 拟 机 可 以 在 本 地 运行 数据 库 系统 代码 ， 并 且 表 现 方式 类 似 于 在 一 个 同 构 分 布 式 数据 库 系统 中 的 
站 点 。 

19.9.3 基于 云 的 数据 库 的 挑战 
与 从 头 构建 一 个 计算 基础 设施 相 比 ， 基 于 云 的 数据 库 当 然 有 几 个 重要 的 优势 ， 并 且 对 特定 应 用 来 
868] 说 实际 上 是 必 不 可 少 的 。 

然而 ， 基 于 云 的 数据 库 系统 也 有 一 些 缺 点 ， 对 此 我 们 现在 来 探讨 。 与 单纯 的 、 很 大 限度 上 独立 运 
行 并 行 计算 的 计算 应 用 不 同 ， 为 了 下 述 目的 ， 分 布 式 数据 库 系 统 需要 在 站 点 之 间 进 行 频繁 通信 与 协调 : 

。 访问 在 另 一 台 物 理 机 器 上 的 数据 ， 要 么 是 因为 另 一 台 虚 拟 机 拥有 该 数据 ， 要 么 是 因为 数据 存储 

在 独立 于 该 虚拟 机 主机 的 存储 服务 器 上 。 

。 获取 远程 数据 上 的 封锁 。 

。 通过 两 阶段 提交 确保 原子 性 事务 的 提交 。 

在 早期 的 分 布 式 数据 库 的 研究 中 ,我 们 ( 隐 式 地 ) 假 定数 据 库 管理 员 能 够 控制 数据 的 物理 位 置 。 在 
云 系 统 中 ， 数 据 的 物理 位 置 由 供应 商 控制 ， 并 不 是 客户 。 因 此 ， 数 据 的 物理 放置 就 通信 代价 方面 来 说 
可 能 不 是 最 理想 的 ， 并 且 这 可 能 导致 大 量 的 远程 封锁 请 求 和 虚拟 机 之 间 的 大 量 数据 传送 。 高 效 的 查询 
优化 要 求 优化 器 能 够 准确 度量 操作 的 代价 。 由 于 缺乏 数据 的 物理 放置 知识 ， 因 此 优化 器 不 得 不 依赖 于 
可 能 非常 不 准确 的 估计 ， 导 致 低劣 的 执行 策略 。 因 为 远程 访问 相 比 本 地 访问 要 慢 ， 所 以 这 些 问题 可 能 
会 对 性 能 产生 重大 影响 。 

上 述 问题 对 于 在 云 上 实现 传统 数据 库 应 用 是 一 个 特别 的 挑战 ， 虽 然 对 于 简单 数据 存储 系统 来 说 没 
有 多 大 挑战 。 接 下 来 讨论 的 几 种 挑战 可 以 同样 地 应 用 于 这 两 种 应 用 场景 。 

复制 问题 进一步 加 剧 了 基于 云 的 数据 管理 的 复杂 性 。 云 系统 为 了 可 用 性 而 复制 客户 数据 。 事 实 上 ， 
如 果 没 有 维护 特定 级 别 的 可 用 性 ， 许 多 合约 都 有 条 款 对 供应 商 施 加 处 罚 。 供 应 商 实 现 这 种 复制 时 是 不 
具备 对 于 应 用 的 特定 知识 的 。 由 于 复制 是 在 云 控制 之 下 的 ， 并 不 在 数据 库 系 统 的 控制 之 下 ， 因 此 当 数 
据 库 系统 访问 数据 时 必须 小 心 ， 以 确保 读 取 的 是 数据 的 最 新 版 本 。 如 果 不 能 正确 考虑 这 些 问 题 可 能 导 
致 原子 性 或 隔离 性 特性 的 损失 。 在 目前 许多 云 数 据 库 应 用 中 ， 应 用 本 身 可 能 需要 为 一 致 性 承担 一 些 
责任 。 

云 计算 用 户 必须 愿意 接受 他 们 的 数据 被 另 一 家 组 织 机 构 掌握 的 事实 。 这 可 能 会 带 来 在 安全 性 和 法 
律 责任 方面 的 各 种 风险 。 如 果 云 供应 商 遭 受 安全 性 攻击 ， 客 户 数据 可 能 泄露 ， 导 致 客户 面临 来 自 其 用 
户 的 法 律 挑战 。 然 而 客户 不 能 直接 控制 云 供应 商 的 安全 性 。 如 果 云 供应 商 选 择 将 数据 (或 数据 的 副本 ) 
存储 在 其 他 国家 ， 这 些 问题 将 变 得 更 加 复杂 。 各 种 法 律 司法 权 在 它们 的 隐私 法 中 是 不 同 的 。 例 如 ， 如 

果 一 家 德国 公司 的 数据 被 复制 到 纽约 的 服务 器 上 ， 那 么 将 采取 美国 的 隐私 法 律 ， 而 不 是 德国 的 或 欧盟 
的 隐私 法 律 。 云 供应 商 可 能 需要 把 客户 数据 发 布 给 美国 政府 ， 尽 管 客户 从 不 知道 其 数据 将 会 卷 入 美国 
司法 权 管 辖 之 内 。 

特定 的 云 供应 商 向 它们 的 客户 提供 对 他 们 的 数据 如 何 分 布 和 复制 的 各 种 程度 的 控制 。 一 些 供应 商 
直接 向 它们 的 客户 提供 数据 库 服 务 ， 而 不 需要 客户 为 在 原始 存储 和 虚拟 机 上 运行 他 们 自己 的 数据 库 系 
统 而 签订 合约 。 

云 服 务 市 场 持续 快速 发 展 ， 但 很 显然 签订 云 服 务 合约 的 数据 库 管 理 员 必须 考虑 各 种 技术 、 经 济 和 
法 律 方面 的 问题 ， 以 确保 数据 的 隐私 和 安全 ， 保 证 ACID 特性 (或 可 接受 的 近似 性 质 ) ， 以 及 足够 的 性 
能 ， 尽 管 数 据 可 能 分 布 在 广泛 的 地 理 区 域 上 。 文 献 注解 提供 了 一 些 有 关 这 些 主题 的 当前 见解 。 许 多 新 
的 文献 可 能 在 未 来 几 年 出 现 ， 云 数据 库 中 的 许多 当前 问题 正 由 研究 团体 设法 解决 。 


19.10 ”目录 系统 
考虑 一 家 组 织 机 构 ， 它 希望 建立 对 该 机 构 中 各 种 人 都 可 用 的 、 有 关 其 员工 的 数据 ; 这 类 数据 的 例 
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子 包 括 名 称 、 头 衔 、 员 工 号 、 地 址 、 电 子 邮箱 地 址 、 电 话 号 码 、 传 真 号 码 等 。 在 计算 机 化 以 前 ， 组 织 
机 构 会 创建 物理 的 员工 目录 并 把 它们 分 发 到 机 构 中 。 甚 至 在 现在 ， 电 话 公 司 仍 建立 物理 的 客户 目录 。 
一 般 而 言 ， 目 录 是 关于 某 些 类 别 的 对 象 (例如 人 ) 的 信息 列表 。 目 录 可 用 于 寻找 有 关 特 定 对 象 的 信 
息 ， 或 者 反方 向 找到 满足 特定 需求 的 对 象 。 在 物理 电话 目录 范围 内 ， 满 足 前 向 查找 的 目录 叫 白 页 
(white page) ， 而 满足 反 向 查找 的 目录 称 为 黄页 (yellow page ) 。 
在 当今 的 网 络 时 代 ， 仍 然 存 在 对 目录 的 需求 ， 如 果 有 什么 不 同 的 话 ， 那 就 是 变 得 更 重要 了 。 然 而， 
当今 的 目录 需要 在 计算 机 网 络 中 是 可 用 的 ， 而 不 是 在 一 种 物理 (纸张) 形式 中 ， 
19. 10. 1 目录 访问 协议 
目录 信息 可 以 通过 Web 界面 使 用 ， 许 多 机 构 都 是 这 么 做 的 ， 尤 其 是 电话 公司 。 这 样 的 界面 是 适合 
于 人 的 。 然 而 ， 程 序 也 需要 访问 目录 信息 。 目 录 可 用 于 存储 其 他 类 型 的 信息 ， 很 像 文 件 系统 目录 。 例 
如 ， 网 络 浏览 器 可 以 在 目录 系统 中 存储 个 人 书签 和 其 他 浏览 器 设置 。 这 样 用 户 可 以 从 多 个 地 方 (例如 在 
家 或 在 工作 室 ) 来 访问 同样 的 设置 ， 而 不 需要 共享 文件 系统 . [870 | 
已 经 开发 出 几 种 目录 访问 协议 ( directory access protocol) 来 提供 访问 目录 中 数据 的 标准 化 方式 。 其 
中 ， 现 在 使 用 最 广泛 的 是 轻 量 级 目录 访问 协议 (Lightweight Directory Access Protocol, LDAP) . 
显然 在 例子 中 的 所 有 类 型 的 数据 都 可 以 方便 地 存 和 数据库 系 统 ， 并 通过 诸如 JDBC 或 ODBC 这 样 
的 协议 来 访问 。 这 样 就 有 一 个 问题 : 为 什么 要 提出 一 种 特殊 协议 用 于 访问 目录 信息 呢 ? 对 这 个 问题 至 
少 有 两 个 答案 。 
e 首先 ， 目 录 访 问 协议 是 迎合 有 限 类 型 的 数据 访问 的 简化 协议 。 它 们 与 数据 库 访 问 协议 是 并 行 发 
展 的 。 
。 其 次 ， 而 且 也 是 更 重要 的 ， 类 似 于 文件 系统 目录 名 称 ， 目 录 系 统 以 一 种 分 层 的 方式 提供 一 种 简 
单 的 对 象 命名 机 制 ， 可 用 于 分 布 式 目录 系统 中 来 指明 每 台 目 录 服 务 器 中 存储 了 何 种 信息 。 例 
如 ， 一 台 特 定 的 目录 服务 器 可 能 存储 了 贝尔 实验 室 在 Murray Hill 的 员工 信息 ， 而 另 一 台 可 能 存 
储 了 贝尔 实验 室 在 Bangalore 的 员工 信息 ， 并 给 两 个 站 点 控制 它们 的 本 地 数据 的 自治 权 。 目 录 
访问 协议 可 用 于 通过 网 络 从 两 个 目录 中 获取 数据 。 更 重要 的 是 ， 目 录 系 统 可 以 设置 成 在 没有 用 
户 干预 的 情况 下 自动 地 将 一 个 站 点 上 所 做 的 查询 转发 到 另 一 个 站 点 上 。 
因为 这 些 原因 ， 一 些 机 构 利用 目录 系统 ， 使 得 通过 目录 访问 协议 可 以 在 线 获 得 机 构 信息 。 机 构 目 
录 中 的 信息 可 用 于 各 种 目的 ， 例 如 查找 人 的 地 址 、 电 话 号 码 或 邮件 地 址 ， 查 找 人 们 所 在 的 部 门 ， 以 及 
跟踪 部 门 的 层次 结构 。 目 录 也 可 用 于 鉴别 用 户 身 份 : 应 用 可 以 收集 鉴别 信息 ， 例 如 用 户 输入 的 密码 ， 
并 利用 目录 鉴别 它们 。 
正如 可 能 预期 的 那样 ， 几 种 目录 的 实现 证 明 ， 使 用 关系 数据 库存 储 数据 是 有 利 的 ， 而 不 是 创建 特 
殊 目 的 的 存储 系统 。 
19.10.2 LDAP: 轻 量 级 目录 访问 协议 
为 多 个 客户 端 服务 的 目录 系统 通常 作为 一 台 或 多 台 服 务 器 来 实现 。 客 户 端 使 用 由 目录 系统 定义 的 
应 用 编程 接口 与 目录 服务 器 通信 。 目 录 访 问 协议 还 定义 了 数据 模型 和 访问 控制 。 
由 国际 标准 化 组 织 (ISO ) 定 义 的 X. 500 目录 访问 协议 (X. 500 directory access protocol) 是 访问 目录 信 
息 的 标准 。 但 是 ， 此 协议 相当 复杂 ， 没 有 广泛 使 用 。 轻 量 级 目录 访问 协议 (Lightweight Directory Access 
Protocol ，LDAP) 提 供 了 X. 500 的 许多 特性 ,但 复杂 性 降低 了 ， 并 广泛 使 用 。 本 节 剩 余 的 部 分 将 概述 
LDAP 的 数据 模型 和 访问 协议 的 细节 。 [871] 
19. 10.2.1 LDAP 数据 模型 
在 LDAP 中 目录 存储 的 是 类 似 于 对 象 的 条 目 (entry ) 。 每 个 条 目 必 须 有 可 区 别名 称 ( Distinguished 
Name，DN ) ， 它 唯一 地 标识 了 这 个 条 目 。DN 又 由 相对 可 区 别名 称 ( Relative Distinguished Name, RDN) 
的 序列 组 成 。 例 如 ， 一 个 条 目 可 能 具有 如 下 可 区 别名 称 : 
cn = Silberschatz, ou = Computer Science, o = Yale University, c = USA 
如 你 所 看 到 的 那样 ， 在 这 个 例子 中 的 可 区 别名 称 是 名 称 和 (组 织 机 构 的 ) 地 址 的 组 合 ， 以 人 名 开始 ， 然 
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后 给 出 组 织 部 门 (ou) 、 组 织 (0) 和 国家 (c)。 可 区 别名 称 的 构成 顺序 和 通常 的 邮件 地 址 顺序 一 致 ， 而 不 
是 在 为 文件 指定 路 径 名 时 采用 的 相反 的 顺序 。 用 于 一 个 DN 的 RDN 集合 由 目录 系统 的 模式 来 定义 的 。 

条 目 也 可 以 有 属性 。LDAP 提供 二 进 制 、 字 符 串 和 时 间 类 型 ， 另 外 还 有 用 于 电话 号 码 的 tel 类 型 ， 
以 及 用 于 地 址 的 PostalAddress 类 型 ( 行 间 用 $ 字 符 分 开 ) 。 与 关系 模型 中 的 属性 不 同 ， 这 里 的 属性 默认 
为 多 值 的 ， 因 此 可 能 为 一 个 条 目 存 储 多 个 电话 号 码 或 者 地 址 。 

LDAP 允许 定义 带 有 属性 名 和 类 型 的 对 象 类 (object class) 。 在 定义 对 象 类 时 可 以 使 用 继承 。 而 且 ， 
可 以 指定 条 目 属于 一 个 或 多 个 对 象 类 。 定 义 条 目 所 属 的 一 个 最 特殊 的 对 象 类 是 不 必要 的 。 

条 目 按照 它们 的 可 区 别名 称 组 织 成 一 棵 目录 信息 树 ( Directory Information Tree ，DIT) 。 树 的 叶 级 条 
目 通常 表示 特定 的 对 象 。 作 为 内 部 结 点 的 条 目 表 示 如 组 织 部 门 、 组 织 或 国家 这 样 的 对 象 。 一 个 结 点 的 
子 结 点 具有 包含 其 父 结 点 所 有 RDN 的 DN， 以 及 一 个 或 多 个 附加 的 RDN。 例 如 ， 一 个 内 部 结 点 可 能 有 
一 个 DN: ec=USA， 在 它 以 下 的 所 有 条 目 对 RDN c 都 有 USA 这 个 值 : 

完整 的 可 区 别名 称 不 必 存 储 在 条 目 中 。 系 统 可 以 通过 从 条 目 向 上 遍历 DIT， 收 集 RDN = value 的 成 
分 以 产生 完整 的 可 区 别名 称 的 方式 来 产生 一 个 条 目的 可 区 别名 称 。 

条 目 可 以 有 不 止 一 个 可 区 别名 称 一 一 例如 ， 对 于 一 个 在 不 止 一 家 组 织 机 构 中 的 人 的 条 目 。 为 了 处 
理 这 种 情况 ，DIT 的 叶 结 点 可 以 是 别名 (alias) ， 它 指向 树 的 另 一 个 分 支 中 的 条 目 。 

19. 10.2.2 数据 操纵 

与 SQL Ale], LDAP 既 没 有 定义 数据 定义 语言 ， 也 没有 定义 数据 操纵 语言 。 然 而 ，LDAP 定义 了 一 
种 用 于 执行 数据 定义 和 操纵 的 网 络 协议 。LDAP 的 用 户 既 可 以 使 用 应 用 编程 接口 ， 也 可 以 使 用 由 不 同 
厂商 提供 的 工具 来 执行 数据 的 定义 和 操纵 。LDAP 还 定义 了 一 种 文件 格式 ， 称 为 LDAP 数据 交换 格式 

872 | (LDAP Data Interchange Format，LDIF ) ， 它 可 用 于 存储 和 交换 信息 。 

LDAP 中 的 查询 机 制 十 分 简单 ， 只 有 选择 和 投影 ， 没 有 连接 。 查 询 必 须 指 定 以 下 几 点 : 

。 一 个 基 一 一 DIT 中 的 一 个 结 点 通过 给 出 其 可 区 别名 称 ( 从 根 结 点 到 该 结 点 的 路 径 ) 。 

。 一 个 搜索 条 件 ， 可 以 是 各 个 属性 上 的 条 件 的 布尔 组 合 。 支 持 相等 、 通 配 符 匹 配 和 近似 相等 ( 近 

似 相 等 的 精确 定义 因 具 体系 统 而 异 ) 。 

。 一 个 范围 ， 可 以 就 是 基 ， 也 可 以 是 基 和 它 的 子 基 ， 或 者 是 基 以 下 的 整 棵 子 树 。 

。 要 返回 的 属性 。 

。 结果 和 资源 消耗 的 数量 限制 。 
查询 还 可 以 指定 是 否 自动 取消 引用 别名 ; 如 果 关 闭 了 取消 引用 别名 ， 则 别名 条 目 可 以 作为 答案 返回 。 

查询 LDAP 数据 源 的 一 种 方式 是 使 用 LDAP URL, LDAP URL 的 例子 是 : 

Idap:: //codex. cs. yale. edu/o = Yale University, c = USA 

Idap:: //codex. cs. yale. edu/o = Yale University, c =USA?? sub? cn = Silberschatz 
第 一 个 URL 返回 具有 组 织 机 构 为 Yale University 并 且 国 家 为 USA 的 服务 器 上 所 有 条 目的 所 有 属性 。 第 
二 个 URL 在 具有 可 区 别名 称 o = Yale University, c= USA 的 结 点 的 子 树 上 执行 搜索 查询 (选择 ) cn = 
Silberschatz。URL 中 的 问号 分 隔 开 不 同 的 域 。 第 一 个 域 是 可 区 别名 称 ， 这 里 是 o = Yale University 、 
c=USA。 第 二 个 域 是 待 返回 的 属性 列表 ， 这 里 为 空 ， 意味 着 返回 所 有 属性 。 第 三 个 属性 (sub) 指 定 待 
搜索 的 整 棵 子 树 。 最 后 的 参数 是 搜索 条 件 。 

查询 LDAP 目录 的 第 二 种 方式 是 使 用 应 用 编程 接口 。 在 图 19-8 中 显示 了 用 于 连接 到 一 台 LDAP 服 
务 器 并 在 该 服务 器 上 运行 查询 的 一 段 C 代码 。 这 段 代码 首先 通过 ldap_open 和 1dap_bind 来 打开 与 LDAP 
服务 器 的 连接 。 然 后 通过 ldap_search_s 来 执行 查询 。Idap_sereach_s 的 参数 包括 LDAP 连接 句柄 、 搜 索 
执行 的 基 的 DN、 搜 索 范围 、 搜 索 条 件 、 待 返回 的 属性 列表 和 一 个 称 为 attrsonly 的 属性 ， 该 属性 如 果 设 
置 为 1， 将 导致 只 返回 结果 的 模式 ， 而 没有 实际 元 组 。 最 后 的 参数 是 输出 参数 ， 它 将 查询 结果 作为 
LDAPMessage 结构 返回 。 

第 一 个 for 循环 反复 迭代 并 输出 结果 中 的 每 个 条 目 。 注 意 一 个 条 目 可 能 有 多 个 属性 ， 第 二 个 for 循 
环 输出 每 个 属性 。 由 于 LDAP 中 的 属性 可 以 是 多 值 的 ， 因 此 第 三 个 for 循环 输出 属性 的 每 个 值 。 调 用 

ldap_msgfree 和 Idap_value_free 来 释放 由 LDAP 库 分 配 的 内 存 空 间 。 图 19-8 没有 显示 用 于 处 理 错误 条 
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件 的 代码 。 
LDAP API 也 包含 创建 、 更 新 和 删除 条 目的 函数 ， 同 时 包含 DIT 上 的 其 他 操作 。 每 个 函数 调用 的 行 
为 就 像 一 个 单独 的 事务 ; LDAP 不 支持 多 个 更 新 的 原子 性 。 





#include <stdio.h> 
#include <Idap.h> 
main() { 
LDAP “Id; 
LDAPMessage “res, “entry; 
char “dn, “attr, *attrList[] = {“telephoneNumber”, NULL}; 
BerElement “ptr; 
int vals, i; 
Id = Idap_open(“codex.cs.yale.edu”, LDAP_PORT); 
Idap_simple_bind(Id, “avi”, “avi-passwd”) ; 
ldap_search_s(ld, “o=Yale University, c=USA”, LDAP_SCOPE_SUBTREE, 
“cn=Silberschatz”, attrList, /‘attrsonly*/ 0, &res); 
printf(“found %d entries”, Idap_count_entries(Id, res)); 
for (entry=Idap_first_entry(Id, res); entry != NULL; 
entry = Idap_next_entry(Id, entry)) 
{ 


dn = Idap_get_dn(Id, entry); 
printf(“dn: %s”, dn); 
ldap_memfree(dn); 
for (attr = Idap_first_attribute(Id, entry, &ptr); 
attr ! NULL; 
attr = Idap_next_attribute(Id, entry, ptr)) 





{ 
printf(“%s: *, attr); 
vals = Idap_get_values(Id, entry, attr); 
for (i=0; vals[i] != NULL; i++) 
printf(“%s, *, vals[i]); 
Idap_value_free(vals); 


} 


} 
Idap_msgfree(res); 
Idap_unbind(Id); 





图 19-8 用 C 编写 的 LDAP 代码 示例 


19. 10. 2.3 分布 式 目录 树 

有 关 一 家 组 织 机 构 的 信息 可 以 分 成 多 个 DIT， 其 中 每 个 存储 关于 某 些 条 目的 信息 。DIT HBS [874 | 
(suffix) Æ RDN = value 对 的 序列 ， 用 于 识别 DIT 存储 了 何 种 信息 ， 这 些 对 串 接 到 其 余 的 由 从 条 目 到 根 
的 遍历 所 产生 的 可 区 别名 称 上 。 例 如 ， 某 个 DIT 的 后 缀 可 能 是 o= Lucent, c= USA ， 而 另 一 个 的 后 绥 
可 能 是 o = Lucent, c= India, DIT 可 以 按 组 织 机 构 和 地 理 位 置 来 分 开 。 

DIT 中 的 结 点 可 能 包含 对 另 一 个 DIT 中 另 一 个 结 点 的 引用 (referral); Hin, Æ o = Lucent, c= 
USA 下 的 组 织 机 构 部 门 贝 尔 实验 室 可 以 有 它 自己 的 DIT， 在 这 种 情况 下 ， 对 于 o =Lucent、c=USA 的 
DIT 将 有 一 个 结 点 ou = Bell Labs， 表 示 指 向 贝尔 实验 室 的 DIT 的 引用 。 

引用 是 有 助 于 把 分 布 的 目录 集合 组 织 成 一 个 集成 系统 的 关键 构件 。 当 服务 器 得 到 在 DIT 上 的 查询 
时 ， 它 可 以 返回 一 个 引用 给 客户 端 ， 然 后 客户 端 在 引用 的 DIT 上 发 布 查 询 。 访 问 引用 的 DIT 是 透明 的 ， 
用 户 无 须知 道 过 程 。 另 一 种 方式 是 ， 服 务 器 本 身 可 以 给 引用 的 DIT 发 布 查询 并 与 本 地 计算 结果 一 起 返 
回 查 询 结果 。 

LDAP 使 用 的 分 层 命 名 机 制 有 助 于 突破 对 一 家 组 织 机 构 的 组 成 部 分 上 的 信息 的 控制 。 进 而 ， 引 用 
机 制 有 助 于 将 一 家 组 织 机 构 中 的 所 有 目录 集成 到 单个 虚拟 目录 中 。 

组 织 机 构 经 常 选择 通过 地 理 ( 例 如 ， 一 家 组 织 机 构 可 能 为 具有 该 组 织 的 大 机 构 的 每 个 站 点 维护 一 
个 目录 ) 或 者 通过 组 织 结 构 ( 例 如 ， 每 家 组 织 单位 ， 比 如 部 门 ， 维 持 它 自己 的 目录 ) 来 分 割 信息 ， 虽 然 
这 并 不 是 LDAP 的 要 求 。 

虽然 复制 不 是 当前 LDAP 版 本 3 标准 的 一 部 分 ,但 很 多 LDAP 实现 支持 DIT 的 主 从 和 多 主 副本 。 在 
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LDAP 中 对 复制 的 标准 化 工作 正在 进行 中 。 


19. 1 


1 BS 


分 布 式 数据 库 系统 由 站 点 的 集合 构成 ， 每 个 站 点 维护 一 个 本 地 数据 库 系统 。 各 个 站 点 能 够 处 理 局 部 
事务 : 这 些 事务 访问 的 数据 仅 位 于 该 单个 站 点 上 。 此 外 ， 站 点 可 以 参与 到 全 局 事务 的 执行 中 : 这 些 
全 局 事务 访问 多 个 站 点 上 的 数据 。 全 局 事务 的 执行 需要 在 站 点 之 间 进 行 通信 。 
分 布 式 数 据 库 可 能 是 同 构 的 ， 其 中 所 有 站 点 拥有 共同 的 模式 和 数据 库 系统 代码 ， 或 者 是 异 构 的 ， 其 
中 模式 和 系统 代码 可 能 不 同 。 
关于 在 分 布 式 数据 库 中 存储 关系 涉及 几 个 问题 ， 包 括 复制 和 分 片 。 系 统 应 尽量 减 小 用 户 需要 了 解 关 
系 如 何 存储 的 程度 ， 这 是 非常 重要 的 。 
分 布 式 系统 可 能 遭受 与 集中 式 系统 相同 类 型 的 故障 。 但 是 ， 分 布 式 环境 中 还 有 另 一 些 需 要 处 理 的 故 
障 ， 包 括 站 点 故障 、 链 路 故障 、 消 息 丢失 以 及 网 络 划分 。 在 分 布 式 故障 恢复 模式 的 设计 中 需要 考虑 
每 个 这 样 的 问题 。 
为 了 保证 原子 性 ， 执 行事 务 7 的 所 有 站 点 必须 在 执行 的 最 终结 果 上 取得 一 致 。7 要 么 在 所 有 站 点 上 
提交 ， 要么 在 所 有 站 点 上 中 止 。 为 了 保证 这 一 特性 ,7 的 事务 协调 器 必须 执行 一 种 提交 协议 。 使 用 
最 广泛 的 提交 协议 是 两 阶段 提交 协议 。 
两 阶段 提交 协议 可 能 导致 阻塞 ， 在 这 种 情况 下 ， 事 务 的 命运 必须 等 到 故障 站 点 (协调 器 ) 恢复 后 才能 
确定 。 为 了 减少 阻塞 的 可 能 性 ， 可 以 使 用 三 阶段 提交 协议 。 
持久 消息 为 分 布 式 事务 处 理 提供 了 一 种 可 选 模式 。 该 模式 将 单个 事务 拆 分 成 在 不 同 数据 库 执 行 的 多 
个 部 分 。 持 和 久 消息 (无 论 是 否 发 生 故 障 ， 都 保证 正好 只 传送 一 次 ) 被 传送 到 需要 采取 动作 的 远程 站 
点 。 虽 然 持 久 消息 避免 了 阻塞 问题 ， 但 是 应 用 程序 开发 者 必须 编写 代码 来 处 理 各 种 类 型 的 故障 。 
在 集中 式 系统 中 使 用 的 各 种 并 发 控制 方案 修改 后 可 用 于 分 布 式 环境 。 
就 封锁 协议 而 言 ， 须 做 的 唯一 改变 是 锁 管理 器 的 实现 方式 。 这 里 有 各 种 不 同 的 方式 。 可 以 采 
用 一 个 或 多 个 中 央 协 调 器 。 而 如 果 采 用 分 布 式 锁 管理 器 方式 ,复制 的 数据 就 必须 特殊 对 竺 。 
处 理 已 复制 数据 的 协议 包括 主 副本 协议 、 多 数 协 议 、 有 偏 协 议和 法 定 人 数 同意 协议 。 它 们 在 
开销 方面 和 在 发 生 故 障 时 工作 的 能 力 方面 各 有 不 同 的 取舍 权衡 。 
DO 就 时 间 惟 和 有 效 性 验证 方案 而 言 ， 所 需 的 唯一 修改 是 开发 一 种 产生 全 局 唯一 性 时 间 堆 的 
机 制 。 
许多 数据 库 系 统 支持 延迟 复制 ， 其 中 更 新 被 传播 到 执行 更 新 的 事务 的 范围 之 外 的 副本 。 这 样 
的 工具 必须 小 心 使 用 ， 因 为 它们 可 能 导致 不 可 串 行 化 的 执行 。 
分 布 式 锁 管理 器 环境 中 的 死 锁 检测 需要 多 个 站 点 之 间 的 合作 ， 因 为 甚至 在 没有 局 部 死 锁 的 情况 
下 也 可 能 有 全 局 死 锁 。 
为 了 提供 高 可 用 性 ， 分 布 式 数据 库 必 须 检 测 故 障 ， 重 构 系 统 以 使 计算 能 够 继续 进行 ， 并 在 处 理 
器 或 链 路 修复 之 后 能 够 恢复 。 由 于 要 在 网 络 划 分 和 站 点 故障 之 间 进 行 区 分 是 很 困难 的 ， 因 此 这 
个 任务 就 变 得 非常 复杂 。 

通过 使 用 版 本 号 ， 可 以 对 多 数 协议 进行 扩展 使 其 在 即使 存在 故障 的 情况 下 仍 允 许 进 行事 务 
处 理 。 虽 然 该 协议 代价 昂贵 ， 但 它 无 论 在 何 种 类 型 的 故障 下 都 能 工作 。 可 以 使 用 较 小 代价 的 协 
议 来 处 理 站 点 故障 ， 但 是 它们 假设 不 会 发 生 网 络 划分 。 
一 些 分 布 式 算法 需要 使 用 协调 器 。 为 了 提供 高 可 用 性 ， 系 统 必 须 维 护 一 个 准备 好 在 协调 器 故障 
时 能 继续 其 职责 的 备份 副本 。 另 一 种 方法 是 在 协调 器 发 生 故 障 后 选 出 新 的 协调 器 。 确 定 哪 个 站 
点 应 该 作为 协调 器 的 算法 称 为 选举 算法 。 
分 布 式 数据 库 上 的 查询 可 能 需要 访问 多 个 站 点 。 可 以 使 用 几 种 优化 技术 来 识别 需要 访问 的 最 佳 
站 点 集 。 查 询 可 以 依据 关系 的 分 片 来 自动 重 写 ， 然 后 可 以 在 每 个 分 片 的 副本 之 间 做 出 选择 。 可 
以 应 用 半 连 接 技术 减少 跨 不 同 站 点 的 关系 (或 相应 的 分 片 或 副本 ) 连接 中 所 涉及 的 数据 传输 。 
异 构 分 布 式 数据 库 允 许 站 点 有 它们 自己 的 模式 和 数据 库 系统 代码 。 多 数据 库 系统 提供 了 一 种 环 
境 ， 在 其 中 新 的 数据 库 应 用 可 以 访问 位 于 多 种 异 构 软 硬件 环境 的 各 个 先前 存在 数据 库 中 的 数 
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据 。 局 部 数据 库 系 统 可 以 采用 不 同 的 逻辑 模型 以 及 数据 定义 和 数据 操纵 语言 ， 并 且 可 以 在 它们 
的 并 发 控制 和 事务 管理 机 制 上 存在 差别 。 多 数据 库 系统 虚拟 了 逻辑 上 的 数据 库 集成 ， 不 需要 物 


理 上 的 数据 库 集成 。 


。 为 了 响应 超大 规模 Web 应 用 对 数据 存储 的 需求 ， 近 年 来 在 云 上 构建 了 大 量 数据 存储 系统 。 这 些 
数据 存储 系统 允许 扩展 到 地 理 上 分 布 的 数 千 个 结 点 上 ， 而 且 具 有 高 可 用 性 。 然 而 ， 它 们 并 不 支 
持 通常 的 ACID 特性 ， 而 且 在 划分 时 以 副本 一 致 性 为 代价 来 获得 可 用 性 。 当 前 的 数据 存储 系统 
还 不 支持 SQL， 而 且 只 提供 简单 的 put( )/get() 接口 。 即 使 对 于 传统 数据 库 云 计算 也 是 有 吸引 
力 的 ， 但 因为 缺乏 对 数据 存放 和 地 理 副 本 的 控制 ， 也 面临 一 些 挑战 。 
。 目录 系统 可 视 为 一 种 特殊 形式 的 数据 库 ， 其 中 信息 按照 一 种 分 层 的 方式 组 织 ， 类 似 于 文件 系统 
中 文件 的 组 织 方式 。 目 录 通 过 标准 化 目录 访问 协议 (例如 LDAP) 来 访问 。 目 录 可 以 分 布 到 多 个 [877 
站 点 上 来 提供 对 各 个 站 点 的 自治 。 目 录 可 以 包含 对 其 他 目录 的 引用 ,这 有 助 于 建立 集成 视图 ， 
借 此 查询 被 发 送 给 单个 目录 并且 在 所 有 相关 目录 上 透明 地 执行 . 


术语 回顾 


© 同 构 分 布 式 数据 库 
异 构 分 布 式 数据 库 
数据 复制 
主 副 本 
数据 分 片 


口 
口 


水 平分 片 
垂直 分 片 


。 数据 透明 性 


口 
Oo 
口 





口 
E 





分 片 透明 性 


复制 透明 性 
位 置 透明 性 


名 字 服 务 器 
别名 
分 布 式 事务 


局 部 事务 
全 局 事务 


事务 管理 器 
事务 协调 器 
系统 故障 模式 
网 络 划分 

提交 协议 

两 阶段 提交 协议 (2PC ) 
口 就 绪 状态 
口 疑问 事务 
口 阻塞 问题 


实践 习题 
为 局 域 网 设计 的 分 布 式 数据 库 与 为 广域网 设计 的 分 布 式 数据 库 会 有 哪些 区 别 ? 
要 建立 一 个 高 可 用 性 的 分 布 式 系统 ， 你 必须 知道 会 发 生 什么 类 型 的 故障 。 

a. 列 出 分 布 式 系统 中 可 能 的 故障 类 型 。 


19.1 
19.2 


b. 在 你 的 a 小 题 列 表 中 的 哪些 故障 也 可 能 出 现在 集中 式 系统 中 ? 


三 阶段 提交 协议 (3PC) 
持久 消息 

并 发 控制 
单 锁 管理 器 

分 布 式 锁 管理 器 
副本 协议 

o 主 副本 

D 多 数 协议 

有 偏 协议 

D 法 定 人 数 同意 协议 
时 间 截 

主 从 复制 

多 主 (任意 地 方 更 新 ) 复 制 
事务 一 致 性 快照 
延迟 传播 

死 锁 处 理 

口 局 部 等 待 图 

口 全 局 等 待 图 
口 假 环 

可 用 性 

健壮 性 

口 基于 多 数 的 方法 
口 读 一 个 、 写 所 有 
口 读 一 个 、 写 所 有 可 用 
D 站 点 重 构 

















Co 

N 
|x 
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协调 器 选择 

备份 协调 器 

选举 算法 

威逼 算法 

分 布 式 查询 处 理 

半 连 接 策略 

多 数据 库 系统 

口 自治 

口 中 间 件 

口 局 部 事务 

口 全 局 事务 

口 确保 全 局 可 串 行 化 
口 标签 

云 计算 

云 数据 存储 

表 块 

目录 系统 

LDAP: 轻 量 级 目录 访问 协议 
口 可 区 别名 称 (DN ) 
O 相对 可 区 别名 称 (RDN ) 
O 目录 信息 树 (DIT) 
分 布 式 目 录 树 

O DIT AR 

口 引用 
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19.3 


19.4 


19. 10 


19. 11 


19. 12 


考虑 在 事务 的 2PC 中 发 生 的 故障 。 对 你 在 实践 习题 19. 2a 中 列 出 的 每 种 可 能 的 故障 ， 解 释 尽 管 存 在 故 
障 ，2PC 怎样 保证 事务 的 原子 性 。 
考虑 一 个 有 两 个 站 点 4 和 有 的 分 布 式 系统 。 站 点 4 能 区 别 出 下 列 情况 吗 ? 

© B 崩 演 。 

o A 和 B 之 间 的 连接 断 开 。 

o B 极度 过 载 ， 并 且 响 应 时 间 比 正常 情况 下 长 100 倍 。 
你 的 答案 对 于 分 布 式 系统 中 的 恢复 有 何 启示 ? 
本 章 描述 的 持久 消息 模式 依赖 于 时 间 戳 ， 并 结合 了 丢弃 接收 到 的 过 于 陈旧 的 消息 。 给 出 一 个 基于 序列 
号 而 不 是 时 间 戳 的 替代 方案 。 
给 出 读 一 次 、 写 所 有 可 用 方法 导致 错误 状态 的 一 个 例子 。 
解释 在 分 布 式 系统 中 的 数据 复制 和 维护 远程 备份 站 点 之 间 的 差异 。 
给 出 一 个 即使 更 新 时 得 到 了 主要 的 ( 主 ) 副 本 上 的 排他 锁 ， 延 迟 复 制 仍 能 够 导致 数据 库 状 态 不 一 致 的 
例子 。 
考虑 下 面 的 死 锁 检测 算法 。 当 站 点 5, 上 的 事务 T, 请 求 站 点 S 上 来 自 事务 7 的 资源 时 ， 发 送 带 时 间 
En WERKS. ACT, T, n) RAR 5, 的 局 部 等 待 图 中 。 仅 当 7, 已 接收 到 请 求 消息 但 不 能 立即 
授予 所 请 求 的 资源 时 ， 才 把 边 (7,，7T,，n) 插 入 到 5; 的 局 部 等 待 图 中 。 同 一 站 点 上 从 事务 7, 到 7 的 
请 求 按 照 通常 的 方式 处 理 ; ACT, T) 上 不 与 时 间 惟 相关 联 。 中 央 协 调 器 通过 对 系统 中 的 每 个 站 点 发 
送 初 始 化 消息 来 调用 检测 算法 。 

一 旦 接收 到 这 样 的 消息 ， 站 点 就 发 送 它 自己 的 局 部 等 待 图 给 协调 器 。 注 意 此 图 包含 该 站 点 所 拥有 

的 关于 真实 图 状态 的 所 有 局 部 信息 。 等 待 图 反映 了 站 点 的 瞬间 状态 ， 但 是 它 没有 与 任何 其 他 站 点 同步 。 
当 控 制 者 从 每 个 站 点 都 接收 到 回答 后 ， 它 构造 如 下 的 图 : 

。 对 于 系统 中 的 每 个 事务 ， 该 图 包含 一 个 顶点 。 

。 KZAAW(T,, 7) 当 且 仅 当 : 
D 在 某 个 等 待 图 中 有 边 (7,,，7)。 
口 边 (7T;，7T;，n)( 对 某 些 n) 在 不 止 一 个 等 待 图 中 出 现 。 
证 明 ， 如 果 在 构造 的 图 中 有 环 ， 那 么 系统 处 于 死 锁 状态 ， 并 且 如 果 在 构造 的 图 中 没有 环 ， 那 么 
系统 在 该 算法 开始 执行 时 没有 处 于 死 锁 状态 。 

考虑 按 plant_number 水 平分 片 的 关系 : 

employee (name, address, salary, plant_number ) 

假设 每 个 分 片 有 两 个 副本 : 一 个 存在 New York 站 点 ， 且 另 一 个 存在 本 地 的 工厂 站 点 。 为 下 述 

在 San Jose 站 点 提出 的 查询 设计 一 种 好 的 处 理 策略 。 

a. 找 出 Boca 厂 的 所 有 员工 。 

b. 找 出 所 有 员工 的 平均 工资 。 

ce 找 出 在 以 下 每 个 站 点 薪酬 最 高 的 员工 Toronto, Edmonton, Vancouver, Montreal, 

d. 找 出 公司 中 薪酬 最 低 的 员工 。 

对 图 19-9 中 的 关系 计算 rx s。 




















图 19-9 实践 习题 19. 11 中 的 关系 
给 一 个 在 云 上 的 理想 化 的 应 用 程序 的 例子 ， 再 给 另 一 个 很 难 在 云 上 成 功 实现 的 例子 ， 解 释 你 的 
案 。 
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19. 13 ”假设 LDAP 的 功能 可 以 在 数据 库 系 统 之 上 实现 ， 那 么 LDAP 标准 需要 什么 ? 

19.14 考虑 一 个 多 数据 库 系统 ， 它 保证 在 任何 时 候 最 多 只 有 一 个 全 局 事务 是 活路 的 ， 并且 每 个 本 地 站 
点 保证 局 部 可 串 行 化 。 
a. 给 出 多 数据 库 系 统 可 以 保证 在 任何 时 候 最 多 只 有 一 个 活跃 的 全 局 事务 的 方法 。 
b 举例 说 明 尽 管 有 上 述 假设 ， 还 是 有 可 能 导致 不 可 串 行 化 的 全 局 调度 。 

19.15 ”考虑 一 个 多 数据 库 系 统 ， 其 中 每 个 本 地 站 点 保证 局 部 可 串 行 化 ,并且 所 有 全 局 事务 都 是 只 


读 的 。 
a. 举例 说 明 在 这 样 的 系统 中 可 能 产生 不 可 串 行 化 的 执行 。 [881 | 
b. 说 明 你 如 何 使 用 标签 机 制 来 保证 全 局 可 串 行 化 。 


19.16 讨论 集中 式 数据 库 和 分 布 式 数据 库 的 相对 优点 。 

19.17 解释 下 述说 法 有 何 区 别 : 分 片 透明 性 、 复 制 透明 性 、 位 置 透明 性 。 

19.18 ”数据 复制 和 分 片 何 时 有 用 ? 解释 你 的 答案 。 

19. 19 -解释 透明 性 和 自治 的 概念 。 为 什么 从 人 的 因素 的 角度 来 看 这 些 概念 是 需要 的 ? 

19.20 ”如 果 我 们 把 第 15 章 中 多 粒度 协议 的 分 布 式 版 本 应 用 于 分 布 式 数据 库 ， 负责 DAG 根 结 点 的 站 点 
可 能 成 为 瓶颈 。 假 设 我 们 修改 协议 如 下 : 

。 根 结 点 上 只 允许 有 意向 模式 的 锁 。 
。 所 有 事务 被 自动 授予 根 结 点 上 所 有 可 能 的 意向 模式 锁 。 
说 明 这 些 修改 可 以 无 须 允 许 任 何 非 串 行 化 调度 来 减轻 这 个 问题 。 

19.21 研究 并 总 结 你 正 使 用 的 数据 库 系统 为 处 理由 于 更 新 的 延迟 传播 而 导致 的 不 一 致 性 状态 而 提供 的 
TR, 

19.22 讨论 19.5. 2 VAP BABY HEE Pe EE ERK PE BY RA o 

19.23 考虑 关系 : 

employee( name, address, salary, plant_number) 
machine( machine_number, type, plant_number ) 
假设 employee 关系 按 plant_number 水 平分 片 ， 且 每 个 片 片 本 地 存储 在 它 所 对 应 的 工厂 站 点 。 假 
设 整个 machine 关系 存在 Armonk 站 点 。 为 以 下 每 个 查询 设计 一 种 好 的 处 理 策略 。 
a 找 出 包含 机 器 号 1130 的 工厂 的 所 有 员工 。 
b. 找 出 包含 机 器 类 型 为 “milling machine "的 工厂 的 所 有 员工 。 
c. 找 出 Almaden 工厂 的 所 有 机 器 。 [882 
d. 找 出 employee p4 machine, 
19.24 ”对 习题 19.23 的 每 种 策略 ， 说 明 你 选择 的 策略 如 何 依赖 于 下 列 因 素 : 
a. 查询 提出 的 站 点 。 
b. 需要 结果 的 站 点 。 

19.25 ”表达 式 r Xr 必然 等 于 7 xr 吗 ? 在 什么 条 件 下 7 xr =r xr? 

19. 26 如果 使 用 云 数据 存储 服务 来 存储 两 个 关系 r+ 和 s， 而 且 我 们 需要 对 r+ 和 进行 连接 ， 为 什么 将 此 
连接 作为 物化 视图 来 维护 可 能 是 有 用 的 ? 在 你 的 答案 中 ,务必 区 分 出 “有 用 ”的 各 种 含义 : 整体 
吞吐 量 、 空 间 使 用 效率 ， 以 及 对 用 户 查 询 的 响应 时 间 。 

19.27 为 什么 云 计算 服务 通过 使 用 虚拟 机 的 方式 能 最 好 地 支持 传统 数据 库 系统 ， 而 不 是 通过 直接 在 服 
务 供 应 商 的 实际 机 器 上 运行 的 方式 ? 

19. 28 ”描述 如 何 使 用 LDAP 来 提供 对 数据 的 多 层 分 层 视 图 ， 而 不 用 复制 基础 级 数据 


文献 注解 
教材 中 关于 分 布 式 数据 库 的 讨论 由 Ozsu 和 Valduriez| 1999 | 提供 。Breitbart 等 | 1999b | 提供 了 对 分 
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布 式 数据 库 的 概述 。 

分 布 式 数 据 库 中 事务 概念 的 实现 由 Gray[ 1981 ] 和 Traiger 等 [1982 ] 给 出 。2PC 协议 由 Lampson 和 
Sturgis[ 1976 ] 开 发。 三 阶段 提交 协议 来 自 Skeen[ 1981 ] Mohan 和 Lindsay[ 1983 | 讨论 了 2PC 的 两 种 修 
改版 ， 叫 做 假设 提交 和 假设 中 止 ， 它 们 通过 考虑 事务 命运 、 定 义 默 认 假设 来 减少 2PC 的 开销 。 

19. 6. 5 节 中 的 威 盘 算 法 来 自 Garcia-Molina[ 1982] 。 分 布 式 时 钟 同步 在 Lamport[ 1978 ] 中 讨论 。 分布 
式 并 发 控制 由 Bernstein 和 Coodman[ 1981 ] 介 绍 。 

R "的 事务 管理 器 在 Mohan 等 [1986 ] 中 描述 。 分 布 式 并 发 控制 模式 的 验证 技术 由 Schlageter[ 1981 | 
和 Bassiouni[ 1988 ] 描述 。 

Gray 等 [1996 ] 在 数据 仓库 环境 中 再 讨论 了 复制 数据 的 并 发 更 新 间 题 。Anderson 等 [1998 ] 讨 论 了 关 
于 延迟 复制 和 一 致 性 的 问题 。Breitbart 等 [1999a] 描述 了 用 于 处 理 复制 的 延迟 更 新 协议 。 

各 种 数据 库 系 统 的 用 户 手 册 提 供 了 它们 如 何 处 理 复制 和 一 致 性 的 详细 信息 。Huang 和 Garcia-Molina 
[2001 ] 阑 述 了 复制 消息 系统 中 恰好 一 次 的 语义 。 

Knapp| 1987 ] 综 述 了 分 布 式 死 锁 检测 的 文献 。 实 践 习题 19.9 来 自 Stuart 等 [1984 | 。 

Epstein 等 [1978 ] 、Hevner 和 Yao[ 1979 ] 讨 论 了 分 布 式 查询 处 理 。Daniels [1982 ] 讨论 了 RRM 
的 分 布 式 查 询 处 理 方法 。 

Ozcan 等 [1997 | 阐述 了 多 数据 库 中 的 动态 查询 优化 。Adali 等 [1996 ] 和 Papakonstantinou 等 | 1996 | 
描述 了 中 间 件 系统 中 的 查询 优化 问题 。 

Mehrotra 等 [2001 ] 讨 论 了 多 数据 库 系 统 中 的 事务 处 理 。Georgakopoulos 等 | 1994 ] 介绍 了 标签 方案 ， 
Mehrotra 等 [1991 ] 介 绍 了 2LSR。 

在 Ooi 和 S. Parthasarathy | 2009 ] 中 有 一 组 关于 云 系 统 上 数据 管理 的 论文 。Chang 等 [2008 | 描述 了 
Google 的 Bigtable 的 实现 ， 而 Cooper 等 [2008 | 描述 了 雅虎 的 PNUTS 系统 。Brantner 等 [ 2008 ] 介绍 了 使 
用 Amazon 的 S3 基于 云 的 存储 来 构建 数据 库 的 经 验 。Lomet 等 [2009 ] 介 绍 了 在 云 系统 中 使 事务 正确 工 
作 的 方法 。Brewer[ 2000 ] 推 测 了 CAP 定理 ， 并 由 Gilbert 和 Lynch[ 2002 ] 形 式 化 及 证 明 。 

Howes 等 [1999 ] 提 供 了 涵盖 LDAP 的 教材 。 
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数据 库 查询 通常 设计 为 提取 特定 信息 ， 例 如 账户 的 余额 或 者 客户 账户 余额 的 总 和 。 然而 ， 
为 帮助 制定 公司 策略 而 设计 的 查询 通常 需要 访问 来 自 多 个 数据 源 的 大 量 数据 

数据 仓库 是 从 多 个 数据 源 中 进行 数据 采集 ， 并 以 一 种 共同 的 、 统 一 的 数据 库 模 式 进行 存 
储 的 数据 仓储 。 存 放 在 数据 仓库 中 的 数据 将 用 于 各 种 复杂 聚集 和 统计 分 析 。 常 常 为 数据 分 析 
而 开发 SQL 结构 ， 正 如 我 们 在 第 5 章 所 见 。 此 外 ， 知 识 发 现 技术 也 用 于 尝试 发 现 数据 中 的 规 
则 和 模式 。 例 如 ， 零 售 商 可 能 发 现 特定 产品 往往 一 起 购买 ， 就 可 以 利用 这 样 的 信息 来 形成 营 
销 策 略 。 这 种 从 数据 中 发 现 知识 的 过 程 称 为 数据 挖掘 。 第 20 章 将 闸 述 数据 仓库 和 数据 挖掘 的 
问题 。 

在 到 目前 为 止 的 讨论 中 ， 我 们 集中 在 相对 简单 的 、 结 构 完 整 的 数据 上 。 然 而 ， 在 互联 网 
LAMP AR LRREAAR PO OBLRAEREES 构 化 的 文本 数据 。 用 户 希 望 
从 这 些 让 大 的 、 大 部 分 是 文本 的 信息 中 用 诸如 关键 字 查 询 那样 的 简单 查询 机 制 来 发 现 相关 的 
信息 。 信 息 检索 领域 处 理 这 类 非 结构 化 数据 的 查询 ， 并 特别 关注 查询 结果 的 排序 。 尽 管 该 领 
域 的 研究 已 有 数 十 年 历史 ， 但 随 着 万 维 网 的 发 展 它 仍 在 飞速 成 长 。 第 21 章 给 出 了 对 信息 检索 
领域 的 介绍 。 
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数据 仓库 与 数据 挖掘 


企业 已 开始 对 不 断 增 长 的 数据 进行 联机 发 据 ， 以 对 其 商业 贸易 活动 做 出 更 好 的 决策 ， 比 如 采购 
何 种 货物 以 及 如 何 最 好 地 定位 客户 群 以 增加 销售 额 。 挖 掘 这 些 数据 有 两 个 方面 的 问题 。 第 一 个 方面 
是 把 来 自 各 个 数据 源 的 数据 汇集 到 一 个 中 心 仓库 中 ， 这 个 中 心 仓库 叫做 数据 仓库 。 与 数据 仓库 相关 
的 问题 包括 处 理 脏 数 据 ( 即 带 有 某 些 错误 的 数据 ) 的 技术 ， 以 及 对 大 量 数据 的 高 效 存 储 和 索引 的 技术 。 

第 二 个 方面 是 分 析 收 集 到 的 数据 来 发 现 可 以 成 为 商务 决策 基础 的 信息 或 者 知识 。 某 些 类 型 的 数 
据 分 析 可 以 通过 使 用 针对 联机 分 析 处 理 (OLAP) 的 SQL 结构 (我 们 已 在 5.6 节 ( 第 5 章 ) 中 见 到 过 ) 来 
实现 ， 还 可 以 通过 使 用 OLAP 的 工具 和 图 形 界 面 来 实现 。 另 一 种 从 数据 中 获得 知识 的 方法 是 使 用 数 
4646 4k (data mining) ， 其 目标 是 在 大 量 数 据 中 检测 出 各 类 类 型 的 模式 。 数 据 挖掘 是 对 具有 类 似 目 标 
的 各 种 类 型 的 统计 技术 的 补充 。 


20. 1 决策 支持 系统 


数据 库 应 用 可 广义 地 划分 为 事务 处 理 和 决策 支持 系统 。 事 务 处 理 系统 是 用 来 记录 有 关 事 务 的 信 
息 的 系统 ， 比 如 公司 的 产品 销售 信息 ， 或 者 大 学 的 课程 注册 和 成 绩 信息 。 事 务 处 理 系统 现今 已 得 到 
广泛 应 用 ,组 织 机 构 已 经 积累 了 由 这 类 系统 产生 的 大 量 信息 。 决 策 支 持 系统 的 目标 是 从 事务 处 理 系 
统 存储 的 细节 信息 中 提取 出 高 层次 的 信息 ， 并 利用 这 些 高 层次 信息 来 做 出 各 种 决策 。 决 策 支 持 系统 
帮助 经 理 决 定 商店 该 采购 什么 产品 ， 工 厂 该 生产 什么 产品 ， 或 者 大 学 该 录取 哪些 申请 者 。 

887 例如 ,公司 数据 库 常常 包含 大 量 关 于 客户 和 交易 的 信息 。 所 需 的 信息 存储 规模 可 能 高 达 数 百 
GB， 对 于 大 型 零售 连锁 店 甚至 达到 TB 级 。 零 售 商 的 交易 信息 可 能 包括 顾客 姓名 或 标识 ( 比如 信用 卡 
号 )、 购 买 的 商品 、 支 付 的 价钱 以 及 购买 日 期 。 所 购 商 品 信 息 可 能 包括 商品 名 称 、 生 产 商 、 型 号 、 颜 
色 和 大 小 。 顾 客 信息 可 能 包括 信贷 历史 、 年 薪 、 住 址 、 年 龄 ， 甚 至 教育 背景 。 

这 种 大 型 数据 库 可 以 作为 制定 商业 务 决 策 的 信息 宝库 ， 璧 如 要 采购 什么 商品 或 者 提供 多 少 折 
扣 。 例 如 ， 一 家 零售 公司 可 能 发 现在 太平 洋 西北 部 突然 盛行 购买 法 兰 绒 衬 衫 ， 意 识 到 了 这 是 可 能 
的 趋势 ， 就 可 能 开始 在 该 地 区 的 商店 储备 大 量 的 这 种 衬衫 。 作 为 另 一 个 例子 ， 一 家 汽车 公司 在 查 
询 其 数据 库 时 可 能 发 现 ， 其 大 多 数 跑车 是 由 年 薪 超 过 50 000 美元 的 年 轻 妇 女 购 买 的 。 该 公司 可 能 
调整 其 市 场 定位 ， 以 吸引 更 多 这 类 妇女 来 购买 它 的 小 型 跑车 ， 并 且 可 以 避免 把 经 费 浪 费 在 试图 吸 
引 其 他 人 和 群 来 购买 这 种 汽车 上 。 在 这 两 个 例子 中 ， 公 司 识别 出 了 客户 行为 的 模式 并 利用 该 模式 来 
制定 商业 务 决 策 。 
用 于 决策 支持 的 数据 存储 和 检索 带 来 了 几 个 问题 : 
。 尽管 许多 决策 支持 查询 可 以 用 SQL 书写 ， 但 另 一 些 要 么 无 法 用 SQL 表示 ， 要 么 无 法 简单 地 用 
SQL 来 表示 。 为 此 已 经 提出 了 几 种 SQL 扩展 以 便 更 易于 进行 数据 分 析 。5. 6 节 介绍 了 用 于 数据 
分 析 和 联机 分 析 处 理 ( OLAP) 技 术 的 SQL 扩展 。 
。 数据 库 查 询 语言 并 不 适合 对 数据 执行 详细 的 统计 分 析 ( statistical analyse) 。 有 几 种 软件 包 ， 例 如 
SAS 和 S++ ， 有 助 于 统计 分 析 。 这 些 软 件 包 与 数据 库 通 过 界面 连接 ， 人 允许 将 大 量 数据 存储 到 数 
据 库 中 并 且 可 以 高 效 地 检索 以 用 于 分 析 。 统 计 分 析 领 域 本 身 是 一 个 大 的 学 科 ， 更 多 信息 可 参见 
文献 注解 中 的 参考 文献 。 
。 大 型 公司 拥有 形式 多 样 的 数据 源 用 于 制定 商务 决策 。 这 些 数 据 源 可 能 按 不 同 模式 存储 数据 。 基 
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于 性 能 因素 (也 基于 管理 控制 因素 ) ， 数 据 源 通常 不 允许 公司 其 他 部 门 检索 所 需 数据 。 
为 了 能 够 在 这 些 不 同 的 数据 上 高 效 执行 查询 ， 一 些 公司 已 创建 了 数据 仓库 。 数 据 仓库 位 于 
一 个 单独 的 节点 上 ， 使 用 统一 的 模式 从 多 个 数据 源 收集 数据 。 因 此 ， 它 们 给 用 户 提供 一 个 单独 
的 、 统 一 的 数据 接口 。20. 2 节 研 究 创建 和 维护 数据 仓库 的 问题 。 
© 知识 发 现 技 术 试 图 从 数据 中 自动 发 现 统计 规则 和 模式 。 数 据 挖 握 领 域 将 人 工 智能 研究 者 和 统计 
分 析 家 发 明 的 知识 发 现 技术 结合 起 来 ， 同 时 采用 高 效 的 实现 技术 使 它们 能 够 用 于 超大 型 数据 [888 | 
库 。20. 3 节 将 讨论 数据 挖掘 。 
决策 支持 ( decision support) 领域 在 广义 上 可 以 看 作 覆 盖 了 上 述 所 有 和 领域， 尽管 有 些 人 狭义 地 使 用 这 
个 术语 ， 排 除了 统计 分 析 和 数据 挖掘 。 


20.2 数据 仓库 


大 公司 在 许多 地 方 都 有 分 支 ， 每 个 分 支 都 可 能 产生 大 量 数据 。 例 如 ， 大 型 零售 连锁 店 拥有 成 百 上 
千家 商店 ， 而 保险 公司 可 能 拥有 来 自 上 千 个 各 地 分 支 机 构 的 数据 。 而 且 ， 大 型 组 织 机 构 有 复杂 的 内 部 
组 织 结构 ， 因 此 不 同 的 数据 可 能 位 于 不 同 的 地 点 , 或 者 在 不 同 的 操作 系统 中 ,或 者 具有 不 同 的 模式 。 
例如 ， 生 产 问题 数据 和 顾客 意见 数据 可 能 存储 在 不 同 的 数据 库 系统 中 。 组 织 机 构 经 常 从 外 部 数据 源 购 
买 数 据 ( 比如 用 于 产品 推广 的 邮件 列表 ,或 由 信用 机 构 提 供 的 消费 者 的 信用 评分 )， 用 于 决定 用 户 的 
fa. © 

企业 决策 者 需要 访问 来 自 多 个 这 种 数据 源 的 信息 。 在 各 个 数据 源 上 建立 查询 既 麻 烦 又 低 效 。 而 且 ， 
数据 源 可 能 只 存储 当前 数据 ， 而 决策 者 可 能 还 需要 访问 历史 数据 ; 例如 ， 有 关 在 去 年 里 购买 模式 是 如 
何 改变 的 信息 可 能 非常 重要 。 数 据 仓库 对 这 些 问题 提供 了 一 种 解决 方案 。 

数据 仓库 ( data warehouse) 是 一 个 将 从 多 个 数据 源 中 收集 来 的 信息 以 统一 模式 存储 在 单个 站 点 上 的 
仓储 (或 归档 ) 。 一 旦 收集 完毕 ， 数 据 会 存储 很 长 时 间 ， 人 允许 访问 历史 数据 。 因 此 ， 数 据 仓 库 给 用 户 提 
供 了 一 个 单独 的 、 统 一 的 数据 接口 ， 易 于 决策 支持 查询 的 书写 。 而 且 ， 通 过 从 数据 仓库 里 访问 用 于 文 
持 决策 的 信息 ， 决 策 者 可 以 保证 在 线 的 事务 处 理 系统 不 受 决策 支持 负载 的 影响 。 


20. 2. 1 数据 仓库 成 分 


图 20-1 显示 了 一 个 典型 的 数据 仓库 的 架构 ， 并 阐明 了 数据 收集 、 数 据 存 储 以 及 查询 和 对 数据 分 析 [889 | 
的 支持 。 下 面 是 创建 数据 仓库 时 需要 说 明 的 一 些 问题 : 
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图 20-1 数据 仓库 架构 


© 何 时 和 如 何 收集 数据 。 在 收集 数据 的 源 驱动 架构 ( source-driven architecture) 中 ， 数 据 源 连 续 地 
(发 生 事务 处 理 时 ) 或 周期 性 地 (例如 ， 每 个 晚上 ) 传输 新 的 信息 。 在 目标 驱动 架构 ( destination- 


加 ”信用 机 构 是 一 种 公司 ， 它 从 多 个 数据 源 收 集 消费 者 信息 ， 并 为 每 个 消费 者 计算 信誉 程度 .。 


500 ”第 六 部 分 数据 仓库 、 数 据 挖掘 与 信息 检索 


driven architecture) 中 ， 数 据 仓库 周期 地 给 数据 源 发 送 需 要 新 数据 的 请 求 。 
除非 数据 源 更 新 通过 两 阶段 提交 的 方式 在 数据 仓库 中 复制 ， 否 则 数据 仓库 不 会 与 数据 源 保 
持 同 步 更 新 。 两 阶段 提交 代价 十 分 昂贵 ,通常 不 作为 一 个 种 可 选 方 案 ， 所 以 数据 仓库 通常 会 有 
稍微 过 期 的 数据 。 然 而 这 对 于 决策 支持 系统 通常 不 是 问题 。 
© 使 用 何 种 模式 。 单 独 构造 的 各 个 数据 源 很 可 能 有 具有 不 同 模式 。 事 实 上， 它们 甚至 可 能 使 用 不 同 
的 数据 模型 。 数 据 仓 库 的 部 分 任务 就 是 进行 模式 整合 ， 并 将 数据 转化 成 整合 后 的 模式 后 再 进行 
存储 。 其 结果 是 ， 存 储 在 数据 仓库 中 的 数据 可 看 作 是 数据 源 数据 的 一 个 物化 视图 ， 而 不 单单 是 
数据 源 数据 的 一 个 拷贝 。 
© 数据 转换 和 清理 。 对 数据 的 纠正 和 预 处 理 任 务 称 作 数据 清理 ( data cleansing) 。 数 据 源 经 常 传送 
大 量具 有 略微 不 一 致 性 的 数据 ， 这 种 不 一 致 性 是 可 以 纠正 的 。 例 如 ， 姓 名 经 常 拼 错 ， 地 址 中 可 
能 有 街道 、 地 区 或 者 城市 名 称 的 拼写 错误 ， 或 者 邮编 输入 错误 。 这 些 可 以 通过 参考 有 关 每 个 城 
市 的 街道 名 和 邮编 的 数据 库 来 进行 合理 纠正 。 这 种 任务 所 需要 的 数据 大 致 匹配 称 为 模糊 查找 
(fuzzy lookup ) 。 
从 多 个 数据 源 收集 的 地 址 列表 可 能 具有 重复 ， 需 要 在 合并 - 清除 操作 (merge-purge operation) 
中 消除 这 些 重复 (这 种 操作 也 称 作 去 重 ( deduplication) ) 。 一 所 住宅 中 多 个 人 的 记录 可 以 组 合 为 一 
组 ， 这 样 每 所 住宅 只 须 投 递 一 封 邮件 ， 此 操作 称 作 住宅 操作 (householding) 。 
数据 除了 要 清理 ， 可 能 还 需要 采用 多 种 方式 进行 转换 (transform ) ， 例 如 改变 度量 单位 ， 或 
者 通过 将 来 自 多 个 源 关系 的 数据 进行 连接 从 而 将 数据 转换 为 一 种 不 同 的 模式 。 数 据 仓库 一 般 有 
图 形 工具 来 支持 数据 转换 。 这 些 工具 允许 将 转换 表示 为 框 ， 通 过 在 框 之 间 连 上 边 来 表示 数据 的 
流动 。 条 件 框 能 把 数据 引 至 转换 过 程 中 合适 的 下 一 步 。 图 30-7 给 出 了 一 个 例子 ， 它 使 用 微软 
SQL Server 提供 的 图 形 工 具 来 指定 转换 。 
。 如 何 传 播 更 新 。 数 据 源 中 关系 的 更 新 必须 传播 到 数据 仓库 。 如 果 数 据 仓 库 中 的 关系 与 数据 源 中 
的 完全 一 样 ， 那 么 传播 就 直截了当 了 。 如 果 不 一 致 ， 更 新 传播 问题 基本 上 就 是 视图 维护 问题 ， 
此 问题 已 在 13. 5 节 讨 论 过 了 。 


护 由 关系 上 的 聚集 得 到 的 汇总 数据 ， 而 不 是 维护 整个 关系 ,我们 就 可 以 回答 许多 查询 。 例 如 ， 
我 们 可 以 存储 按 商品 名 和 类 别 汇总 的 服装 销售 总 额 ， 而 不 是 存储 服装 销售 的 所 有 数据 。 
假设 关系 > 由 汇总 关系 取代。 仍然 可 以 允许 用 户 提出 查询 请 求 ， 就 像 关 系 上 是 可 以 在 线 得 到 的 一 
样 。 如 果 查 询 只 需要 汇总 数据 ， 则 有 可 能 利用 * 将 其 转化 为 一 种 等 价 的 形式 ， 见 13. 5 节 。 
将 数据 存 和 数据 仓库 所 涉及 的 不 同步 又 称 为 抽取 (extract) 、 转 换 ( transform) 和 加 载 (load) ， 或 者 称 
为 ETL 任务 ; 抽取 指 的 是 从 源 收集 数据 ， 而 加 载 指 的 是 把 数据 装 入 数据 仓库 中 。 


20.2.2 数据 仓库 模式 

典型 的 数据 仓库 具有 为 数据 分 析 而 设计 的 模式 ， 使 用 诸如 OLAP 的 工具 。 因 此 ， 数 据 通常 是 多 维 
数据 ， 具 有 维 属性 和 度量 属性 。 包 含 多 维 数 据 的 表 称 作 事 实 表 (fact table) ， 它 通常 很 大 。 一 个 记录 零 
售 商店 销售 信息 的 表 就 是 事实 表 的 一 个 典型 例子 ， 其 中 每 个 元 组 对 应 一 个 售 出 商品 。sales 表 的 维 可 以 
包括 何 种 商品 (通常 是 商品 标识 ， 比 如 条 形 码 中 使 用 的 标识 ) 、 商 品 售 出 日 期 、 商 品 售 出 地 点 (商店 )、 
哪个 顾客 购买 该 商品 等 。 度 量 属 性 可 能 包括 售 出 商品 数量 及 商品 价格 。 

为 了 最 小 化 存储 需求 ， 维 属性 通常 是 一 些 短 的 标识 ， 作 为 参照 其 他 称 作 维 表 ( dimension table ) 的 表 


891 | 的 外 码 。 人 例如， 事实 表 sales 可 能 有 属性 item_id, store_id, customer_id 和 date， 以 及 度量 属性 number 和 





price。 属 性 store_id 是 参照 维 表 store 的 外 码 ， 表 store 含有 其 他 属性 ， 比 如 商店 位 置 (城市 、 州 、 国 家 ) 。 
sales 表 的 item_id 属性 是 参照 维 表 item_info 的 外 码 ， 表 item_info 还 含有 一 些 信息 ， 比 如 商品 名 称 、 商 品 
所 属 类 别 以 及 其 他 的 商品 细节 信息 ， 如 颜色 和 尺寸 。 属 性 customer_id 是 参照 customer 表 的 外 码 ， 表 
customer 含有 诸如 顾客 姓名 和 地 址 那样 的 属性 。 我 们 还 可 以 将 date 属性 看 作 参 照 date_info 表 的 外 键 ， 
表 date_info 给 出 了 每 个 日 期 的 月 、 季 和 年 的 信息 。 
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E 20-2 某 个 数据 仓库 的 星 型 模式 


图 20-2 给 出 了 结果 模式 。 这 种 具有 一 个 事实 表 、 多 个 维 表 以 及 从 事实 表 到 维 表 的 外 码 的 模式 称 为 
星 型 模式 (star schema ) 。 更 复杂 的 数据 仓库 设计 可 能 含有 多 级 维 表 ; 例如 ，item _info 表 可 能 有 
manufacturer_id 属性 ， 它 是 参照 给 出 厂商 细节 信息 的 男 一 个 表 的 外 码 。 这 种 模式 称 作 雪花 模式 
(snowflake schema) 。 复 杂 数 据 仓库 设计 也 可 能 有 不 止 一 个 事实 表 。 
20.2.3 面向 列 的 存储 

传统 数据 库 把 元 组 的 所 有 属性 存储 在 一 起 ， 再 把 元 组 存放 在 文件 中 。 这 种 存储 方式 称 为 面向 行 的 
存储 (row-oriented storage) 。 相 反 ， 在 面向 列 的 存储 (column-oriented storage) 中， 关系 的 每 个 属性 存储 在 
单独 的 文件 中 , 来 自 相 邻 元 组 的 值 存 放 在 文件 中 连续 的 位 置 上 。 假 设 数 据 类 型 的 大 小 固定 ， 一 个 关系 


的 第 i 个 元 组 在 属性 4 上 的 取 值 可 以 通过 访问 与 属性 4 对 应 的 文件 并 读 取 偏 移 量 为 (i - 1) 信和 属性 4 的 [89 


值 大 小 ( 以 字 节 为 单位 ) 处 的 值 而 得 到 。 

面向 列 的 存储 和 面向 行 的 存储 对 比 ， 至 少 有 两 个 主要 优势 : 

1. 当 查 询 只 需要 访问 一 个 包含 大 量 属性 的 关系 中 的 几 个 属性 时 ， 其 余 属性 并 不 需要 从 磁盘 提取 到 
内 存 中 。 相 反 ， 在 面向 行 的 存储 中 ， 如 果 一 些 属性 和 查询 所 用 的 属性 相 邻 存储 ， 那 么 不 仅 要 把 这 些 不 
相干 的 属性 提取 到 内 存 中 ， 而 且 它们 还 可 能 被 预 取 到 处 理 器 高 速 缓存 中 ， 浪 费 了 缓存 空间 和 内 存 的 
带宽 。 

2. 把 相同 类 型 的 值 存储 在 一 起 提高 了 压缩 效率 ; 压缩 不 仅 可 以 大 大 降低 磁盘 存储 的 成 本 ， 而 且 减 
少 了 从 磁盘 检索 数据 的 时 间 。 

另 一 方面 ， 面 向 列 的 存储 的 缺点 是 存储 或 读 取 单个 元 组 需要 多 次 VO 操作 。 

根据 上 述 折 中 的 结果 ， 面 向 列 的 存储 没有 广泛 用 于 事务 处 理应 用 。 然 而 ， 面 向 列 的 存储 在 数据 仓 
库 应 用 中 获得 了 越 来 越 多 的 认可 ， 因 为 数据 仓库 应 用 很 少 访问 单个 元 组 ， 而 是 需要 扫描 和 聚合 多 个 
元 组 。 

Sybase IQ 是 早期 使 用 面向 列 存储 的 产品 之 一 ， 但 现在 有 几 个 研究 项 目 和 公司 已 经 开发 了 基于 面向 
列 存储 系统 的 数据 库 。 这 些 系统 已 证 明 能 够 显著 增加 许多 数据 仓库 应 用 的 性 能 。 关 于 如 何 实现 面向 列 
的 存储 以 及 在 这 种 存储 方式 上 如 何 优化 和 处 理 查询 ， 请 参考 文献 注解 中 的 文献 。 


20.3 数据 挖掘 


术语 数据 挖掘 ( data mining) 泛 指 半 自动 地 分 析 大 型 数据 库 以 发 现 有 用 模式 的 处 理 过 程 。 类 似 于 人 
工 智 能 里 的 知识 发 现 (也 叫 机 器 学 习 ) 或 统计 分 析 ， 数 据 挖掘 试图 从 数据 中 发 现 规则 和 模式 。 然 而 ， 数 
据 挖掘 与 机 器 学 习 和 统计 的 不 同 在 于 ， 它 处 理 主 要 存储 在 磁盘 上 的 大 量 数据 。 也 就 是 说 ， 数 据 挖掘 处 
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理 “ 数 据 库 中 的 知识 发 现 ”。 

从 数据 库 中 发 现 的 某 些 类 型 的 知识 可 以 用 一 个 规则 (rule) 集 来 表示 。 下 面 是 一 个 非 正式 地 描述 的 
规则 的 例子 :“ 年 收入 超过 50 000 美元 的 年 轻 妇 女 是 最 有 可 能 购买 小 型 跑车 的 人 。 当然 ， 这 样 的 规则 
并 不 总 是 正确 的 ， 就 像 我 们 将 要 看 到 的 那样 ， 它 具有 “支持 度 " 和 “置信 和 度 "。 其 他 类 型 的 知识 可 用 将 不 

893 | 同 变 量 相互 联系 起 来 的 等 式 来 表达 ， 或 者 利用 其 他 一 些 在 已 知 某 些 变量 值 的 条 件 下 预测 结果 的 机 制 来 
表达 。 

可 能 有 用 的 模式 的 可 能 类 型 是 多 样 的 ， 找 到 不 同类 型 的 模式 可 采用 不 同 的 技术 。 我 们 将 研究 一 些 
模式 的 例子 ， 看 看 从 一 个 数据 库 中 如 何 自动 导出 它们 。 

数据 挖掘 通常 具有 人 工 的 成 分 ， 包括 预 处 理 数据 使 之 成 为 算法 可 接受 的 形式 ， 以 及 将 发 现 的 模式 
进行 后 期 处 理 ， 以 找 出 其 中 有 用 的 异常 模式 。 从 给 定数 据 库 中 发 现 的 模式 可 能 不 止 一 种 类 型 ， 可 能 需 
要 人 工交 互 以 选 出 有 用 的 模式 类 型 。 由 于 这 个 原因 ， 数 据 挖掘 在 现实 生活 中 确实 是 一 种 半自动 的 处 理 
过 程 。 然 而 ， 在 描述 中 , 我 们 重点 集中 在 挖掘 的 自动 化 方面 。 

所 发 现 的 知识 有 大 量 应 用 。 最 广泛 的 应 用 是 那些 需要 某 种 形式 的 预测 ( prediction) 的 应 用 。 例 如 ， 
当 一 个 人 申请 信用 卡 时 ， 信 用 卡 公司 要 预测 这 个 人 是 否 有 好 的 信用 风险 。 预 测 基于 这 个 人 的 已 知 属性 ， 
比如 年 龄 、 收 入 、 债 务 以 及 过 去 的 债务 偿还 历史 。 做 出 预测 的 规则 来 源 于 过 去 和 现在 的 信用 卡 持 有 人 
的 相同 属性 以 及 他 们 所 查 到 的 行为 ， 比 如 他 们 是 否 未 履行 信用 卡 付款 责任 。 其 他 类 型 的 预测 包括 : 预 
测 哪些 客户 可 能 转 到 竞争 者 那里 去 (可 以 给 这 些 客户 提供 特别 的 折扣 吸引 他 们 不 离开 ) ， 预 测 哪 些 人 有 
可 能 对 推销 邮件 (“垃圾 邮件 ”) 做 出 反应 ,或 者 预测 使 用 哪 种 方式 的 电话 卡 可 能 是 欺诈 。 

另 一 类 应 用 是 寻找 关联 (association) ， 比 如 可 能 会 一 起 购买 的 书籍 。 如 果 某 位 顾客 购买 了 一 本 书 ， 
在 线 书 店 可 以 建议 购买 其 他 的 相关 书籍 。 如 果 某 人 购买 了 一 架 照相 机 ， 系 统 可 以 建议 可 能 需要 同 照 相 
机 一 起 购买 的 附件 。 好 的 销售 人 员 知 道 这 样 的 模式 并 利用 它们 来 进行 额外 的 销售 。 挑 战 在 于 这 个 过 程 
的 自动 化 。 其 他 类 型 的 关联 可 能 导致 发 现 因果 关系 。 例 如 ， 发 现 某 种 新 引进 的 药 与 心脏 病 之 间 的 意外 
联系 导致 发 现 这 种 药 可 能 会 在 某 些 人 群 中 引发 心脏 病 。 然 后 将 这 种 药 从 市 场 上 撤 出 -。 

关联 是 描述 性 模式 ( descriptive pattem) 的 一 个 例子 。 聚 类 ( cluster) 是 这 种 模式 的 另 一 个 例子 。 例 
如 ， 一 百 多 年 前 在 一 口水 井 周围 发 现 了 一 连 串 的 伤寒 病症 ， 这 使 人 们 发 现 水 井中 的 水 受到 了 污染 并 正 
在 传播 伤寒 病菌 。 疾 病 聚 类 检测 甚至 在 现在 也 一 直 保 持 其 重要 性 -。 


20.4 分 类 


894 如 20.3 节 所 提 到 的 ， 预 测 是 数据 挖掘 中 最 重要 的 类 型 之 一 。 我 们 介绍 分 类 ， 学 习 用 于 创建 一 种 称 

作 决 策 树 分 类 器 的 技术 ， 然 后 研究 其 他 一 些 预 测 技术 。 

抽象 地 说 ， 分 类 (classification ) 问题 是 这 样 的 : 给 出 属于 某 几 个 类 之 一 的 项 ， 并 给 出 项 的 过 去 实例 
(叫做 训练 实例 (training instance) ) 以 及 它们 所 属 的 类 ， 问 题 是 预测 一 个 新 项 所 属 的 类 。 因 为 新 实例 的 
类 是 未 知 的 ， 所 以 必须 使 用 该 实例 的 其 他 属性 来 预测 它 所 属 的 类 。 

通过 寻找 能 够 把 给 定数 据 分 成 互 不 相交 的 组 的 规则 ， 可 以 实现 分 类 。 例 如 ， 假 设 信用 卡 公司 要 决 
定 是 否 给 一 个 申请 者 发 放 信用 卡 。 该 公司 有 关于 这 个 人 的 各 种 信息 ， 如 她 的 年 龄 、 教 育 背 景 、 年 收入 
和 当前 债务 情况 ， 这 些 信 息 可 用 来 做 出 决策 。 

这 些 信息 中 有 些 与 申请 者 的 信誉 程度 有 关 ， 而 有 些 可 能 无 关 。 为 了 做 出 决策 ， 公 司 根据 每 个 客户 
的 付款 历史 给 当前 客户 样本 集中 的 每 个 客户 指定 一 个 优 、 良 、 中 或 差 的 信誉 等 级 。 然 后 ， 公 司 尝试 找 
出 规则 ， 根 据 有 关 个 人 的 信息 而 不 是 根据 实际 的 付款 历史 ( 对 于 新 客户 无 法 得 到 这 类 信息 ) ， 将 它 的 当 
前 客户 分 成 优 、 良 、 中 或 差 。 让 我 们 只 考虑 两 个 属性 : 教育 水 平 ( 拥 有 的 最 高 学 历 ) 和 收入 。 规 则 可 能 
是 下 面 的 形式 : 


Y person P, P. degree = masters and P. income > 75, 000 
= P. credit = excellent 
Y person P, P. degree = bachelors or 
(已 income > 25, 000 and P. income < 75, 000) = _ P. credit = good 


对 于 其 他 信誉 等 级 (中 和 差 ) 也 可 用 类 似 的 规则 来 表示 。 
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创建 分 类 器 的 过 程 开始 于 数据 样本 ， 称 作 训 练 集 ( training set) 。 对 训练 集中 的 每 个 元 组 ， 其 所 属 的 


类 是 已 知 的 。 例 如 ， 信 用 卡 应 用 的 训练 集 可 以 是 已 有 的 客户 ， 他 们 的 信誉 程度 已 根据 其 付款 历史 得 到 。 


实际 的 数据 或 人 群 可 能 由 所 有 人 组 成 ， 包 括 那些 不 存在 的 客户 。 我 们 将 看 到 ， 创 建 一 个 分 类 器 有 多 种 
的 方式 。 
20. 4.1 决策 树 分 类 器 

决策 树 分 类 器 是 一 种 广泛 使 用 的 分 类 技术 。 顾 名 思 义 ， 决 策 树 分 类 器 (decision tree classifier ) 使 用 
一 棵 树 : 每 个 叶 结 点 有 一 个 相关 联 的 类 ， 每 个 内 部 结 点 有 一 个 与 其 关联 的 谓词 (或 者 更 一 般 地 说 是 一 个 
函数 ) 。 图 20-3 显示 了 决策 树 的 一 个 例子 。 
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图 20-3 分 类 树 


为 了 对 一 个 新 实例 进行 分 类 ， 我 们 从 根 开始 遍历 这 棵 树 直 至 到 达 叶 结 点 : 在 内 部 结 点 上 使 用 该 实 
例 数据 计算 谓词 (或 函数 )， 从 而 找 出 应 该 走 到 哪个 子 结 点 。 这 个 过 程 一 直 持 续 到 我 们 到 达 叶 结 点 为 
tk. 例如， 如 果 一 个 人 的 学 历 水 平 是 硕士 上 且 其 收入 是 40K， 我 们 从 根 开始 沿 着 标记 为 masters” 的 边 走 ， 
通过 标记 为 “25K ~75K” 的 边 到 达 叶 结 点 。 该 叶 结 点 的 类 是 “good”， 因 此 我 们 预测 这 个 人 的 信用 风险 等 
级 是 良 。 

20.4.1.1 构造 决策 树 分 类 器 

接 下 来 的 问题 是 在 给 定 训练 实例 集 后 如 何 构造 决策 树 分 类 器 。 构 造 决策 树 分 类 器 最 通用 的 方法 是 
使 用 贪心 (greedy) 算 法 ， 它 从 根 开 始 递归 地 向 下 构造 树 。 初 始 时 只 有 一 个 结 点 及 根 结 点 ， 所 有 训练 实 
例 都 与 该 结 点 关联 。 

在 每 个 结 点 上 ， 如 果 所 有 或 者 "几乎 所 有 ”与 该 结 点 关联 的 训练 实例 属于 同一 个 类 ， 则 该 结 点 成 为 
与 该 类 相关 联 的 叶 结 点 ; 否则 ， 必 须 选 择 一 个 划分 属性 ( partitioning attribute) 和 划分 条 件 ( partitioning 
condition) 用 来 产生 子 结 点 。 与 每 个 子 结 点 相关 联 的 数据 是 满足 该 子 结 点 划分 条 件 的 训练 实例 的 集合 。 
在 例子 中 ， 选 择 了 degree 属性， 构造 了 4 个 子 结 点 ， 每 个 子 结 点 代表 一 个 学 历 值 。4 个 子 结 点 的 条 件 分 
别 是 degree = none, degree = bachelors, degree = masters 和 degree = doctorate。 与 每 个 子 结 点 关联 的 数 
据 由 满足 与 该 子 结 点 相关 联 的 条 件 的 训练 实例 构成 。 在 对 应 于 硕士 (master) 的 那个 结 点 上 ， 选 择 了 属 
性 income， 其 值 的 范围 被 分 成 0 ~25K, 25K ~50K, SOK ~75K 和 75K 以 上 这 些 区 间 。 与 每 个 结 点 关联 
的 数据 由 这 样 的 训练 实例 构成 : 它们 在 degree 属性 上 取 值 为 硕士 且 在 income 属性 上 取 值 分 别 属于 这 些 
范围 之 一 。 由 于 在 degree = masters 结 点 下 ,范围 23K ~ 50K 和 范围 50K ~ 75K 对 应 的 类 相同 ， 作 为 优 
化 ， 可 以 将 两 个 范围 合并 成 单个 范围 25K ~75K。 

20.4.1.2 最 优 划分 

直观 地 ， 通 过 选择 一 个 划分 属性 序列 ， 我 们 从 “不 纯 的 "所 有 训练 实例 的 集合 开始 ， 到 得 到 “ 纯 的 ” 
叶 结 点 为 止 。 在 此 ,“ 不 纯 的 " 意 指 它 包含 来 自 许多 类 的 实例 ,“ 纯 的 " 意 指 在 每 个 叶 结 点 上 所 有 训练 实 
例 只 属于 一 个 类 。 稍 后 我 们 将 看 到 如 何 定量 地 度量 纯度 。 为 了 判断 在 一 个 结 点 上 选择 特定 属性 和 条 件 
来 划分 数据 的 优势 ,我 们 测量 利用 该 属性 进行 划分 所 得 到 的 子 结 点 上 数据 的 纯度 ， 选 出 能 得 到 最 大 纯 
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度 的 属性 和 条 件 。 
有 几 种 方法 可 以 定量 地 测定 一 个 训练 实例 集 S 的 纯度 。 假 设 有 上 个 类 ，$ 的 实例 中 属于 类 i 的 实例 
所 占 比例 为 p 。 有 一 种 称 作 吉 尼 度量 ( Cini measure) 的 纯度 的 测定 方法 ， 定 义 为 : 


k 
Gini(S) =1- È p; 
i=l 


当 所 有 实例 属于 单个 类 时 ，Gini 值 为 0， 在 每 个 类 有 相同 实例 数目 的 情况 下 它 达到 其 最 大 值 (1 - 1/k)。 
另 一 种 纯度 测定 方法 是 灶 度 量 (entropy measure) ， 其 定义 为 : 


Entropy(S) = - È, plog,p, 
i=l 


当 所 有 实例 属于 单个 类 时 ，Entropy E50, ERFARA MIS RAT FERRARE. HE 
量 来 源 于 信息 论 。 

如 果 一 个 集合 5 划分 成 多 个 集合 5;,，i = 1, 2, 7, 我们 可 以 按 下 述 方法 测定 该 集合 的 结果 集 
的 纯度 : 


fits 
Purity(S,, 5, =, S)= > TS purityS, 
t=] 


即 ， 纯 度 为 所 有 集合 S ASAE AS ACE. EART LB AE ey Je E EAA E eE 

这 样 ， 根 据 将 $ 划分 成 5S;,，i. 1，2，…,r 的 特定 划分 所 得 到 的 信息 增益 (information gain) 为 : 

897 Information_gain(S$，|1S ，S$ ，… , S,}) = purity(S) — purity(S,, S3, =+ , S,) 

划分 成 少数 几 个 集合 比划 分 成 许多 集合 更 可 取 ， 因 为 前 者 能 产生 更 简单 、 更 有 意义 的 决策 树 。 每 
个 集合 5; 中 的 元 素数 量 也 可 能 要 考虑 ; 否则 ， 虽 然 划 分 对 于 几乎 所 有 的 元 素 都 是 一 样 的 ， 但 集合 5; 能 
否 有 0 个 元 素 或 1 个 元 素 将 在 所 分 集合 的 数量 上 产生 很 大 差异 。 一 个 特定 划分 的 信息 内 容 ( information 
content) FY FAAS IZ SUE SOW : 

~ 181, 15,1 


Information_content (S,{S,,5S,,°** ,S 1) = - bo Ts] toe Ts] 
i=l 


综 上 可 得 出 一 个 定义 : 对 某 个 属性 的 最 优 划分 (best split) 是 能 够 给 出 最 大 信息 增益 率 (information 

gain ratio) 的 划分 ， 定 义 为 : 
Information_gain(S, |S, ,S,,---,S,| ) 
Information_content(S, |S, ,S,,°::,5,| ) 

20.4.1.3 寻找 最 优 划 分 

我 们 如 何 找到 某 个 属性 的 最 优 划分 ”如 何 划 分 一 个 依赖 于 该 属性 类 型 的 属性 。 属 性 既 可 以 是 连续 
取 值 的 ( continuous valued) ， 即 这 些 值 可 以 按照 对 分 类 有 意义 的 方式 排序 ， 比 如 说 年 龄 或 收入 ; 也 可 以 
是 类 别 的 (categorical) ， 即 它们 没有 有 意义 的 顺序 ， 比 如 部 门 名称 或 者 国家 名 称 。 我 们 不 能 指望 对 部 门 
名 或 国名 的 排序 能 对 分 类 产生 任何 意义 。 

通常 数字 (整数 /实数 ) 属性 被 看 作 是 连续 取 值 的 而 字符 串 属性 被 当 作 类 别 的 ， 但 这 也 可 能 由 系统 
用 户 来 控制 。 在 例子 中 ， 我 们 将 属性 degree 当 作 类 别 的 ， 并 将 属性 income 当 作 连续 取 值 的 。 

我 们 首先 考虑 如 何 找到 连续 取 值 属性 的 最 优 划 分 。 为 简单 起 见 ， 我 们 将 只 考虑 连续 取 值 属性 的 二 
次 分 划 (binary split) ， 即 划分 的 结果 是 得 到 两 个 子 结 点 。 多 路 分 划 ( multiway split) 的 情况 更 为 复杂 ， 有 
关 这 个 主题 请 参见 文献 注解 中 的 文献 。 

为 了 找到 连续 取 值 属性 的 最 优 二 次 分 划 ， 我 们 首先 将 训练 实例 中 的 属性 值 排序 ， 然 后 计算 每 个 值 
上 所 作 划 分 的 信息 收益 。 例 如 ， 如 果 训 练 实例 在 某 个 属性 上 的 取 值 为 1、10、15 和 25， 所 考虑 的 切 分 
点 就 是 1、10 和 15。 在 每 种 情况 下 ， 小 于 或 等 于 该 切 分 点 的 值 组 成 一 个 划分 ， 其 余 值 构成 另 一 个 划分 。 
该 属性 上 的 最 优 二 次 分 划 是 能 得 到 最 大 信息 增益 的 划分 。 

对 于 类 别 属性 ， 我 们 可 以 采用 多 路 分 划 ， 每 个 属性 值 对 应 一 个 子 结 点 。 如 果 类 别 属 性 只 有 少数 几 
个 可 区 分 的 值 ， 比 如 学 历 或 性 别 ， 这 种 划分 的 效果 会 很 好 。 但 是 ， 如 果 属 性 有 许多 可 区 分 的 值 ， 比 如 
大 公司 中 的 部 门 名 称 ， 为 每 个 值 创建 一 个 子 结 点 并 不 是 一 个 好 主意 。 在 这 种 情况 下 ， 我 们 将 试图 将 多 

个 值 合并 为 一 个 子 结 点 ， 以 产生 更 少数 量 的 子 结 点 。 关 于 如 何 实现 请 参阅 文献 注解 中 的 文献 。 
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20.4.1.4 决策 树 构造 算法 

构造 决策 树 的 主要 思路 是 计算 不 同属 性 和 不 同 划 分 条 件 ， 选 择 出 能 够 产生 最 大 信息 增益 率 的 属性 
和 划分 条 件 。 同 样 的 过 程 递 归 作 用 在 每 个 划分 结果 集 上 ， 从 而 递归 地 构造 出 一 棵 决策 树 。 如 果 数 据 可 
很 好 地 分 类 ， 则 递归 过 程 在 集合 纯度 为 0 时 结束 。 然 而 ， 数 据 通常 含有 了 噪声， 或 者 某 个 集合 可 能 非常 
小 以 至 于 将 它 进 一 步 划 分 可 能 从 统计 角度 看 来 并 不 恰当 。 在 这 种 情况 下 ， 递 归 过 程 在 集合 纯度 “足够 
高 "时 终止 ， 所 产生 叶 结 点 的 类 定义 为 该 集合 的 大 多 数 元 素 所 属 的 类 。 通 常 ， 树 的 不 同 分 枝 可 能 生长 到 
不 同 的 层 数 。 

图 20-4 给 出 了 一 个 递归 构造 决策 树 过 程 的 伪 码 ， 它 将 训练 实例 集 $ 作为 参数 。 当 集合 有 足够 的 纯 
E, RERA $ 非常 小 以 至 于 对 其 做 进一步 划分 已 经 没有 统计 意义 时 ， 递 归 过 程 终止 。 参 数 6, Ms, 定 
义 了 纯度 和 集合 大 小 的 截止 值 ， 系 统 可 以 给 出 它们 的 默认 值 ， 但 用 户 给 的 值 可 以 覆盖 系统 默认 值 。 





procedure GrowTree( S) 
Partition ( S) ; 


procedure Partition( S) 

if (purity(S) > 6, or |S|<6,) then 

return; 

对 于 每 个 属性 4 

计算 基于 属性 4 的 划分 ; 
使 用 找到 的 最 好 划分 (根据 所 有 属性 得 到 ) 把 5S 划分 成 S ，S ，… ，S,; 
fori = 1; 25 2 35 

Partition(S, ) ; 











图 20-4 决策 树 的 递归 构造 


决策 树 的 构造 算法 多 种 多 样 ， 我 们 只 概述 了 其 中 几 个 的 显著 特征 ， 有 关 细 节 见 文献 注解 。 对 非常 
大 型 的 数据 集 ， 因 为 划分 需要 进行 重复 拷贝 ， 所 以 代价 可 能 会 很 昂贵 。 因 此 开发 了 几 种 算法 用 于 在 训 
练 数据 比 可 用 内 存 更 大 的 情况 下 来 最 小 化 IO 和 计算 代价 。 

一 些 算法 还 对 所 生成 决策 树 的 子 树 进行 修剪 以 减 小 过 度 适 应 ( overfitting) : 如 果 一 棵 子 树 高 度 适 应 
于 特定 的 训练 数据 以 至 于 对 其 他 数据 产生 许多 分 类 错误 ， 则 称 它 是 过 度 适 应 的 。 子 树 的 修剪 通过 把 它 
替换 成 叶 结 点 来 实现 。 有 不 同 的 启发 式 修剪 方法 : 一 种 启发 式 方法 使 用 部 分 训练 数据 来 构造 树 ， 另 一 
部 分 训练 数据 用 于 树 的 测试 。 当 它 发 现 如 果 一 棵 子 树 用 叶 结 点 代替 会 减少 测试 实例 上 的 分 类 错误 时 ， 
则 会 修剪 那 棵 子 树 。 

如 果 需 要 的 话 ， 我 们 可 以 从 一 棵 决策 树 产 生 分 类 规则 。 我 们 对 每 个 叶 结 点 产生 如 下 规则 : 左边 是 
通 往 某 个 叶 结 点 的 路 径 上 所 有 划分 条 件 的 合 取 ， 所 属 的 类 是 在 该 叶 结 点 上 大 多 数 训练 实例 所 属 的 类 
一 个 这 样 的 分 类 规则 的 例子 是 : 

degree = masters and income > 75000 = excellent 

20.4.2 其 他 类 型 的 分 类 器 

除 决 策 树 分 类 器 以 外 还 有 几 种 其 他 类 型 的 分 类 器 。 三 种 非常 有 用 的 分 类 器 分 别 是 神经 网 络 分 类 器 
(neural-net classifier) 、 贝 叶 斯 分 类 器 ( Bayesian classifier ) 和 支持 向 量 机 ( Support Vector Machine ) 分 类 器 。 
神经 网 络 分 类 器 使 用 训练 数据 训练 人 工 神经 网 络 。 关 于 神经 网 络 有 大 量 的 文献 ， 我 们 在 此 不 对 它 做 深 
人 考虑 。 

贝 叶 斯 分 类 器 ( Bayesian classifier) 在 训练 数据 中 寻找 每 个 类 的 属性 值 分 布 ， 当 给 定 一 个 新 实例 d 
时 ， 对 于 每 个 类 c， 使 用 分 布 信息 估计 实例 d 属于 类 < 的 概率 ， 记 为 p(c | d) ， 所 用 的 方式 下 面 将 简 
要 介绍 。 具 有 最 大 概率 的 类 成 为 实例 d 预测 所 属 的 类 。 

为 了 找到 实例 d 属于 类 c 的 概率 p(c |d)， 贝 叶 斯 分 类 器 使 用 如 下 所 示 的 贝 叶 斯 定理 


( Bayes’ theorem) : 
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p(c, |d) ~ PEL ones 

其 中 p(d | e) 是 给 定 类 ,的 前 提 下 产生 实例 d 的 概率 ，p(c ) 是 类 c 出 现 的 概率 ，p(d) 是 实例 d 出 现 
的 概率 。 其 中 ， 由 于 P(d) 对 所 有 类 来 说 都 是 一 样 的 ， 因 此 可 忽略 。p(c ) 可 简化 为 属于 类 c 的 训练 实 
例 所 占 的 比例 。 

例如 ， 让 我 们 考虑 只 有 一 个 属性 income 用 于 分 类 的 特殊 情况 ， 并 假设 我 们 需要 分 类 的 这 个 人 的 年 
收入 是 76 000 美元 。 我 们 假设 可 以 把 收入 值 划分 到 几 个 桶 中 ， 并 假定 包含 76 000 的 桶 所 包含 收入 值 的 
范围 是 (75 000, 80 000) 美元。 假设 在 优 类 的 实例 中 ， 收 入 在 (75 000, 80 000) 美元 的 概率 为 0.1， 而 
在 良 类 实例 中 ， 收 入 在 (75 000, 80 000) 美元 的 概率 为 0.05。 再 假设 共有 0. 1 比例 的 人 分 类 为 优 ， 有 
0.3 比例 的 人 分 类 为 良 。 那 么 ， 对 于 优 类 的 p(d | c)p(c) 的 值 是 0.01， 而 对 于 良 类 ， 它 的 值 是 0. 015 
因此 这 个 人 就 会 划分 到 良 类 中 。 

一 般 情况 下 ， 分 类 需要 考虑 多 个 属性 。 因 而 ， 要 找到 p(d |c) 的 精确 值 是 很 困难 的 ， 因 为 它 需 要 
从 用 于 分 类 的 属性 值 的 所 有 组 合 中 找到 实例 c 的 分 布 。 这 种 组 合 ( 比如 包含 学 位 值 和 其 他 属性 的 收入 
桶 ) 的 个 数 可 能 非常 大 。 利 用 有 限 的 训练 集 来 找 这 种 分 布 ， 对 于 大 多 数组 合 来 说 ， 甚 至 没有 一 个 训练 集 
与 它们 匹配 ， 从 而 导致 不 正确 的 分 类 决策 。 为 了 避免 这 个 问题 ， 并 简化 分 类 任务 ， 朴 素 贝 叶 斯 分 类 器 
(naive Bayesian classifier) 假设 属性 是 独立 分 布 的 ， 从 而 估计 : 

p(d | c) = p(d, |c) * pld, |c) * = *p(d, |c) 

也 就 是 说 ， 给 定 所 属 类 c; ,实例 d 出 现 的 概率 是 d 的 每 个 属性 值 d 出 现 概率 的 乘积 

对 每 个 类 c, WE pld, | c) 根 据 每 个 属性 i 的 值 的 分 布 导 出 。 该 分 布 通过 属于 每 个 类 c 的 训练 实 
例 来 计算 ; 分 布 通常 用 直方 图 来 估计 。 例 如 ， 我 们 可 以 将 属性 i 的 值 域 分 成 相等 的 间隔 ， 并 存储 落 在 
每 个 间隔 内 的 类 c 的 实例 所 占 的 比例 。 给 定 属性 i 的 值 d,, pld, | e ) 的 值 就 简化 为 落 在 d, 所 属 间隔 中 
且 属 于 类 c 的 实例 所 占 的 比例 。 

贝 叶 斯 分 类 器 的 一 个 显著 优势 是 ， 它 可 以 对 具有 未 知 或 空 属 性 值 的 实例 分 类 ， 在 概率 计算 中 正好 
忽略 了 未 知 或 空 属 性 值 。 比 较 而 言 ， 决 策 树 分 类 器 无 法 处 理 这 样 的 情况 : 某 个 实例 在 用 于 更 进一步 向 
下 遍历 决策 树 的 划分 属性 上 取 空 值 。 

支持 向 量 机 ( Support Vector Machine，SVM) 是 一 类 在 大 范围 应 用 中 给 出 非常 精确 的 分 类 的 分 类 器 。 
这 里 介绍 有 关 支 持 向 量 机 分 类 器 的 一 些 基本 的 、 直 观 的 知识 。 更 深入 的 信息 请 参阅 文献 注解 中 的 文献 。 

支持 向 量 机 分 类 器 最 好 以 几何 方式 来 解释 。 在 最 简单 的 情况 下 ， 考 虑 在 一 个 二 维 平面 上 的 点 集 ， 
有 些 点 属于 类 4， 有些 点 属于 类 有， 我 们 给 定 一 些 分 类 类 别 (4 或 者 B) 已 知 的 点 作为 训练 集 ， 我们 需要 
用 这 些 训练 点 构建 一 个 点 分 类 器 。 这 种 情况 如 图 20-5 所 示 ， 其 中 属于 类 4 的 点 用 x 标记 ， 而 属于 类 B 
的 点 用 O 〇 标记 。 

假设 我 们 可 以 在 平面 上 画 一 条 直线 ， 使 得 属于 类 4 的 
所 有 点 都 位 于 一 边 ， 且 属于 类 B 的 所 有 点 都 位 于 另 一 边 。 
那么 ， 这 条 直线 就 可 以 用 于 给 新 的 点 进行 分 类 ， 这 些 新 的 
点 的 分 类 我 们 事先 并 不 知道 。 但 可 能 会 存在 很 多 这 样 的 线 ， 
它们 能 够 把 类 4 中 的 点 和 类 B 中 的 点 区 分 开 来 。 图 20-5 给 
出 了 几 条 这 样 的 线 。 支 持 向 量 机 分 类 器 选择 这 样 的 线 ， 它 
到 每 个 类 (来 自 训 练 数 据 集中 的 点 ) 中 最 近 点 的 距离 都 最 
大 。 然 后 用 这 条 线 ( 称 作 最 高 限界 线 (maximum margin 
line) ) 把 其 他 点 分 到 类 4 或 B 中 去 ,这 取决 于 这 些 点 位 于 
这 条 线 的 哪 一 边 。 在 图 20-5 中 ， 最 高 限界 线 用 粗 体 标 出 ， 
而 其 他 线 用 虚线 画 出 。 oe 

上 述 知 识 可 以 泛 化 到 多 于 二 维 的 场景 ， 人 允许 多 个 属性 图 20-5 支持 向 量 机 分 类 器 示例 
用 于 分 类 ; 在 这 种 情况 下 ， 分 类 器 会 找 一 个 划分 平面 ， 而 不 是 一 条 线 。 然 后 ， 首 先 使 用 一 种 称 作 核 子 
3 (kernel function ) 的 特定 函数 对 输入 点 进行 转换 ， 支 持 向 量 机 分 类 器 就 可 以 找到 对 点 集 进 行 划分 的 非 
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线性 曲线 。 这 在 不 能 用 线 或 平面 来 分 离 点 的 情况 下 是 很 重要 的 。 由 于 噪声 的 存在 ， 一 个 类 中 的 某 些 点 
可 能 位 于 其 他 类 的 点 的 中 间 。 在 这 种 情况 下 ， 可 能 不 存在 任何 线 或 者 有 意义 的 曲线 来 分 离 这 两 个 类 中 
的 点 ; 然后 ， 会 选择 把 这 些 点 最 准确 地 分 到 两 个 类 中 的 线 或 曲线 。 

虽然 支持 向 量 机 的 基本 表示 是 用 于 二 分 类 器 ， 即 ， 只 对 两 个 类 进行 分 类 ， 但 是 它们 也 可 以 用 于 对 
多 个 类 进行 分 类 ， 如 下 所 示 : 如 果 存 在 Y 个 类 ， 我 们 建立 V 个 分 类 器 ,分 类 器 i 执行 二 分 类 ， 它 把 一 
个 点 要 么 分 到 i 类， 要么 分 到 不 属于 i 类 。 给 定 一 个 点 ， 每 个 分 类 器 i 还 输出 一 个 值 ， 表 示 给 定点 和 类 
i 的 关联 程度 。 然 后 我 们 在 给 定点 上 应 用 所 有 NN 个 分 类 器 ， 并 选择 出 关联 度 值 最 高 的 类 。 
20.4.3 回归 

回归 (regression ) 处 理 的 是 值 的 预测 ， 而 不 是 类 的 预测 。 给 定 一 个 变量 集 的 值 X，X,，… X’ R 
们 希望 预测 变量 y 的 值 。 例 如 ， 我 们 可 以 将 教育 程度 当 作 一 个 数值 ， 收 入 当 作 另 一 个 数值 ， 并 在 这 两 
个 变量 的 基础 上 ， 我 们 希望 预测 不 履约 的 可 能 性 ， 它 可 能 是 不 履约 发 生机 会 的 百分比 ， 或 是 涉及 不 履 
约 的 数量 。 

一 种 方法 是 推断 系数 oo ，a ，a, ，… ，a,， 使 得 

y = a+ a, *X, + a, *X, + + a, *X, 

找 出 这 样 的 线性 多 项 式 称 作 线 性 回归 (linear regression) 。 一 般 来 说 ， 我 们 期 望 找 到 一 条 适合 数据 的 曲线 
〈 用 多 项 式 或 其 他 形式 定义 ) ， 所 以 该 过 程 又 称 作 曲线 拟 合 (curve fitting) 。 
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由 于 数据 中 的 噪声 或 由 于 该 关系 不 完全 是 多 项 式 的 ， 这 种 拟 合 可 能 只 是 一 种 近似 ， 因 此 回归 虽 在 


找到 能 给 出 最 大 可 能 拟 合 的 系数 。 在 统计 学 里 有 求解 回归 系数 的 标准 技术 。 我 们 在 此 不 讨论 那些 技术 ， 
但 是 在 文献 注解 中 提供 有 关 参 考 文献 。 
20.4.4 分 类 器 验证 

验证 分 类 器 是 很 重要 的 ， 也 就 是 说 ， 在 决定 把 分 类 器 用 于 某 个 应 用 之 前 ， 先 测试 它 的 分 类 错误 率 。 
考虑 一 个 分 类 问题 的 例子 : 分 类 器 需要 根据 某 些 输入 (这 里 准确 的 输入 是 不 重要 的 ) 来 预测 一 个 人 是 否 
患 有 一 种 特殊 疾病 X。 正 预测 表示 这 个 人 患 有 该 疾病 ， 而 负 预 测 表示 这 个 人 不 患 有 该 疾病 。( 术 语 正 / 
负 预 测 可 用 于 任何 二 分 类 问题 ， 而 不 只 是 疾病 分 类 。 ) 

测试 用 例 集 的 已 知 结果 (在 例子 中 ， 是 已 知 某 人 是 否 真 的 患 有 该 疾病 的 病例 ) 用 来 衡量 分 类 器 的 质 
量 ( 也 就 是 错误 率 ) 。 预 测 为 正 并 且 该 人 的 确 患 有 该 病 的 情况 叫 真 命 中 (true positive) ， 而 预测 为 正 但 该 
人 没有 患 此 病 的 情况 叫 假 命 中 (false positive)。 类 似 地 可 以 定义 预测 为 负 的 情况 下 的 真 会 弃 (true 
negative) AR A (false negative) 。 

给 定 一 个 测试 用 例 集 , i tpos, f_pos, t_neg 和 f_neg 分 别 表示 所 产生 的 真 命中 、 假 命中 、 真 舍弃 
和 假 舍 弃 的 数量 。 设 pos 和 neg 表示 真 值 和 假 值 的 实际 数量 (显然 有 pos =t_pos +f_pos 和 neg =t_neg + f_ 
neg 成 立 ) 。 

分 类 质量 可 以 通过 多 种 不 同方 式 来 度量 : 

1. 正确 性 (accuracy) ， 定 义 为 (t_pos + t_neg)/(pos +neg) ， 也 就 是 分 类 器 给 出 正确 分 类 的 次 数 所 占 
比例 。 

2. 召回 率 (recall) (也 称 为 灵敏 度 ( sensitivity ) ) 定义 为 1_pos/pos， 也 就 是 分 为 正 值 的 情况 有 多 少 实 
际 上 是 真 的 。 

3. 准确 率 ( precision)， 定 义 为 1_pos/(t_pos + 三 pos) ， 即 有 多 少 预 测 为 正 的 情况 是 正确 的 。 

4. 特异 性 ( specificity) , 7 0 t_neg/neg., 

在 特定 应 用 中 应 该 采用 何 种 度量 方式 取决 于 该 应 用 的 需求 。 例 如 ， 高 召回 率 对 于 筛选 试验 很 重要 ， 
筛选 试验 后 接 更 精确 的 测试 ， 以 致 不 会 漏 掉 患 有 疾病 的 患者 。 相 反 ， 一 个 研究 者 希望 找到 几 个 患 有 疾 
病 的 实际 病人 以 作 进一步 的 跟踪 ， 但 不 对 找 出 所 有 病人 感 兴 趣 ， 就 可 能 更 看 重 准确 率 而 不 是 召回 率 
不 同 分 类 器 可 能 适用 于 每 个 这 样 的 应 用 。 习 题 20. 5 将 对 此 类 问题 进行 进一步 探讨 。 

一 个 结果 已 知 的 测试 用 例 集 ， 既 可 用 于 分 类 器 训练 ， 也 可 用 于 分 类 器 质量 的 度量 。 把 同样 的 测试 
用 例 集 既 用 作 训 练 又 用 作 分 类 器 质量 度量 并 不 好 ， 因 为 在 训练 过 程 中 ， 分 类 器 已 经 知道 测试 用 例 的 正 
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确 分 类 ， 这 可 能 会 导致 人 为 度量 出 的 高 质量 。 因 此 一 个 分 类 器 的 质量 度量 必须 建立 在 它 训练 过 程 中 没 
有 遇见 过 的 测试 用 例 上 。 

因此 ， 把 可 用 的 测试 用 例 的 一 个 子 集 用 于 训练 ， 把 不 相交 的 另 一 个 子 集 用 作 验 证 。 在 交叉 验证 
(cross validation) 中 ， 可 用 的 测试 用 例 分 成 个 部 分 编号 为 1 ~k， 据 此 按照 如 下 方式 创建 个 不 同 的 
测试 集 : 在 使 用 其 他 -1 部 分 来 训练 分 类 器 之 后 ， 测 试 集 i 使 用 第 i 部 分 作为 验证 。 在 计算 质量 度量 
之 前 ， 把 来 自 所 有 个 测试 集 的 结果 (1_pos、f-pos 等 ) 加 起 来 。 交 又 验证 比 仅 仅 把 数据 划分 为 单个 训练 
集 和 单个 测试 集 的 方式 提供 了 更 准确 的 度量 。 


20.5 关联 规则 


零售 商店 经 常会 对 人 们 购买 的 不 同 商品 之 间 的 关联 ( association) 感 兴趣 。 有 关 这 种 关联 的 例子 是 : 
。 买 面 包 的 人 很 有 可 能 也 买 牛奶 。 
© 购买 (数据库 系 统 概念 》( Database System Concepts) 这 本 书 的 人 很 有 可 能 也 买 《 操 作 系 统 概念 》 
( Operating System Concepts) 这 本 书 。 
关联 信息 可 以 有 多 种 使 用 方式 。 当 一 个 顾客 购买 了 某 本 书 ， 在 线 书店 可 以 建议 相关 的 书籍 。 杂 货 
店 可 以 决定 将 面包 放 在 靠近 牛奶 的 地 方 ， 便 于 购物 者 更 快 地 完成 其 购物 任务 ， 因 为 它们 通常 是 一 起 购 
买 的 。 或 者 商店 可 以 将 它们 放 在 货架 一 行 的 两 头 ， 并 将 其 他 相关 商品 放 在 中 间 以 吸引 购物 者 在 从 这 一 
行商 品 的 一 端 走 到 另 一 端 时 也 购买 这 些 商 品 。 商 店 对 一 种 商品 打折 ， 可 能 不 会 对 另 一 种 与 之 关联 的 商 
品 打 折 ， 因 为 顾客 不 管 怎样 都 很 可 能 购买 这 种 商品 。 
关联 规则 的 一 个 例子 是 : 
bread 一 milk 
在 杂货 店 交易 的 上 下 文中 ， 该 规则 说 明 购 买 面 包 的 顾客 也 倾向 于 购买 牛奶 的 概率 很 高 。 一 条 关联 
规则 一 定 有 一 个 相关 的 个 体 总 数 (population) : 该 个 体 总 数 由 一 个 实例 (instance) 集 构成 。 在 杂货 店 的 
例子 中 ,个 体 总 数 可 能 包含 所 有 的 杂货 店 购买 行为 ， 每 次 购买 行为 为 一 个 实例 。 在 书店 的 例子 中 ， 个 
体 总 数 可 能 包含 所 有 购 过 书 的 人 ,不 管 他 们 是 何 时 购 的 。 每 个 顾客 就 是 一 个 实例 。 在 书店 的 例子 中 ， 
分 析 人 员 决 定 什么 时 候 购书 是 不 重要 的 ; 然而 对 于 杂货 店 的 例子 来 说 ， 分 析 人 员 可 以 决定 关注 单 次 购 
买 行为 ， 忽 略 同 一 个 顾客 多 次 光顾 的 情况 。 
规则 有 相关 的 支持 度 和 相关 的 置信 度 。 它 们 是 在 个 体 总 数 的 上 下 文中 定义 的 : 
© 支持 度 (support) 度 量 的 是 同时 满足 规则 前 提 和 结论 的 个 体 总 数 所 占 的 比例 。 
例如 ， 假 设 包 括 牛奶 和 螺丝 刀 的 购买 行为 仅 占 所 有 购买 行为 的 0.001 ， 则 规则 
milk = screwdrivers 
的 支持 度 很 低 。 该 规则 甚至 可 能 没有 什么 统计 学 意义 一 一 也 许 仅 有 一 次 购买 行为 既 包 括 牛 奶 又 
包括 螺丝 刀 。 商 业 贸 易 通常 对 具有 低 支 持 度 的 规则 不 感 兴趣 ， 因 为 那些 规则 只 有 少数 顾客 参 
与 ， 不 值得 考虑 。 
男 一 方面 ， 如 果 所 有 购买 行为 的 50% 包含 牛奶 和 面包 ， 则 涉及 面包 和 和 牛奶 (没有 其 他 商 
品 ) 的 规则 的 支持 度 相 对 较 高 ， 这 样 的 规则 可 能 是 值得 注意 的 。 至 于 到 底 多 少 才 是 值得 考虑 的 
最 小 支持 度 取决 于 应 用 。 
© 置信 和 度 (confidence) 度 量 的 是 当前 提 为 真 时 结论 为 真 的 频率 。 例 如 ， 如 果 在 包括 面包 的 购物 行 
为 中 有 80% 又 包括 了 牛奶 ， 则 规则 : 





bread => milk 
的 置信 度 为 80% 。 具 有 较 低 置信 度 的 规则 是 没有 意义 的 。 在 商业 应 用 中 ， 规 则 的 置信 度 通常 比 
100% 小 很 多 ， 而 在 其 他 领域 ， 例 如 在 物理 学 中 ， 规 则 可 能 具有 高 的 置信 和 度 。 
注意 ， 虽 然 bread = milk 与 milk = bread 具有 相同 的 支持 度 ， 但 它们 的 置信 度 可 能 会 有 很 
大 差异 。 
为 了 发 现形 如 : 


lis lhs 3 LƏ 
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的 关联 规则 ， 我 们 首先 找到 具有 足够 支持 度 的 项 集 ， 称 作 大 项 集 (large itemset) 。 在 例子 中 ， 我 们 查找 
包含 在 足够 多 的 实例 中 的 项 集 。 稍 后 我 们 将 看 到 如 何 计 算 大 项 集 。 

对 每 个 大 项 集 ， 我 们 输出 具有 足够 置信 度 的 所 有 规则 ， 这 些 规 则 涉及 且 只 涉及 该 集合 中 的 所 有 元 
素 。 对 于 每 个 大 项 集 $5， 对 于 每 个 子 集 s CS, WES-sa>s 有 足够 的 置信 和 度 ， 我们 输出 规则 $ - 一， 
此 规则 的 置信 和 度 由 s 的 支持 度 除 以 $ 的 支持 度 给 定 。 

我 们 现在 考虑 如 何 产 生 所 有 的 大 项 集 。 如 果 项 集 的 可 能 数量 较 小 ， 单 次 数据 扫描 足以 检测 出 所 有 
项 集 的 支持 度 水 平 。 为 每 个 项 集 维护 一 个 初始 值 为 0 的 计数 。 当 获取 一 条 购买 记录 时 ， 对 于 每 个 项 集 
来 说 ， 如 果 此 项 集中 的 所 有 项 都 包含 在 该 次 购买 中 ， 则 此 项 集 的 计数 值 增加 。 例 如 ， 如 果 一 次 购买 行 
为 包括 项 ec、 File, Mila}. {b}, fet. ja, b}, fb. c}, fa, cl Alfa, b, c} 的 计数 值 增 加 。 在 扫描 
结束 时 ， 那 些 计 数值 足够 大 的 项 集 所 对 应 的 项 的 关联 程度 就 高 。 

项 集 数量 呈 指 数 形式 增长 ， 过 大 的 项 数 会 使 刚才 描述 的 过 程 不 可 行 。 幸 运 的 是 ， 几 乎 所 有 项 集 通 
常 具 有 很 低 的 支持 度 ， 而 且 已 经 开发 了 一 些 优化 方法 来 去 除 大 部 分 这 样 的 不 必 考 虑 的 项 集 。 这 类 技术 
对 数据 库 进行 多 次 扫描 ， 每 次 扫描 只 考虑 某 些 集 合 。 

在 产生 大 项 集 的 apriori 技术 中 ， 第 一 次 扫描 仅 考 虑 含有 单个 项 的 项 集 。 第 二 遍 扫 描 考 虑 有 两 个 项 
的 项 集 ， 依 次 类 推 。 

在 一 遍 扫描 结束 时 ， 所 有 具有 足够 支持 度 的 集合 作为 大 项 集 输出 。 一 遍 扫描 结束 时 ， 所 发 现 的 具 
有 太 小 支持 度 的 集合 被 删除 。 一 旦 某 个 集合 被 删除 ， 就 不 需要 再 考虑 它 的 任何 超 集 。 换 名 话说， 在 第 : 
次 扫描 中 ， 我 们 只 需 统 计 那 些 大 小 为 i 的 项 集 的 支持 度 ， 已 发 现 它 们 的 所 有 子 项 集 具有 足够 高 的 支持 
度 。 要 保证 此 特性 只 须 测试 所 有 大 小 为 i -1 的 子 项 集 即 可 。 对 于 某 个 i， 当 第 i 次 扫描 结束 时 ， 我们 
将 会 发 现 不 存在 具有 足够 支持 度 的 大 小 为 i 的 项 集 ， 从 而 我 们 无 须 考虑 大 小 为 i+1 的 任何 项 集 。 然 后 
计算 终止 。 


20.6 其 他 类 型 的 关联 


使 用 朴素 的 关联 规则 有 几 个 缺点 。 其 中 一 个 主要 缺点 是 许多 关联 是 可 预知 的 ， 所 以 这 样 的 关联 不 
太 有 意义 。 例 如 ， 如 果 许 多 人 购买 谷物 ， 并 有 许多 人 购买 面包 ， 我 们 可 以 预测 会 有 相当 多 的 人 两 者 都 
买 ， 即 使 这 两 种 购买 行为 之 间 没 有 任何 联系 。 实 际 上 ， 即 使 购买 谷物 会 对 购买 面包 产生 一 定 程 度 上 的 
负面 影响 (也 就 是 说 ， 购 买 谷物 的 顾客 可 能 会 比 一 般 顾客 少 购买 面包 ) ， 谷 物 和 面包 这 两 种 购买 行为 之 
间 的 关联 仍然 会 有 较 高 的 支持 度 。 

更 有 趣 的 是 从 预期 的 同时 发 生 的 两 件 事 中 是 否 出 现 偏离 (deviation ) 。 用 统计 术语 来 表述 ， 我 们 寻 
找 的 是 项 之 间 的 相互 关联 ( correlation); 相互 关联 可 以 是 正 的 ， 此 时 同时 发 生 率 可 能 比 期 望 值 要 高 ; 相 
互 关 联 也 可 以 是 负 的 ， 此 时 项 的 同时 发 生 率 比 预期 的 要 小 。 这 样 ， 如 果 购 买 面包 的 行为 与 购买 谷物 的 
行为 不 相关 (not correlated) ， 那 么 就 不 报道 这 样 的 关联 ， 即 使 这 两 者 之 间 有 强 的 关联 关系 。 有 一 些 相互 
关联 的 标准 度量 广泛 应 用 于 统计 学 领域 。 有 关 相 互 关联 的 更 多 信息 可 参阅 有 关 统 计 学 方面 的 标准 教 
科 书 。 

数据 挖掘 应 用 的 另 一 个 重要 类 别 是 序列 关联 (或 序列 相互 关联 )。 时 间 序 列 数 据 ， 比 如 连续 几 天 的 
股票 价格 ， 就 是 一 个 序列 数据 的 例子 。 股 市 分 析 人 员 试 希望 找 出 股市 价格 序列 之 间 的 关联 。 这 种 关联 
的 一 个 例子 就 像 下 面 的 规则 :“ 无 论 何 时 债券 价格 上 升 ， 股 票 价格 会 在 两 天 内 下 跌 。" 发现 这 种 序列 之 
间 的 关联 可 以 帮助 我 们 做 出 聪明 的 投资 决策 。 有 关 这 个 主题 的 研究 请 参阅 文献 注解 中 的 文献 。 

来 自 时 态 模 式 的 偏离 通常 是 有 趣 的 。 例 如 ， 如 果 某 家 公司 每 年 以 稳定 的 速率 增长 ， 从 通常 增长 率 
中 出 现 的 偏差 是 令 人 惊奇 的 。 如 果 冬 装 在 夏季 的 销售 量 下 降 是 不 会 令 人 惊讶 的 ， 因 为 我 们 可 以 通过 历 
年 情况 预测 出 这 种 情况 。 我 们 没有 从 过 去 经 验 中 预期 到 的 偏离 可 能 被 认为 是 有 趣 的 。 挖 掘 技术 可 以 发 
现 与 人 们 基于 过 去 的 时 态 或 序列 模式 所 做 出 的 预测 的 偏离 。 有 关 这 个 主题 的 研究 请 参阅 文献 注解 中 的 
文献 。 


20.7 RŽ 
直观 地 ， 聚 类 是 指 在 给 定数 据 中 找到 点 的 能 的 问题 。 聚 类 ( clustering ) 问题 可 以 从 不 同方 式 的 距离 
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度量 中 形式 化 而 来 。 一 种 方式 是 将 它 表述 为 把 点 分 组 为 个 集合 (对 于 给 定 的 k) 的 问题 ， 使 得 这 些 点 
到 它们 所 属 聚 类 质心 的 平均 距离 最 小 。° 另 一 种 方式 是 对 点 分 组 使 得 每 个 聚 类 中 每 对 点 之 间 的 平均 距 
离 最 小 。 还 有 其 他 一 些 定义 ,详细 信息 见 文献 注解 。 但 所 有 这 些 定义 背后 的 意图 都 是 将 相似 的 点 一 起 
划分 到 一 个 单独 的 集合 中 去 。 

另 一 类 聚 类 出 现在 生物 学 分 类 系统 中 。( 这 样 的 分 类 系统 并 不 试图 对 类 进行 预测 ， 而 是 试图 将 相关 
项 目 聚 类 到 一 起 。) HIM, AMARA WA, sss Mee RABIN HWA. WAFL oy AMET 
动物 都 属于 共同 的 脊椎 动物 类 。 哺 乳 动物 的 聚 类 还 有 子 聚 类 ， 例 如 食肉 类 和 灵 长 类 。 我 们 由 此 得 到 层 
次 聚 类 (hierarchical clustering) 。 给 定 不 同 物种 的 特性 ， 生 物 学 家 创建 了 一 个 复杂 的 层次 聚 类 模式 ， 将 
相关 物种 一 起 聚合 到 不 同 的 层次 等 级 中 。 

层次 聚 类 也 可 用 于 其 他 领域 一 一 例如 ， 对 文档 聚 类 。Internet 目录 系统 (比如 Yahoo! 的 目录 ) 将 相 

907 | 关 文 档 按 层次 方式 聚 类 ( 见 21.9 节 ) 。 层 次 聚 类 算法 可 分 为 凝聚 聚 类 ( agglomerative clustering) 算法 或 分 

裂 聚 类 ( divisive clustering) 算法， 前 者 从 构造 小 的 聚 类 开始 ， 然 后 创建 更 高 等 级 ; 后 者 首先 创建 层次 聚 
类 的 更 高 等 级 ， 之 后 将 每 个 聚 类 结果 细 分 为 更 低 等 级 的 聚 类 。 

统计 学 界 已 经 对 聚 类 进行 了 广泛 研究 。 数 据 库 研究 提供 了 能 够 对 大 型 数据 集 ( 无 法 放 人 主 存 ) 聚 类 
的 可 伸缩 聚 类 算法 。Birch 聚 类 算法 就 是 一 种 这 样 的 算法 。 直 观 地 ， 数 据点 被 插入 到 一 个 多 维 树 结 构 中 
(基于 25. 3.5.3 节 描 述 的 R 树 ) ， 并 根据 与 树 的 内 部 结 点 中 的 代表 点 的 邻近 性 引导 它 进 入 适当 的 叶 结 
点 。 这 样 ， 附 近 的 点 在 叶 结 点 中 聚 类 到 一 起 并 汇总 (如 果 内 存 中 无 法 存放 更 多 的 点 ) 。 这 个 第 一 阶段 聚 
类 的 结果 生成 了 一 个 可 以 放 入 内 存 中 的 、 经 过 部 分 聚 类 的 数据 集 。 接 着 ,标准 聚 类 技术 可 以 在 内 存 中 
的 数据 上 执行 以 得 到 最 终 聚 类 。 关 于 Birch 算法 ， 以 及 包括 层次 聚 类 算法 在 内 的 其 他 聚 类 技术 请 参考 文 
献 注 解 中 的 文献 。 

聚 类 的 一 个 有 趣 应 用 是 预测 一 个 人 可 能 对 何 种 新 电影 (或 书 、 或 音乐 ) 感 兴趣 ， 基 于 以 下 几 点 : 

1. 此 人 以 往 对 电影 的 偏爱 。 

2. 有 以 往 类 似 偏爱 的 其 他 人 。 

3. 这 些 人 对 新 电影 的 偏爱 。 
这 个 问题 的 解决 方法 之 一 如 下 : 为 了 找到 过 去 有 相似 喜好 的 人 ， 我 们 根据 他 们 对 电影 的 偏爱 创建 人 的 
聚 类 。 聚 类 的 正确 性 可 以 通过 下 述 改进 : 基于 他 们 的 相似 性 对 以 往 的 电影 聚 类 ， 这 样 即使 有 些 人 并 没 
有 观看 相同 的 电影 ， 如 果 他 们 曾经 观看 了 相似 的 电影 ， 那 么 他 们 也 将 聚 类 到 一 起 。 我 们 可 以 重复 这 个 
聚 类 过 程 ， 交 替 地 对 人 聚 类 ， 然 后 对 电影 ， 然 后 对 人 ， 以 此 类 推 ,， 直 到 达到 平衡 为 止 。 给 定 一 个 新 的 
AP, 我们 基于 该 用 户 对 已 看 过 的 电影 的 偏爱 ， 找 出 与 该 用 户 最 相似 的 用 户 聚 类 。 然 后 我 们 可 以 预测 ， 
该 新 用 户 可 能 会 对 受 该 用 户 所 在 聚 类 欢迎 的 电影 聚 类 中 的 电影 感 兴趣 。 事 实 上 ， 这 个 问题 是 一 个 协同 
过 滤 (collaborative filtering) 的 实例 ,用户 协 同 完成 过 滤 信息 的 任务 以 找 出 感 兴趣 的 信息 。 


20.8 其 他 类 型 的 数据 挖掘 


SCARS HA text mining) 将 数据 挖掘 技术 应 用 到 文本 文档 中 。 例 如 ， 有 些 工 具 可 以 根据 用 户 曾 经 访问 
过 的 页 面 形成 聚 类 ， 这 样 可 以 帮助 用 户 在 浏览 他 们 的 浏览 历史 时 找到 他 们 曾经 访问 过 的 页 面 。 例 如 ， 
页 面 之 间 的 距离 可 以 基于 这 些 页 中 共有 的 词汇 ( 见 21. 2. 2 节 ) 进 行 计算 。 另 一 种 应 用 是 根据 与 其 他 页 面 

的 相似 性 ( 见 21.9 节 ) 自动 地 将 页 面 分 类 到 Web 目录 中 。 

数据 可 视 化 (data-visualization ) 系统 帮助 用 户 检查 大 量 的 数据 ， 并 以 可 视 化 的 方式 发 现 模式 。 数 据 
的 可 视 化 显示 ( 比如 图 、 表 和 其 他 图 形 化 表示 ) 使 数据 得 以 简洁 地 呈现 给 用 户 。 单 个 图 形 屏幕 能 够 对 相 
当 大 量 的 文本 屏幕 所 表达 的 信息 进行 编码 。 例 如 ， 如 果 用 户 想 要 找 出 工厂 的 生产 问题 是 否 与 工厂 位 置 
相关 ， 有 问题 的 位 置 可 以 在 地 图 上 用 某 种 特殊 颜色 ( 比如 红色 ) 编码 。 这 样 用 户 就 可 以 快速 发 现 出 现 问 








日 一 个 点 集 的 质心 定义 为 一 个 点 ， 它 在 每 个 维 上 的 坐标 是 该 集合 中 所 有 点 在 相应 维 上 坐标 的 平均 值 。 以 二 维 为 例 ， 
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题 的 地 方 ， 然 后 用 户 可 以 对 为 什么 问题 发 生 在 那些 位 置 做 出 假设 ， 并 可 以 在 数据 库 上 定量 验证 该 假设 。 
作为 另 一 个 例子 ， 数 值 信息 可 以 编码 为 颜色 ， 并 且 显 示 成 与 屏幕 区 域 的 一 个 像素 那样 小 。 为 了 探 
测 商品 对 之 间 的 关联 ， 我 们 可 以 使 用 二 维 像素 矩阵 ， 每 行 和 每 列 各 代表 一 种 商品 。 两 种 商品 都 购买 的 
交易 所 占 百分比 可 以 用 像素 的 颜色 强度 来 编码 。 具 有 高 关联 度 的 商品 将 显示 为 屏幕 上 的 亮点 一 一 可 在 
更 暗 的 背景 中 容易 地 发 现 。 
数据 可 视 化 系统 并 不 自动 发 现 模式 ， 但 它们 为 用 户 发 现 模式 提供 了 系统 支持 。 由 于 人 非常 擅长 发 
现 可 视 化 模式 ， 因 此 数据 可 视 化 是 数据 挖掘 的 一 个 重要 组 成 部 分 。 


20.9 BE 


© 决策 支持 系统 分 析 由 事务 处 理 系统 收集 的 在 线 数据 ， 以 帮助 人 们 做 出 商业 决策 。 由 于 现在 大 多 数组 
织 机 构 都 进行 了 广泛 的 计算 机 化 ， 因 此 有 非常 大 量 的 信息 可 用 于 决策 支持 。 决 策 支 持 系统 有 不 同 的 
形式 ,包括 OLAP 系统 和 数据 挖掘 系统 。 

。 数据 仓库 有 助 于 收集 和 归档 重要 的 操作 数据 。 数 据 仓库 用 于 基于 历史 数据 的 决策 支持 和 分 析 ， 例 如 

趋势 预测 。 对 来 自 输入 数据 源 的 数据 进行 清理 通常 是 数据 仓库 中 的 一 项 重要 任务 。 数 据 仓库 的 模式 

一 般 是 多 维 的 ， 包 括 一 个 或 一 些 非 常 大 的 事实 表 以 及 几 个 小 得 多 的 维 表 。 

在 很 多 数据 仓库 应 用 程序 中 ， 面 向 列 的 存储 系统 能 提供 良好 的 性 能 。 

数据 挖掘 是 一 个 能 半自动 地 分 析 大 型 数据 库 以 找 出 有 用 模式 的 过 程 。 数 据 挖掘 的 应 用 有 许多 ， 比 如 

基于 以 往 示 例 的 数值 预测 ， 购 买 行为 关联 的 发 现 ， 以 及 人 和 电影 的 自动 聚 类 。 

© 分 类 处 理 的 是 : 基于 训练 用 例 的 属性 和 训练 用 例 实际 所 属 的 类 ， 通 过 利用 测试 用 例 的 属性 来 预测 测 
试用 例 所 属 类 。 分 类 器 类 型 有 多 种 ， 例 如 : 

O 决策 树 分 类 器 。 这 种 分 类 器 通过 基于 训练 用 例 所 构造 的 一 棵 树 来 执行 分 类 ， 该 树 的 叶 结 点 具 
有 类 别 标签 。 对 每 个 测试 用 例 遍 历 这 棵 树 以 找到 一 个 叶 结 点 ， 该 叶 结 点 所 属 的 类 即 是 预测 的 
类 。 有 几 种 技术 可 用 于 构造 决策 树 ， 其 中 大 部 分 是 基于 贪心 的 启发 式 方法 。 

O 贝 叶 斯 分 类 器 的 构造 比 决策 树 分 类 器 更 简单 ， 并 且 在 属性 值 缺失 或 为 空 的 情况 下 工作 得 
更 好 。 
口 支持 向 量 机 是 另 一 种 广泛 应 用 的 分 类 技术 。 
。 关联 规则 识别 经 常 同时 出 现 的 项 ， 比 如 同一 位 顾客 可 能 购买 的 一 些 商品 。 相 互 关联 找 出 与 期 望 









































关联 等 级 的 偏离 。 
© 其 他 类 型 的 数据 挖掘 包括 聚 类 、 文 本 挖掘 和 数据 可 视 化 。 
术语 回顾 
。 决策 支持 系统 © 数据 挖掘 口 连续 值 属性 
© 统计 分 析 。 预测 口 类 别 属 性 
。 数据 仓库 。 关联 口 二 分 分 划 
口 数据 收集 。 分 类 口 多 路 分 划 
口 源 驱动 架构 口 训练 数据 口 过 度 适 应 
口 目标 驱动 架构 口 测试 数据 。 贝 叶 斯 分 类 器 
口 数据 清理 © 决策 树 分 类 器 O 贝 叶 斯 定理 
- 合并 -清除 口 划分 属性 口 朴素 贝 叶 斯 分 类 器 
- 住宅 操作 口 划分 条 件 。 支持 向 量 机 (SVM ) 
J 抽取 、 转 换 、 加 载 ( ETL) 口 纯度 。 回归 
。 数据 仓库 模式 - 吉 尼 度量 线性 回归 
口 事实 表 - MEE O 曲线 拟 合 
口 维 表 口 信息 增益 。 验证 
星 型 模式 口 信息 内 容 正确 性 
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口 准确 率 口 支持 度 口 层次 聚 类 

口 特异 性 口 置信 和 度 O 凝聚 聚 类 

口 交叉 验证 口 大 项 集 口 分 裂 聚 类 
。 关联 规则 。 其 他 类 型 的 关联 。 文本 挖掘 

口 个 体 总 数 。 RA 。 数据 可 视 化 
实践 习题 


20.1 与 目的 驱动 架构 相 比 ， 描 述 用 于 数据 仓库 的 数据 收集 的 源 驱动 架构 的 优 缺 点 。 

20.2 在 支持 数据 仓库 的 数据 库 系 统 中 ， 为 什么 面向 列 的 存储 有 潜在 的 优势 ? 

20.3 ”假设 有 两 条 分 类 规则 : 一 条 表示 薪水 介 于 10 000 ~20 000 美元 之 间 的 人 具有 好 信用 级 ; 另 一 条 表示 薪 
水 介 于 20 000 ~30 000 美元 之 间 的 人 具有 好 信用 级 。 在 何 种 情况 下 这 两 条 规则 可 以 在 不 丢失 任何 信息 
的 前 提 下 替换 为 单条 规则 : 薪水 介 于 10 000 ~ 30 000 美元 之 间 的 人 具有 好 信用 级 。 

20.4 考虑 图 20-2 描述 的 模式 。 给 出 一 条 SQL 查询 ， 按 照 商店 和 日 期 以 及 商店 和 日 期 上 的 层次 来 汇总 销售 
数量 和 价格 。 

20.5 考虑 这 样 一 个 分 类 器 问题 : 分 类 器 预测 一 个 人 是 否 患 有 一 种 特殊 的 疾病 。 假 设 95% 被 测试 的 人 并 没 
有 患 这 种 病 。( 也 就 是 说 ， 测 试用 例 的 pos 对 应 于 5% ， 并 且 neg 对 应 于 95% .) 考虑 下 面 的 分 类 器 : 

。 分 类 器 C, 总 是 预测 负 值 ( 当然 这 是 一 个 相当 没 用 的 分 类 器 ) 。 

。 分 类 器 C, 从 实际 患 病 的 人 中 预测 出 80% 的 正 值 ， 但 也 从 没 患 病 的 人 中 预测 了 5% 的 正 值 。 

© 分 类 器 C, 从 实际 患 病 的 人 中 预测 出 95% 的 正 值 ， 但 也 从 没 患 病 的 人 中 预测 了 20% 的 正 值 。 

给 定 上 述 分 类 器 ， 回 答 下 面 的 问题 : 

a 对 于 上 述 每 种 分 类 器 ， 计 算 它 们 的 正确 性 、 准 确 率 、 召 回 率 和 特异 性 。 

b 如 果 你 要 用 分 类 结果 去 对 这 种 疾病 进行 进一步 筛选 ， 你 该 选择 其 中 哪个 分 类 器 ? 

c. 另 一 方面 ， 假 设 你 要 利用 分 类 结果 开始 药物 治疗 ， 如 果 药 物 可 能 会 对 不 患 有 该 疾病 的 人 产生 有 害 
影响 ， 你 该 选择 其 中 哪个 分 类 器 ? 

习题 

20.6 画 一 张 图 表示 在 附录 A 中 所 示 的 大 学 例子 中 的 classroom 关系 如 何在 面向 列 的 存储 结构 中 存储 。 

20.7 解释 为 什么 嵌 套 循环 连接 算法 ( 见 12.5.1 节 ) 在 以 面向 列 的 方式 存储 的 数据 库 中 工作 很 差 。 给 出 另 一 
种 能 够 工作 得 更 好 的 替代 算法 ， 并 解释 为 什么 你 的 解决 方案 是 更 好 的 。 

20.8 在 每 个 结 点 上 使 用 二 分 划分 操作 构造 一 个 决策 树 分 类 器 ， 使 用 如 下 所 示 关 系 r(A, B, C) 中 的 元 组 作 
为 训练 数据 ; 属性 C 代表 所 属 的 类 。 表 示 出 最 终 的 树 ， 其 中 每 个 结 点 显示 各 个 属性 的 最 佳 分 划 及 其 
信息 增益 值 。 

Ci Zr ay, (27 Beads 人 
DIe Kr Ta 

20.9 BE- AR ARE TAH IAS IT A 30 EET ERE, TA eH) = 3h MSE T TH, FHRA 
买 牛仔 裤 的 交易 中 有 一 半 也 购买 了 T 恤 衫 。 写 出 你 能 从 上 述 信息 中 推导 出 来 的 所 有 ( 非 平凡 的 ) 关联 
规则 ， 并 给 出 每 条 规则 的 支持 度 和 置信 和 度 。 

20.10 考虑 寻找 大 项 集 的 问题 。 

a 对 通过 使 用 单 趟 数据 扫描 得 到 的 一 个 给 定 项 集 ， 描 述 如 何 找到 其 支持 度 。 假 定 项 集 和 相关 信息 
(如 计数 ) 可 以 放 和 人 内 存 中 。 
b. 假设 一 个 项 集 的 支持 度 小 于 j。 说 明 没 有 该 项 集 的 任何 超 集 的 支持 度 会 大 于 或 等 于 j。 

20.11 创建 一 个 事务 集合 的 小 例子 ， 说 明 虽 然 有 很 多 事务 包含 两 种 商品 ， 也 就 是 说 包含 两 种 商品 的 项 集 有 
很 高 的 支持 度 ， 但 是 购买 其 中 一 种 商品 的 行为 可 能 对 购买 男 外 一 种 的 行为 产生 负 相 关 。 

20.12 ”一 本 书 中 部 分 、 章 、 节 和 小 节 的 组 织 和 聚 类 有 关 。 解 释 其 原因 以 及 是 什么 形式 的 聚 类 。 

20.13 ”以 你 喜欢 的 体育 运动 为 例 ， 建 议 一 个 运动 队 如 何 利用 预测 控 掘 技术。 


工具 
对 于 我 们 在 这 一 章 学 习 的 每 种 应 用 都 有 各 式 各 样 的 工具 可 用 。 大 多 数 数 据 库 厂商 把 OLAP 工具 作为 其 数 
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据 库 系统 的 一 部 分 或 作为 附加 的 应 用 软件 提供 。 其 中 包括 来 自 微软 公司 、SAP、IBM 和 Oracle 的 OLAP T 
具 。Mondrian OLAP 服务 器 是 公共 领域 的 OLAP 服务 器 。 很 多 公司 为 特定 应 用 提供 分 析 工 具 ， 比 如 客户 关系 
管理 。 

主要 的 数据 库 厂 商 还 提供 了 与 其 数据 库 系 统 相 结合 的 数据 仓库 产品 。 这 为 数据 建 模 、 清 理 、 加 载 和 查 
询 提供 了 支持 功能 。Web 站 点 www. dwinfocenter. org 提供 了 关于 数据 仓库 产品 的 信息 。 

还 有 许多 各 种 种 类 的 通用 数据 挖掘 工具 ， 包括 SAS 研究 院 的 数据 控 掘 套件 、IBM Intelligent Miner 和 
Oracle。 也 有 一 些 开源 的 数据 挖掘 工具 ， 比 如 广泛 使 用 的 Weka 和 RapidMiner。 开 源 的 商务 智能 套件 Pentaho 
有 一 些 组 件 ， 包 括 ETL CH, Mondrian OLAP 服务 器 和 基于 Weka MAGEE HT AL. 

把 通用 的 挖掘 工具 用 到 特定 应 用 中 需要 很 多 专业 技术 。 因 此 ， 开 发 了 大 量 的 挖掘 工具 用 于 处 理 专 门 的 
应 用 。 网 站 www. kdnuggets. com 提供 了 关于 挖掘 软件 、 解 决 方案 和 出 版 物 等 的 广泛 目录 。 


文献 注解 


可 以 从 诸如 Bulmer[ 1979 ] 和 Ross[ 1999 ] 那样 的 标准 统计 教科 书 中 找到 统计 函数 的 定义 。 

Poe[ 1995 ] 和 Mattison[ 1996 | 提供 了 讲述 数据 仓库 的 教材 。Zhuge 等 [1995 ] 描 述 了 数据 仓库 环境 下 中 的 
视图 维护 。Chaudhuri 等 [2003 ] 描述 了 用 于 数据 清理 的 模糊 匹配 技术 ， 而 Sarawagi 等 [2002 ] 描 述 了 一 个 采用 
主动 学 习 技 术 进 行 去 重 的 系统 。 

Abadi 等 [2008] 提 出 了 面向 列 和 面向 行 存 储 的 比较 ， 包 括 相 关 的 查询 处 理 和 优化 问题 。 

Witten 和 Frank[ 1999] 、Han 和 Kamber[ 2000 ] 提供 了 讲述 数据 挖掘 的 教科 书 。Mitchell[ 1997] 是 有 关机 
器 学 习 的 经 典 教材 ， 并 详细 讲述 了 分 类 技术 。Fayyad [1995 ] 广泛 收集 了 关于 知识 发 现 和 数据 挖掘 的 文献 。 
Kohavi 和 Provost[ 2001 | 收集 了 关于 数据 挖掘 和 电子 商务 应 用 的 文献 。 

Agrawal 等 [1993b] 提供 了 早期 在 数据 库 上 进行 数据 挖掘 的 概述 。Agrawal 等 [1992 ] 和 Shafer 等 [1996 | 描 
述 了 用 于 计算 具有 大 训练 集 的 分 类 器 的 算法 ; 本 章 介绍 的 决策 树 构造 算法 基于 Shafer 等 [1996] 的 SPRINT 算 
法 。Cortes 和 Vapnik[ 1995 ] 介 绍 了 支持 向 量 机 上 的 几 个 关键 结果 ， 而 Cristianini 和 Shawe-Taylor[ 2000 | 提供 
了 讲述 支持 向 量 机 的 教材 。 

Agrawal 等 [1993a] 引 入 了 关联 挖掘 的 概念 ，Agrawal 和 Srikant[ 1994] 介绍 了 关联 规则 控 掘 的 有 效 算法 。 
Srikant 和 Agrawal[ 1996a] 、Srikant 和 Agrawal[ 1996b ] 描述 了 挖掘 不 同形 式 的 关联 规则 的 算法 。Chakrabarti 等 
[1998] 介 绍 了 挖掘 意外 时 序 模式 的 技术 ; Sarawagi[ 2000 ] 描述 了 数据 立方 体 和 数据 挖掘 集成 的 技术 。 

聚 类 在 统计 学 领域 有 很 长 的 研究 历史 ，Jain 和 Dubes[ 1988 ] 提供 了 讲述 聚 类 的 教材 。Ng 和 Han[ 1994] 描 
述 了 空间 聚 类 技术 。 用 于 大 数据 集 的 聚 类 技术 由 Zhang 等 [1996 ] 给 出 。Breese 等 [ 1998 | 对 协同 过 滤 的 不 同 
算法 进行 了 经 验 分 析 。Konstan 等 [1997 ] 给 出 了 用 于 新 闻 文 章 的 协同 过 滤 技 术 。 

Chakrabarti[ 2002 ] 和 Manning 等 [2008 ] 提供 了 讲述 信息 检索 的 教材 ， 包 括 深 入 讲述 了 有 关 文 本 和 超 文本 
数据 的 数据 挖掘 任务 ， 比 如 分 类 与 聚 类 。Chakrabarti[ 2000] 提供 了 超 文 本 控 掘 技术 的 综述 ， 比 如 超 文本 分 类 
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不 同 于 关系 数据 库 中 严格 结构 化 的 数据 ， 文 本 数据 是 非 结 构 化 的 。 术 语 信息 检索 通常 指 的 就 是 非 
结构 化 文本 数据 的 查询 。 信 息 检 索 系 统 与 数据 库 系 统 有 很 多 类 似 之 处 ， 特 别 是 在 辅助 存储 器 上 的 数据 
存储 和 检索 方面 。 然 而 ， 信 息 系 统领 域 与 数据 库 系 统领 域 的 侧重 点 不 同 ， 它 强调 基于 关键 字 的 查询 、 
文档 与 查询 的 相关 性 ， 以 及 文档 的 分 析 、 分 类 和 索引 等 问题 。 当 前 ，Web 搜索 引擎 已 不 局 限于 文档 检 
索 ， 而 同时 研究 更 为 广泛 的 问题 来 满足 用 户 的 信息 需求 ,譬如 显示 哪些 信息 作为 关键 字 查询 的 结果 


21.1 概述 


信息 检索 (information retrieval ) 领域 与 数据 库 领 域 的 研究 是 并 行 发 展 的 。 在 信息 检索 领域 使 用 的 传 
统 模型 中 ， 信 息 组 织 成 文档 ， 而 且 设 想 文档 数量 很 大 。 存 储 在 文档 中 的 数据 是 非 结 构 化 的 ， 没 有 相关 
的 模式 。 基 于 用 户 输入 来 定位 相关 文档 构成 了 信息 检索 的 过 程 ， 用 户 输入 包括 关键 字 、 示 例文 档 等 。 
Web 提供 了 一 种 与 Intemet 上 信息 资源 进行 接触 和 交互 的 便利 方式 。 然 而 ， 面 对 Web 的 一 个 长 期 
存在 的 问题 是 存储 信息 的 爆炸 ， 用 户 在 定位 感 兴趣 的 信息 时 很 少 能 得 到 指导 性 帮助 。 信 息 检索 在 使 
Web 成 为 一 个 高 效 和 有 用 的 工具 (尤其 是 对 于 研究 人 员 ) 方 面 起 到 了 关键 性 的 作用 。 
信息 检索 系统 的 传统 例子 是 在 线 图 书馆 目录 和 在 线 文档 管理 系统 ， 比 如 那些 存储 报纸 文章 的 系统 . 
这 些 系统 中 的 数据 组 织 成 文档 的 集合 。 报 纸 文章 或 (图 书馆 目录 中 的 ) 目录 条 目 就 是 文档 的 例子 。 在 
Web 环境 中 ,每 个 HTML 页 面 通常 被 认为 是 一 份 文档 。 
使 用 这 类 系统 的 用 户 可 能 想 要 检索 一 份 特定 的 文档 或 一 类 特定 的 文档 。 用 户 预 期 的 文档 通常 用 关 
键 字 (keyword ) 集 合 来 描述 ， 例 如 ， 关 键 字 “ 数 据 库 系统 ”可 能 用 来 定位 数据 库 系统 方面 的 图 书 ， 而 关键 
字 “ 股 票 ”" 和 “丑闻 ”可 能 用 来 定位 股市 丑闻 方面 的 文章 。 文 档 本 身 已 经 与 一 组 关键 字 相 关联 ， 如 果 文 档 
的 关键 字 包 含 用 户 提供 的 关键 字 ， 就 被 检索 出 来 。 
基于 关键 字 的 信息 检索 不 仅 可 用 于 检索 文本 数据 ， 还 可 用 于 检索 其 他 类 型 的 数据 ， 比 如 视频 或 音 
频数 据 ， 这 些 数据 与 一 些 描述 性 关键 字 相 关联 。 例 如 ， 与 一 部 视频 电影 关联 的 关键 字 可 以 是 它 的 片 名 、 
导演 、 演 员 、 类 型 等 ; 而 一 张 图 片 或 一 段 视频 剪辑 可 能 会 带 有 标签 ， 标 签 就 是 描述 这 张 图 片 或 这 段 视 
频 剪辑 的 关键 字 。 
这 种 模型 与 传统 数据 库 系 统 使 用 的 模型 有 几 点 不 同 : 
。 数据 库 系 统 处 理 信 息 检 索 系 统 中 未 涉及 的 一 些 操作 。 例 如 ， 数 据 库 系统 涉及 更 新 ， 以 及 有 关 并 
发 控制 和 持久 性 所 需 的 事务 处 理 需 求 ， 这 些 事情 在 信息 系统 中 并 不 重要 。 类 似 地 ， 数 据 库 系 统 
处 理 按 相对 复杂 的 数据 模型 组 织 的 结构 化 信息 ( 比如 关系 模型 或 面向 对 象 数据 模型 ); 而 信息 检 
索 系统 传统 上 使 用 了 一 个 简单 得 多 的 模型 ， 它 的 数据 库 中 的 信息 是 简单 地 按照 非 结构 化 文档 集 
SAA. 
信息 检索 系统 处 理 数 据 库 系统 中 未 得 到 足够 重视 的 一 些 操作 。 例 如 ， 信 息 检索 领域 处 理 了 查询 
非 结 构 化 文档 集 的 问题 ， 关 注 诸如 关键 字 查询 ， 根 据 文 档 与 查询 相关 度 的 估计 对 文档 排名 的 
问题 。 
除了 仅 包 含 一 组 词语 的 简单 关键 字 查 询 外 ,信息 检索 系统 一 般 允 许 使 用 由 关键 字 和 俱 辑 连接 词 
(and、or、not) 组 成 的 查询 表达 式 。 例 如 ， 用 户 可 以 要 求 找 出 包含 关键 字 “ 摩托 车 and 维护 ”的 所 有 文 
档 , 或 者 找 出 包含 关键 字 “ 计 算 机 or 微 处 理 器 "的 文档 ， 甚 至 包含 关键 字 “ 计 算 机 but not 数据 库 ” 的 文 
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档 。 没 有 上 述 任何 连接 词 且 包含 关键 字 的 查询 假定 以 and 作为 隐 式 的 关键 字 连 接 。 

在 全 文 (full text) 检 索 中 ， 每 份 文档 中 的 所 有 词 都 当 作 关 键 字 。 对 于 非 结 构 化 文档 ， 因 为 可 能 无 法 
得 到 有 关 信 息 来 判断 文档 中 哪些 词 为 关键 字 ， 所 以 全 文 检索 是 必要 的 。 由 于 文档 中 的 所 有 的 词 都 是 关 
键 字 ， 因 此 我 们 将 用 术语 (term) 来 表示 文档 中 的 词 。 

对 于 没有 连接 词 的 查询 ， 信 息 检索 系统 用 其 最 简单 的 形式 定位 并 返回 所 有 包含 该 查询 中 全 部 关键 
字 的 文档 ; 对 于 连接 词 会 按照 你 期 望 的 方式 处 理 。 更 复杂 的 系统 会 估计 文档 对 某 个 查询 的 相关 性 ， 这 
样 文档 可 以 按照 估计 的 相关 度 顺 序 显 示 。 它 们 利用 有 关 术 语 出 现 频 度 的 信息 和 超 链 接 信息 估计 相关 性 。 

以 Web 搜索 引擎 为 代表 的 信息 检索 系统 目前 已 超越 了 仅仅 基于 排名 来 检索 文档 。 当 前 ， 搜 索引 擎 
旨 在 通过 判断 一 个 查询 所 涉及 的 主题 并 同时 呈现 被 判定 为 相关 的 Web 页 面 和 有 关 该 主题 的 其 他 信息 ， 
来 满足 用 户 的 信息 需求 。 例 如 ， 给 定 “ 板 球 "这 一 查询 术语 ， 搜 索引 擎 会 显示 当前 正在 进行 的 或 最 近 举 
行 的 板 球 比赛 比分 ， 而 不 仅仅 是 显示 与 板 球 相关 的 排名 高 的 文档 。 又 如 ,为 了 回答 “纽约 "这 一 查询 ， 
除了 与 纽约 相关 的 Web 网 页 之 外 ， 搜 索引 擎 还 会 显示 纽约 的 地 图 和 图 片 。 


21.2 使 用 术语 的 相关 性 排名 


满足 某 个 查询 表达 式 的 所 有 文档 的 集合 可 能 是 非常 巨大 的 ， 特 别 是 ，Web 上 有 数 十 亿 的 文档 ， 
Web 搜索 引擎 上 的 大 多 数 关 键 字 查询 都 会 找到 数 十 万 包含 查询 关键 字 的 文档 。 全 文 检索 使 这 个 问题 变 
ITER: 每 份 文档 可 能 包含 许多 术语 ， 那 些 仅仅 附带 地 提 及 的 术语 和 与 文档 真正 相关 的 术语 会 等 同 对 
待 。 结 果 会 检索 到 一 些 不 相关 的 文档 。 

因此 ， 信 息 检 索 系 统 估计 文档 与 查询 的 相关 性 ， 并 且 只 返回 高 度 相 关 的 文档 作为 结果 。 相 关 性 排 
名 不 是 一 门 精密 科学 ， 但 已 存在 一 些 普遍 认可 的 方法 。 
21.2.1 使 用 TF-IDF 的 排名 方法 

第 一 个 要 解决 的 问题 是 ， 给 定 一 个 特定 的 术语 +:， 某 份 特定 文档 a 与 该 术语 的 相关 性 如 何 。 一 种 处 
理 方法 是 用 该 文档 中 该 术语 的 出 现 次 数 作为 对 相关 性 的 度量 ， 这 是 基于 一 个 假设 : 相关 的 术语 很 有 可 
能 在 文档 中 提 及 多 次 。 只 统计 一 个 术语 的 出 现 次 数 通常 不 是 一 个 好 的 相关 性 指示 器 : 首先 ， 出 现 次 数 
取决 于 文档 的 长 度 ; 其 次 ， 某 个 术语 出 现 10 次 的 文档 的 相关 性 可 能 并 不 是 术语 只 出 现 1 次 的 文档 的 相 


关 性 的 10 倍 。 
有 一 种 用 于 度量 TF(d，b5) (文档 d 对 术语 上 的 相关 性 ) 的 方法 是 : 
TF(d, 1) =log (1 a) 


这 里 的 n(d) 表 示 文 档 中 的 术语 个 数 ，n(d，1) 表 示 文 档 d 中 术语 上 的 出 现 次 数 。 注 意 ， 这 个 公式 考虑 了 
文档 长 度 。 文 档 中 该 术语 的 出 现 次 数 越 多 相关 性 越 大 ， 尽 管 它 不 是 直接 正比 于 出 现 次 数 。 

许多 系统 利用 其 他 信息 改进 上 面 的 公式 。 例 如 ， 如 果 该 术语 出 现在 标题 、 作 者 列表 或 摘要 里 ， 则 
认为 该 文档 与 该 术语 具有 更 高 的 相关 性 。 类 似 地 ， 如 果 一 个 术语 在 文档 中 首次 出 现 的 位 置 靠 后 ， 则 认 
为 该 文档 可 能 比 首次 出 现 的 位 置 靠 前 的 文档 的 相关 性 要 小 。 上 面 的 想法 可 以 形式 化 为 所 示 公 式 TF(d， 
1) 的 扩展 。 在 信息 检索 领域 ,不 管 实际 使 用 的 是 哪 一 个 公式 ,一 份 文档 对 一 个 术语 的 相关 性 称 作 术 语 
频率 (Term Frequency，TF ) 。 

一 个 查询 0 可 能 包含 多 个 关键 字 。 一 份 文 档 对 含有 两 个 或 更 多 关键 字 的 查询 的 相关 性 估计 是 通过 
将 该 文档 对 每 个 关键 字 的 相关 性 度量 结合 在 一 起 得 到 的 。 一 个 将 度量 值 结 合 的 简单 方法 是 把 它们 加 起 
来 。 然 而 ， 我 们 不 能 同样 对 待 所 有 用 作 关 键 字 的 术语 。 假 设 一 个 查询 使 用 两 个 术语 ， 一 个 出 现 的 频率 
高 ， 例 如 “database”， 另 一 个 出 现 的 频率 低 ， 例 如 “Silberschatz”。 包 含 “Silberschatz” 但 不 包含 
“database” 的 文档 应 比 包含 “database” 但 不 包含 “Silberschatz” 的 文档 的 相关 性 高 。 

为 了 解决 上 面 的 问题 ， 使 用 逆 文 档 频 率 ( Inverse Document Frequency，IDF) 对 术语 赋 权 值 。 道 文档 
频率 定义 为 : 


IDF(t) = q 
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这 里 的 n(t) 表 示 包 含 该 术语 1 的 文档 ( 系统 所 索引 的 文档 ) 的 数量 。 于 是 一 份 文档 d 对 一 个 术语 集 
Q 的 相关 性 (relavance ) 定义 为 : 
r(d, Q) = È TF(d,t) x IDF (t) 
teQ 


如 果 允 许 用 户 指 定 查 询 中 术语 的 权重 w(t) ， 则 该 度量 可 以 进一步 改进 ， 此 时 ,通过 在 上 述 公 式 中 把 
TF(1) 乘 以 w(t)， 即 可 将 用 户 定 义 的 权重 也 考虑 进去 。 

上 述 利用 术语 频率 以 及 道 文档 频率 作为 度量 一 份 文档 的 相关 性 的 方法 称 为 TF-IDF 方法 。 

几乎 所 有 的 文本 文档 (英语 ) 都 包含 诸如 "and”“or”“a" 之 类 的 词 ， 由 于 它们 的 逆 文 档 频率 非常 
低 ， 因 此 这 些 单词 对 查询 目的 来 说 是 无 用 的 。 信 息 检 索 系 统 定义 了 一 个 词 集合 ， 称 作 停 用 词 stop 
word) ， 它 包括 大 约 100 个 最 常用 的 词 ， 创 建 索 引 时 从 文档 中 去 除 该 集合 中 的 词 。 这 类 词 不 作为 关键 字 


使 用 ， 如 果 在 用 户 提 供 的 关键 字 中 出 现 就 要 被 去 除 。 
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当 一 个 查询 包含 多 个 术语 时 ， 男 一 个 需要 考虑 的 因素 是 这 些 术 语 在 文档 中 的 接近 度 ( proximity ) 。 
如 果 文 档 中 术语 彼此 接近 ， 则 该 文档 的 相关 性 应 该 比 其 中 术语 彼此 下 远 的 文档 要 高 。 可 以 修改 r(d，0Q) 
的 公式 将 接近 度 也 考虑 进去 。 

给 定 一 个 查询 0， 信息 检 索 系 统 的 工作 是 按照 文档 与 0 的 相关 性 的 降序 返回 文档 。 由 于 相关 的 文 
档 可 能 很 多 ， 因 此 信息 检索 系统 一 般 只 返回 具有 最 高 估计 相关 性 度量 的 前 几 份 文档 ， 同 时 允许 用 户 与 
系统 交互 请 求 更 多 的 文档 。 

21.2.2 基于 相似 性 的 检索 

一 些 信息 检索 系统 允许 基于 相似 性 的 检索 (similarity-based retrieval ) 。 这 里 ， 用 户 可 以 向 系统 给 出 
文档 4， 然后 请 求 系统 检索 与 4 相似 ”的 文档 。 举 例 来 说 ， 一 份 文档 与 另 一 份 文档 的 相似 性 的 定义 可 
以 基于 它们 之 间 共 有 的 术语 。 一 种 方法 是 找 出 4 中 具有 最 高 TF(4,t) * IDF(1) 值 的 大 个 术语 ， 然 后 使 
用 这 上 个 术语 作为 一 个 查询 去 找 出 与 其 他 文档 的 相关 性 。 查 询 中 的 这 些 术 语 自 身 以 TF(4,t) * IDF(t) 
为 权 。 

更 一 般 地 ， 文 档 之 间 的 相关 性 是 用 余弦 相似 性 ( cosine similarity ) 度量 来 定义 的 。 设 出 现在 这 两 份 文 
档 中 任意 一 份 文档 中 的 术语 用 t, ，t, ，…，t, 来 表示 。 Sr(d,t) = TF(d,t) *IDF(t) 。 这 样 ,文档 d 和 
e 之 间 的 余弦 相似 性 度量 可 以 定义 为 : 

Cd El £) 
Ed a, hy 
很 容易 可 以 证 明 : 一 份 文档 对 其 自身 的 余弦 相似 性 度量 等 于 1， 而 两 个 彼此 之 间 不 含 共 有 术语 的 文档 
之 间 的 余弦 相似 性 度量 等 于 0。 

“余弦 相似 性 这 个 名 称 来 自 于 这 样 一 个 事实 : 上 述 公 式 计算 两 个 向 量 夹 角 的 余弦 ， 而 每 个 向 量 就 
代表 一 份 文档 。 向 量 定义 如 下 : 设 在 被 考虑 的 所 有 文档 中 共有 nn 个 词 。 定 义 一 个 n 维 空间 ， 每 个 词 作 
为 其 中 的 一 个 维 。 一 份 文档 d 用 这 个 空间 中 的 一 个 点 来 表示 ， 这 个 点 的 第 i 个 坐标 的 值 为 r-(d，1;)。 X 
档 d 所 对 应 的 向 量 是 从 原点 (所 有 坐标 值 都 为 0 的 点 ) 连 接 到 代表 该 文档 的 点 。 这 样 一 个 将 文档 视 作 n 
维 空间 中 的 点 和 向 量 的 模型 称 作 向 量 空间 模型 ( vector space model) ) 。 

如 果 与 文档 4 相似 的 文档 集合 很 大 ， 系 统 可 以 向 用 户 展示 其 中 一 部 分 相似 的 文档 ， 人 允许 用 户 选 择 
最 相关 的 几 个 ， 然 后 基于 与 4 的 相似 性 和 与 所 选 文档 的 相似 性 开始 一 个 新 的 搜索 。 由 此 得 到 的 文档 集 
合 很 可 能 就 是 用 户 想 要 查找 的 文档 。 这 个 想法 称 为 相关 反馈 (relevance feedback ) 。 

相关 反馈 还 可 以 用 来 帮助 用 户 在 一 个 匹配 给 定 查询 关键 字 的 大 文档 集合 中 ， 找 到 相关 的 文档 。 在 
这 种 情况 下 ， 可 能 会 允许 用 户 从 返回 的 文档 中 标识 出 一 份 或 几 份 文档 是 相关 的 ; 然后 ， 系 统 就 可 以 利 
用 这 些 标识 出 的 文档 找 出 其 他 相似 的 文档 。 由 此 得 到 的 文档 集合 就 很 可 能 是 用 户 想 要 查找 的 文档 。 另 
外 一 种 可 以 替代 相关 反馈 的 方法 要 求 用 户 通过 增加 关键 字 来 修改 查询 ;相关 反馈 除了 能 够 给 出 一 个 更 
好 的 文档 最 终 集 合作 为 答案 之 外 ， 也 更 加 易于 使 用 。 

当 文档 的 数量 非常 大 时 ， 为 了 呈现 给 用 户 一 个 有 代表 性 的 文档 集合 ， 搜 索 系 统 可 以 基于 文档 的 余 
弦 相 似 性 对 它们 进行 聚 类 。 然 后 ,来 自 每 个 聚 类 的 一 些 文档 将 会 显示 ， 从 而 在 应 答 集 合 中 表示 了 多 个 
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类 别 。 聚 类 已 经 在 20.7 节 阐 述 过 ， 人 们 已 经 开发 了 多 种 技术 用 来 对 文档 集合 进行 聚 类 。 有 关 聚 类 的 更 
多 信息 请 参考 文献 注解 。 

作为 网 页 相似 的 一 种 特殊 情况 ， 一 个 文档 在 Web 上 常常 会 有 多 个 副本 。 例 如 ， 如 果 某 个 Web 站 点 
镜像 了 男 一 个 Web 站 点 的 内 容 ， 这 种 情况 就 会 发 生 。 在 这 种 情形 下 ， 返 回 一 个 排名 很 高 的 文档 的 多 个 
副本 作为 多 个 独立 的 答案 是 没有 道理 的 ; 重复 的 文档 应 当 去 除 ， 应 当 仅仅 返回 一 个 副本 作为 答案 。 


21.3 ”使 用 超 链 接 的 相关 性 


早期 的 Web 搜索 引擎 仅 使 用 像 21. 2 节 描 述 的 那些 基于 TF-IDF 的 相关 性 度量 来 对 文档 排名 。 然 而 ， 
当 在 非常 庞大 的 文档 集合 ( 比如 所 有 Web 页 面 的 集合 ) 上 使 用 这 些 技术 时 ， 这 些 技术 就 会 有 一 些 局 限 
性 。 特 别 是 许多 Web 页 面 都 含有 一 个 典型 的 搜索 引擎 查询 所 指定 的 所 有 关键 字 ， 而 用 户 真 正 需要 的 一 
些 页 面 常常 只 出 现 几 次 这 些 查询 术语 ， 因 此 不 会 得 到 一 个 很 高 的 TF-IDF 得 分 。 

但 是 ， 研 究 人 员 很 快意 识 到 Web 页 面具 有 纯 文本 文档 所 没有 的 非常 重要 的 信息 ， 即 超 链接 。 可 以 
使 用 这 些 链接 来 获得 更 好 的 相关 性 排名 。 特 别 是 一 个 页 面 的 相关 性 排名 会 受到 那些 指向 该 页 面 的 超 链 
接 的 巨大 影响 。 本 节 研 究 如 何 利 用 超 链 接 来 对 Web 页 面 进行 排名 。 

21.3.1 流行 度 排名 

流行 度 排名 (popularity ranking， 也 称 为 威望 度 排名 ( prestige ranking) ) 的 基本 思想 是 找到 流行 的 页 
面 ， 并 且 把 它们 的 位 置 排 在 同样 包含 指定 关键 字 的 其 他 页 面 之 前 。 由 于 大 多 数 搜索 是 为 了 从 一 些 较 流 
行 的 页 面 中 找到 信息 ， 因 此 把 那些 流行 的 页 面 排 在 靠 前 的 位 置 一 般 来 说 是 一 个 好 主意 。 例 如 ， 术 语 
“google” 可 能 在 大 量 的 页 面 中 出 现 , 但 在 所 有 那些 含有 术语 “google” 的 页 面 中 ， 页 面 google. com 是 最 流 
行 的 一 个 。 因 此 对 于 一 个 含有 术语 “ google” 的 查询 来 说 ， 页 面 google. com 应 该 排名 为 与 之 最 相关 的 
答案 。 

对 某 个 页 面 的 相关 性 度量 的 传统 方法 ， 比 如 我 们 在 21. 2 节 所 看 到 的 基于 TF-IDF 的 度量 方法 ， 可 
以 与 该 页 面 的 流行 度 相 结合 ， 从 而 得 出 对 于 相应 查询 的 页 面 的 相关 性 的 总 体 度量 。 具 有 最 高 总 体 相 关 
性 度量 值 的 页 面 会 作为 查询 的 最 优 答案 而 返回 。 

这 引出 了 如 何 定义 以 及 如 何 发 现 页 面 流行 程度 的 问题 。 一 种 方法 是 找 出 一 个 页 面 被 访问 的 次 数 ， 
使 用 这 个 数 来 度量 站 点 的 流行 程度 。 然 而 ， 没 有 该 站 点 的 配合 是 不 可 能 获得 这 类 信息 的 ， 而 且 即 便 一 
些 站 点 愿意 公开 这 类 信息 ， 向 所 有 站 点 获取 该 信息 是 困难 的 。 站 点 甚至 会 提供 虚假 的 关于 访问 频率 的 
信息 ， 以 使 得 自己 的 排名 提高 。 

一 个 非常 有 效 的 替代 方法 是 使 用 指向 一 个 页 面 的 超 链 接 来 度量 其 流行 度 。 许 多 人 都 有 书签 文件 ， 
里 面包 含 指向 他 们 经 常 使 用 的 站 点 的 链接 。 出 现在 大 量 书签 文件 中 的 站 点 可 以 被 推断 为 是 非常 流行 的 
站 点 。 书 签 文件 通常 都 是 私下 进行 存储 的 ， 是 不 能 在 Web 上 得 到 的 。 然 而 ， 确 实 有 许多 用 户 ， 他 们 维 
护 着 含有 指向 他 们 最 喜欢 的 Web 页 面 的 链接 的 Web 页 面 。 许 多 Web 站 点 也 含有 指向 其 他 相关 站 点 的 
链接 ， 而 这 些 链 接 也 可 以 用 来 推断 那些 链接 所 指向 站 点 的 流行 度 。Web 搜索 引擎 可 以 取得 Web 页 面 
(通过 一 种 称 为 抓 取 的 过 程 ， 我 们 会 在 21.7 节 描 述 ) ， 分 析 它 们 以 便 找 出 这 些 页 面 间 的 链接 。 

估计 一 个 页 面 的 流行 度 的 第 一 个 方法 是 使 用 链接 到 该 页 面 的 页 面 数目 作为 其 流行 度 的 度量 。 然 而 ， 
这 种 方法 自身 有 其 缺点 : 许多 站 点 包含 很 多 有 用 的 页 面 ， 但 是 外 部 的 链接 通常 仅仅 指 到 该 站 点 的 根 页 
面 。 根 页 面 则 包含 到 该 站 点 的 其 他 页 面 的 链接 。 这 样 ， 这 些 其 他 的 页 面 会 被 误 认 为 不 是 非常 流行 ， 于 
是 在 回答 查询 的 时 候 会 得 到 一 个 较 低 的 排名 。 

一 种 替代 方法 是 将 流行 度 与 站 点 相关 联 ， 而 不 是 和 页 面相 关联 。 一 个 站 点 的 所 有 页 面 获 得 该 站 点 
的 流行 度 。 一 个 流行 的 站 点 上 的 除根 页 面 之 外 的 页 面 也 会 从 该 站 点 的 流行 度 中 受益 。 然 而 ， 这 又 会 引 
出 一 个 问题 : 是 什么 构成 了 一 个 站 点 呢 ? 通常 来 说 ， 一 个 页 面 的 URL 的 Internet 地 址 前 缓 就 构成 了 对 
应 于 该 页 面 的 站 点 。 然 而 ， 有 许多 站 点 都 含有 大 量 的 几乎 不 相关 的 页 面 ， 比 如 说 大 学 的 主页 服务 器 和 
门户 网 站 ， 比 如 groups. yahoo. com 或 groups. google. com。 对 于 这 些 网 站 来 说 ， 其 网 站 中 一 部 分 内 容 的 流 
行 度 并 不 能 暗示 该 网 站 另 一 部 分 内 容 的 流行 度 。 

还 有 一 种 更 简单 的 替代 方法 ， 它 允许 从 流行 页 面 到 它们 链接 到 的 页 面 间 进 行 威望 度 的 传递 
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(transfer of prestige) 。 在 这 种 模式 下 ， 与 民主 主义 一 人 一 票 的 原则 不 同 ， 从 一 个 流行 页 面 x 指向 页 面 
y 的 一 个 链接 与 从 一 个 不 是 那么 流行 的 页 面 z 指向 页 面 y 的 链接 相 比 ， 前 者 会 把 更 多 的 威望 度 赠 予 页 
fy. ~ 

这 个 流行 度 的 概念 事实 上 形成 了 一 个 循环 定义 ， 由 于 一 个 页 面 的 流行 度 是 由 其 他 页 面 的 流行 度 来 

921] 定义 的 ， 在 页 面 之 间 可 能 会 出 现 链接 的 循环 。 然 而 ， 页 面 的 流行 度 可 以 通过 线性 联 立方 程 组 来 定义 ， 
它 可 以 使 用 矩阵 操作 技术 来 求解 。 定 义 线 性 方程 组 的 方式 可 以 使 其 有 一 个 唯一 并 且 良 好 定义 的 解 。 

有 趣 的 是 ， 我 们 注意 到 强调 流行 度 排名 的 基本 想法 实际 上 是 相当 老 的 ， 它 在 20 世纪 50 年 代 就 在 
社会 学 家 发 展 起 来 的 社会 网 络 理论 中 首次 出 现 。 在 社会 网 络 环境 中 ， 目 标 是 定义 人 们 的 威望 度 。 举 个 
例子 : 由 于 许多 人 都 认识 美国 总 统 ， 因 此 他 的 威望 度 会 很 高 。 如 果 多 个 有 威望 的 人 都 认识 某 人 ， 那 么 
这 个 人 的 威望 度 也 会 很 高 ， 即 使 没有 很 多 人 认识 她 。 使 用 线性 联 立 方程 组 来 定义 流行 度 度 量 也 可 以 追 
漳 到 这 个 工作 。 

21.3.2 PageRank 


Web 搜索 引擎 Google 引入 了 PageRank ， 这 是 一 个 页 面 流行 度 的 度量 ， 它 是 基于 指向 该 页 面 的 页 面 
的 流行 度 的 页 面 流行 度 度量 。 利 用 PageRank 流行 度 度量 来 对 一 个 查询 的 应 答 进行 排名 可 以 使 得 到 的 结 
果 大 幅 优 于 以 前 使 用 过 的 排名 技术 所 得 到 的 结果 ， 以 至 于 Google 能 在 非常 短 的 时 间 内 成 为 使 用 最 广泛 
的 搜索 引擎 。 

PageRank 可 以 使 用 随机 游 走 模型 ( random walk model ) 来 直观 地 理解 。 假 设 一 个 正在 上 网 的 人 在 
Web 页 面 上 进行 如 下 所 述 的 随机 游 走 (周游 ) : 首先 从 一 个 随机 的 Web 页 面 开 始 第 一 步 ， 而 每 一 步 随机 
游 走 者 采取 下 述 策略 之 一 。 游 走 者 以 5 的 概率 跳 到 一 个 随机 选择 的 Web 页 面 ， 还 有 就 是 游 走 者 以 
1 -6 的 概率 从 当前 Web 页 面 中 随机 选择 一 个 链 向 外 部 的 链接 并 打开 该 链接 。 这 样 ， 一 个 页 面 的 
PageRank 就 是 随机 游 走 者 在 任意 一 个 给 定 的 时 间 点 访问 页 面 的 概率 。 

注意 到 许多 Web 页 面 指 向 的 那些 页 面 更 有 可 能 被 访问 到 ， 因 此 这 些 页 面 就 会 有 一 个 更 高 的 
PageRank。 类 似 地 ， 具 有 高 PageRank 的 Web 页 面 所 指向 的 页 面 ， 被 访问 到 的 概率 也 较 高 ， 这 样 ， 它 们 
就 会 有 一 个 更 高 的 PageRank. 

PageRank 可 以 使 用 如 下 所 述 的 一 组 线性 方程 来 定义 。 首 先 ，Web 页 面 被 赋予 整数 标识 符 。 这 样 定 
义 跳 转 概率 矩阵 7 : 将 Tli, 刀 设 为 一 个 正在 沿 着 从 页 面 ; 引 出 的 链接 前 进 的 随机 游 走 者 沿 链接 走向 页 
面 j 的 概率 。 假 定 从 i 出 发 的 每 个 链接 都 是 等 概率 的 : 7[i, j] =1/N,, PN, 是 页 面 i 引 出 的 链接 数 
目 。 和 矩阵 7 中 的 多 数 元 素 为 0， 因 此 最 好 用 邻接 表 来 表示 。 这 样 ， 页 面 j 的 PageRank PL[j] 可 以 定义 为 : 


P{j] = /N + (1-8) * $, (TLi,j] * PLi}) 


其 中 5 是 0~1 之 间 的 一 个 常数 ，N 是 页 面 数目 ;5 代表 随机 游 走 过 程 中 某 一 步 为 跳 转 的 概率 。 

如 上 产生 的 方程 组 通常 使 用 迭代 技术 求解 ， 从 令 PLET 1/N 开始 。 和 迭代 过 程 的 每 一 步 利 用 前 次 

和 迭代 产生 的 尸 的 值 计算 PL] ASB. “PEFR UEC PERS P[ 引 值 上 发 生 的 最 大 变化 低 于 某 个 临界 值 

时 ， 和 迭代 过 程 停止。 
21.3.3 其 他 的 流行 度 度量 

像 PageRank 这 样 基本 的 流行 度 度量 在 对 查询 结果 排名 过 程 中 扮演 了 重要 的 角色 ,但 绝 不 是 唯一 的 
因素 。 页 面 的 TF-IDF 得 分 用 来 判断 其 对 于 查询 关键 字 的 相关 程度 ， 它 必须 与 流行 度 排 名 结合 起 来 。 其 
他 因素 也 必须 考虑 在 内 ， 以 便 处 理 PageRank 以 及 相关 的 流行 度 度量 的 局 限 性 。 

有 关 站 点 被 访问 的 频繁 程度 的 信息 是 一 个 非常 有 用 的 流行 度 的 度量 , 但 是 正如 前 文 所 述 ， 这 一 信 
息 往 往 是 难以 获得 的 。 不 过 ， 对 于 作为 返回 结果 的 网 页 链接 ， 搜 索引 擎 的 确 记 录 了 该 网 页 被 点 击 的 频 
度 比例 。 这 个 比例 可 以 用 于 站 点 流行 度 的 度量 。 为 了 记录 该 频 度 比例 ， 搜 索引 擎 不 直接 返回 指向 目标 


O 在 某 种 意义 上 ， 这 与 对 名 人 (如 电影 明星 ) 对 某 个 产品 的 认可 给 予 额外 的 权重 很 相似 ， 因 此 ， 虽 然 在 实践 中 它 是 
有 效 的 且 已 经 得 到 广泛 使 用 ， 其 意义 仍然 是 值得 商检 的 。 
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网 页 链接 ， 而 是 提供 一 个 经 过 搜索 引擎 自身 站 点 指向 目标 网 页 的 间接 链接 。 搜 索引 擎 通过 该 间接 链接 
记录 了 页 面 的 点 击 行为 ， 并 且 浏 览 器 被 透明 地 重 定向 至 原始 链接 。 

PageRank 算法 的 一 个 缺点 就 是 它 设 定 了 一 个 流行 度 度量 ， 而 这 个 度量 并 不 把 查询 关键 字 纳入 考虑 
范围 之 内 。 例 如 : 页 面 google. com 很 可 能 有 一 个 非常 高 的 PageRank ， 因 为 许多 站 点 都 包含 指向 其 的 链 
接 。 假 设 它 包含 一 个 顺便 提 到 的 词 ， 比 如 “Stanford” (多 年 前 Google 的 高 级 搜索 页 面 确实 包含 这 个 词 ) 。 
一 个 对 于 关键 字 Stanford 的 查询 就 会 把 google. com 作为 排名 最 高 的 结果 返回 ， 排 在 更 相关 的 结果 (如 
Stanford 大 学 的 主页 ) 之 前 。 

一 个 广泛 使 用 的 解决 这 个 问题 的 方法 是 : 利用 指向 某 个 页 面 的 链接 的 锚 文 本 中 的 关键 字 来 判断 该 
页 面 与 什么 话题 高 度 相 关 。 链 接 的 锚 文 本 由 出 现在 HTML 的 a href 标签 中 的 文本 组 成 。 例 如 : 链接 

<a href = "http: //stanford. edu" > Stanford University </a > 
的 锚 文本 就 是 Stanford University”。 如 果 某 站 点 有 许多 指向 stanford. edu 的 链接 在 它们 的 锚 文 本 中 出 现 
Stanford 这 个 词 ， 那 么 该 页 面 就 可 以 被 判断 为 是 与 关键 字 Stanford 非常 相关 的 。 锚 文本 附近 的 文本 也 可 
以 考虑 进来 。 例 如 ， 某 个 Web 站 点 可 能 会 含有 文本 ”Stanford's home page is here”， 但 是 它 仅 仅 使 用 了 
“here” 这 个 词 作为 指向 Stanford 的 Web 站 点 的 链接 的 锚 文本 。 

基于 锚 文 本 的 流行 度 和 其 他 流行 度 度量 ， 以 及 TF-IDF 度量 结合 起 来 ， 就 得 到 一 个 查询 应 答 的 整体 
排名 (将 于 21.3.5 节 中 讲述 ) 。 作 为 一 种 实现 技巧 ,出 现在 销 文本 中 的 词 常常 被 视 为 页 面 的 一 部 分 ; 其 [923 | 
词 频 是 根据 所 在 页 面 的 流行 度 来 计算 的 。 而 后 ，TF-IDF 排名 方法 自动 地 将 这 些 词 考虑 在 内 。 

定义 流行 度 时 ， 作 为 一 个 替代 方法 ,我 们 可 以 把 关键 字 考 虑 进来 ， 就 是 仅仅 利用 那些 包含 查询 关 
键 字 的 页 面 来 计算 某 个 流行 度 的 度量 ， 而 不 是 使 用 所 有 可 得 到 的 Web 页 面 计算 流行 度 。 这 个 方法 代价 
更 高 ， 因 为 流行 度 排名 的 计算 必须 在 得 到 每 个 查询 时 动态 地 执行 ， 而 PageRank 是 静态 地 计算 一 次 ， 然 
后 被 所 有 查询 复 用 。Web 搜索 引擎 每 天 处 理 数 十 亿 计 的 查询 ,它们 承担 不 起 花费 那么 多 时 间 用 来 回答 
一 个 查询 的 代价 。 结 果 是 ， 虽 然 这 个 方法 能 够 得 到 更 好 的 结果 ， 但 是 使 用 得 并 不 非常 广泛 。 

HITS 算法 就 是 基于 上 面 的 想法 : 首先 找到 包含 查询 关键 字 的 的 页 面 ， 然 后 就 利用 这 些 有 关 页 面 集 
合计 算 流 行 度 度量 。 此 外 ， 它 还 引入 了 链接 中 心 和 权威 页 的 概念 。 一 个 链接 中 心 (hub ) 是 一 个 存储 了 
到 许多 有 关 页 面 的 链接 的 页 面 ， 它 可 能 本 身 并 不 包含 实际 的 主题 信息 ， 而 是 指向 包含 实际 信息 的 页 面 。 
比较 而 言 ， 一 个 权威 页 (authority ) 是 一 个 包含 了 实际 主题 信息 的 页 面 ， 虽然 它 可 能 并 不 包含 指向 许多 有 
关 页 面 的 链接 。 这 样 每 个 页 面 得 到 了 作为 链接 中 心 的 一 个 威望 值 (链接 中 心 威望 ) 和 作为 权威 页 的 另 一 
个 威望 值 (权威 页 成 望 )。 像 以 前 一 样 ， 威望 的 定义 是 循环 的 ， 并且 是 由 线性 联 立 方程 组 定义 的 。 若 一 
个 页 面 指向 许多 具有 高 权威 页 威望 的 页 面 ， 则 该 页 面 得 到 较 高 的 链接 中 心 威望 ; 若 一 个 页 面 被 许多 具 
有 高 链接 中 心 威望 的 站 点 所 链接 ， 则 该 页 面 得 到 较 高 的 权威 页 威望 。 对 于 给 定 的 一 个 查询 ， 具 有 高 权 
威 页 威望 的 页 面 的 排名 比 其 他 页 面 要 高 。 对 于 进一步 细节 请 参考 文献 注解 。 

21.3.4 RRI 

搜索 引擎 作弊 ( search engine spamming) 指 的 是 尝试 建立 Web 页 面 或 页 面 集合 ， 其 被 设计 用 来 使 得 
站 点 对 于 某 些 查询 得 到 一 个 高 的 相关 度 排 名 ， 即 使 这 些 站 点 实际 上 并 不 是 流行 的 站 点 。 例 如 : 一 个 旅 
游 站 点 想 对 于 含有 关键 字 “ 旅游" 的 查询 得 到 高 排名 。 它 可 以 通过 在 其 页 面 中 重复 多 次 “旅游 ”这 个 词 来 
得 到 高 的 TF-IDF 得 分 。? 即 使 一 个 与 旅游 无 关 的 站 点 ， 比 如 一 个 色情 站 点 ， 也 可 以 这 么 做 ,然后 会 在 
对 于 旅游 这 个 词 的 查询 上 排名 较 高 。 事 实 上 ， 这 种 对 于 TF-IDF 的 作弊 在 早期 的 Web 搜索 中 非常 常见 。 
在 这 些 作 商 站 点 与 那些 试图 发 现 作 商行 为 并 拒绝 给 它们 高 排名 的 搜索 引擎 之 间 曾 经 有 一 场 旷 日 持久 的 








O 有 时 候 这 个 间接 链接 对 用 户 是 隐藏 的 。 比 如 当 你 把 鼠标 指针 指向 Google 查询 结果 中 的 一 个 链接 ( 比如 db-book. 
com) ， 这 个 链接 就 会 直接 显示 到 那个 网 站 。 尽 管 如 此 ， 至 少 在 2009 年 中 旬 ， 实 际 上 当 你 点 击 一 个 链接 的 时 候 ， 
结果 页 中 的 Javascript 代码 会 重 写 该 链接 ， 使 其 通过 Google 站 点 间接 地 访问 目标 链接 。 如 果 你 使 用 浏览 器 中 的 后 
退 按钮 后 退 到 查询 结果 页 面 ， 并 且 用 鼠标 指向 那个 链接 ， 那 么 该 链接 的 URL 就 可 见 了 。 

OQ Web 页 面 中 的 重复 词 会 误导 用 户 ; 作弊 者 能 够 解决 这 个 问题 。 对 于 一 个 相同 的 URL， 他 们 向 搜索 引擎 和 其 他 用 
户 递交 不 同 的 页 面 ; 或 者 让 这 些 重复 词 不 可 见 ， 例 如 把 这 些 词 用 小 的 白色 字体 显示 在 白色 背景 之 上 。 
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战争 。 
诸如 PageRank 这 样 的 流行 度 排名 模式 使 得 搜索 引擎 作弊 行为 更 加 难以 实施 ， 这 是 由 于 仅仅 依靠 重 


复 词 来 得 到 TF-IDF 高 分 已 经 不 够 了 。 然 而 ， 即 使 这 些 技术 也 还 是 有 可 能 使 用 作弊 来 欺骗 的 : 通过 建立 


925 


一 个 彼此 互相 指向 的 Web 页 面 的 集合 来 增加 它们 的 流行 度 排名 。 诸 如 使 用 站 点 而 不 是 页 面 作为 排名 单 
元 (选择 适度 规范 化 的 跳 转 概率 ) 的 技术 已 经 提出 ， 用 来 避免 某 些 作 油 技术 ,但 是 对 其 他 作 歇 技术 并 不 
是 足够 有 效 。 搜 索引 擎 作弊 者 与 搜索 引擎 之 间 的 战争 即使 到 了 今天 还 依然 在 延续 。 

HITS 算法 的 链接 中 心 与 权威 页 方法 更 容易 受到 作弊 行为 的 影响 。 作 粗 者 可 以 建立 一 个 包含 指向 关 
于 某 个 主题 的 好 的 权威 页 的 链接 的 Web 页 面 ， 从 而 使 该 页 面 得 到 一 个 高 的 链接 中 心 分 数 。 此 外 ， 作 粗 
者 的 Web 页 面包 括 链接 ， 这 些 链 接 指 向 的 是 他 们 希望 流行 起 来 的 页 面 ， 但 是 与 这 个 主题 并 不 是 很 相 
关 。 因 为 这 些 链接 的 页 面 被 一 个 具有 高 链接 中 心 分 数 的 页 面 所 指向 ， 所 以 这 些 页 面 会 得 到 一 个 高 的 但 
不 是 应 得 的 权威 页 分 数 。 

21.3.5 将 TF-IDF 和 流行 度 排名 度量 方法 结合 
我 们 已 经 探讨 过 了 两 种 广泛 应 用 于 排名 的 特征 ， 即 TF-IDF 和 流行 度 ( 如 PageRank), TF-IDF 本 身 
已 经 综合 反映 了 许多 因素 ,包括 原 始 术 语 频 度 、 逆 文档 频率 、 在 指向 另 一 页 面 的 锚 文本 中 出 现 的 术语 ， 
以 及 一 组 其 他 的 因素 ， 例 如 出 现在 标题 中 的 术语 出 现在 文档 前 部 的 术语 以 及 较 大 字体 的 术语 等 。 

如 何 将 从 各 个 因素 得 来 的 页 面 的 各 种 分 值 结 合 起 来 ， 从 而 产生 出 一 个 全 局 的 评价 是 信息 检索 系统 
需要 解决 的 一 个 重要 问题 。 在 搜索 引擎 初期 ， 人 们 创造 函数 式 来 将 诸多 分 值 整合 为 一 个 全 局 分 数 。 但 
是 当今 的 搜索 引擎 应 用 机 器 学 习 的 方法 来 决定 如 何 获得 整合 分 数 。 典 型 地 ， 分 值 合并 公式 是 固定 的 ， 
但 是 公式 以 不 同 评分 因素 的 权重 作为 参数 。 通 过 使 用 由 人 工 排名 得 到 的 查询 结果 作为 训练 数据 集 ， 机 
器 学 习 算 法 可 以 计算 出 在 多 个 查询 上 表现 最 佳 的 每 个 评价 因素 的 权重 的 值 。 

我 们 注意 到 ， 多 数 搜索 引擎 并 不 公开 他 们 如 何 计算 相关 性 排名 ; 他 们 认为 公开 排名 技术 将 会 有 利 
于 竞争 者 赶 超 自 己 ， 并 且 使 得 搜索 引擎 欺骗 行为 更 加 容易 实现 ， 这 将 导致 更 差 的 搜索 结果 质量 。 


21.4 同义词 、 多 义 词 和 本 体 


考虑 利用 查询 “摩托 车 维护 "查找 关于 摩托 车 维护 的 文档 的 问题 。 假 定 每 份 文档 的 关键 字 是 标题 中 
的 词 和 作者 名 ， 那 么 标题 是 摩托 车 维修 的 文档 将 不 会 被 找 出 ， 因 为 “维护 ”这 个 词 并 没有 在 它 的 标题 中 
出 现 。 

我 们 可 以 采取 使 用 同义词 (synonym) 的 方法 解决 这 个 问题 。 对 每 个 词 都 可 以 定义 一 组 同义词 ， 每 个 
词 出 现时 都 可 以 被 它 的 所 有 同义词 (包括 它 自 己 ) 的 or 所 代替 。 于 是 ,查询 “摩托 车 and 维修 "被 替换 为 
“摩托 车 and (维修 or 维护 )”， 这 个 查询 就 可 以 找 出 所 要 的 文档 了 。 

基于 关键 字 的 查询 还 受到 一 个 相反 问题 一 一 多 义 词 (homonym ) 的 困扰 ， 多 义 词 是 指 一 个 单词 具有 
多 种 含义 ， 例 如 ， 单词 object 作为 名 词 和 动词 具有 不 同 含义 。 单 词 table 可 以 指 一 个 饭桌 ， 也 可 以 是 关 
系数 据 库 中 的 一 个 表 。 

事实 上 ， 使 用 同义词 扩展 查询 是 有 和 危险 的 : 同义词 自身 可 能 含有 不 同 的 含义 。 例 如 :“allowance” 
Xİ F“ maintenance” 这 个 词 的 其 中 一 个 意思 来 说 是 同义词 ， 但 是 与 查询 "motorcycle maintenance” 中 用 户 想 
要 的 意思 不 同 。 使 用 了 与 用 户 想 要 的 不 同 含义 的 同义词 的 文档 也 被 检索 到 。 这 样 用 户 会 感到 惊奇 : 如 
果 一 个 特定 的 检索 到 的 文档 ( 例如 使 用 "allowance ”这 个 词 ) 既 不 包含 用 户 指定 的 关键 字 ， 也 不 包含 那些 
在 文档 中 意 指 的 含义 与 指定 关键 字 同 义 的 词 ， 为 什么 系统 会 认为 这 份 特定 的 文档 是 相关 的 。 因 此 ， 不 
首先 向 用 户 验 证 同义词 的 含义 就 使 用 同义词 扩展 查询 不 是 个 好 主意 。 

对 于 上 述 问题 的 一 个 更 好 的 方法 是 使 系统 能 够 理解 文档 中 的 每 个 词 代表 什么 概念 (concept) ， 类 似 
地 ， 使 系统 理解 用 户 在 寻找 什么 概念 ， 并 且 返 回 阐释 了 用 户 感 兴趣 的 概念 的 文档 。 支 持 基 于 概念 的 查 
询 (concept-based querying) 的 系统 必须 分 析 每 份 文档 ， 消 除 文档 中 每 个 词 的 歧义 ， 并 用 其 所 代表 的 概念 
替换 它 。 消 除 歧 义 通常 通过 查看 文档 中 该 词 周围 的 其 他 词 来 完成 。 例 如 : 如 果 某 份 文档 包含 诸如 “数据 
库 " 或 “查询 ”这样 的 词 ， 那 么 table 这 个 词 很 可 能 该 被 “table: data” ( MHA) 概念 奉 代 ， 而 如 果 某 份 文 
Fite table 这 个 词 附近 包含 诸如 家 具 、 椅 子 或 木头 这 样 的 词 ， 那 么 table 这 个 词 该 被 "table: furniture” #4 
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念 替 代 。 由 于 查询 只 包含 非常 少 的 几 个 词 ， 因 此 基于 附近 词 消 除 歧义 对 于 用 户 查 询 来 说 通常 更 加 困难 。 
因此 基于 概念 的 查询 系统 会 提供 好 几 个 替代 概念 给 用 户 ， 由 用 户 在 搜索 继续 之 前 选择 一 个 或 多 个 概念 。 

基于 概念 的 查询 有 几 个 优点 : 例如 某 种 语言 的 查询 可 以 检索 到 其 他 语言 的 文档 ， 只 要 它们 是 关于 
同一 个 概念 的 。 如 果 用 户 不 懂 文 档 所 使 用 的 语言 ， 那 么 接 下 来 就 可 以 使 用 自动 翻译 机 制 。 然 而 ， 当 处 
理 数 十 亿 文 档 时 ， 对 文档 进行 处 理 来 消除 词 的 歧义 的 代价 是 非常 高 的 。 因 此 ， 互 联网 搜索 引擎 原本 通 
常 不 支持 基于 概念 的 查询 。 不 过 ， 基 于 概念 的 查询 正在 快速 地 引起 越 来 越 多 的 兴趣 。 基 于 概念 的 查询 
系统 已 经 建成 ， 并 已 用 于 其 他 大 型 的 文档 集合 。 

基于 概念 的 查询 可 以 通过 开发 概念 层次 来 进一步 扩展 。 例 如 ， 假 设 某 人 发 出 了 一 个 查询 "会 飞 的 动 
物 ”， 一 个 包含 有 关 “ 会 飞 的 哺乳 动物 "的 信息 的 文档 当然 是 相关 的 ， 因 为 哺乳 动物 也 是 动物 。 然 而 ， 
这 两 个 概念 是 不 一 样 的 ， 于 是 仅仅 概念 的 匹配 不 会 允许 该 文档 作为 结果 返回 。 基 于 概念 的 查询 系统 能 
够 支持 基于 概念 层次 的 文档 检索 。 

本 体 (ontology) 是 反映 概念 间 联 系 的 层次 结构 。 最 常用 的 联系 是 is-a 联系 。 例 如 ,美洲 豹 is-a 哺乳 
动物 ， 哺 乳 动物 is-a 动物 。 其 他 联系 (诸如 part-of) 也 是 有 可 能 出 现 的 , in, HÆ part-of 飞机 。 

WordNet 系统 利用 相互 联系 的 词 (在 WordNet 术语 中 称 为 一 个 合集 ) 定义 了 大 量 的 概念 。 与 一 个 合 
集 相互 联系 的 词 是 一 个 概念 的 同义词 ， 一 个 词 当然 可 能 是 好 几 个 不 同 概念 的 同义词 。 除 了 同义词 之 外 ， 
WordNet 还 定义 了 多 义 词 和 其 他 联系 。 特 别 是 ， 它 定义 的 is-a 和 part-of 联系 用 来 连接 概念 ， 并 有 效 定 
义 了 一 个 本 体 。Cyc 工程 是 建立 本 体 的 另 一 项 努力 。 

除了 语言 级 别 的 本 体 ， 针 对 特定 领域 可 以 定义 不 同 本 体 ， 用 来 处 理 与 那些 领域 相关 的 术语 。 例 如 ， 
商业 领域 的 本 体 已 经 建立 起 来 ， 用 来 标准 化 其 术语 。 对 于 为 解决 订单 处 理 和 其 他 组 织 间 数据 流 的 处 理 
建立 标准 下 层 基 础 ， 这 是 至 关 重 要 的 一 步 。 又 如 ,一 个 医药 保险 公司 需要 从 医院 获取 包含 诊断 信息 和 
治疗 信息 的 资料 。 能 够 使 术语 标准 化 的 本 体 可 以 帮助 医院 工作 人 员 无 歧义 地 理解 这 些 资料 。 这 将 极 大 
地 帮助 资料 分 析 ， 例 如 ， 跟 踪 一 段 特 定时 间 内 某 种 疾病 的 病例 发 生 的 数目 。 

建立 链接 多 种 语言 的 本 体 也 是 有 可 能 的 。 例 如 ，WordNet 系统 已 经 针对 不 同 语言 建立 起 来 了 ， 语 
言 间 的 共同 概念 能 够 互相 链接 。 这 样 一 个 系统 可 以 用 来 完成 文本 的 翻译 。 在 信息 检索 的 上 下 文 环境 中 ， 
多 语言 的 本 体 可 以 用 来 实现 多 种 语言 文档 间 基 于 概念 的 搜索 。 

在 使 用 本 体 来 进行 基于 概念 的 查询 方面 的 最 大 努力 在 于 语义 网 络 ( Semantic Web) 。 语 义 网 络 是 由 
万 维 网 联盟 ( World Wide Web Consortium) 倡导 的 。 它 包含 一 组 能 够 以 基于 语义 或 含义 的 方式 将 Web 上 
的 数据 连接 起 来 的 工具 、 标 准 以 及 语言 。 与 存储 于 集中 的 存储 仓库 不 同 的 是 ,语义 网 络 被 设计 为 允许 
如 同 万 维 网 那样 的 分 散 的 、 分 布 式 的 增长 。 这 一 特点 成 就 了 万 维 网 的 成 功 。 做 到 这 一 点 的 关键 在 于 集 
成 多 个 分 布 式 本 体 的 能 力 。 于 是 ， 任 何 可 以 访问 互联 网 的 用 户 都 可 以 向 语义 网 络 添加 数据 。 


21.5 文档 的 索引 


一 个 有 效 的 索引 结构 对 于 信息 检索 系统 查询 的 高 效 处 理 是 十 分 重要 的 。 包 含 指定 关键 字 的 文档 可 
以 通过 使 用 倒 排 索引 (inverted index) 来 高 效 地 定位 。 倒 排 索引 将 每 个 关键 字 K 映射 到 包含 K 的 文档 的 
列表 (文档 标识 的 列表 ) S; 上 。 例如， 如 果 文 档 d;、d, 和 ds 包含 术语 “Silberschatz”"， 那 么 术语 
Silberschatz 的 倒 排 表 则 表示 为 “d,; dy; d,,”。 为 了 支持 基于 关键 字 相 似 性 的 相关 度 排名 ， 这 样 的 索引 
可 能 不 只 提供 文档 标识 ， 还 提供 关键 字 在 文档 中 出 现 位 置 的 列表 。 例 如 , “Silberschatz” 出 现在 文档 d, 
的 第 21 个 位 置 ， 文 档 d, 的 第 1 和 19 个 位 置 上 以 及 文档 几 的 第 4、29 、46 个 位 置 上 ; 那么 带 有 位 置信 
息 的 倒 排 表 将 是 :“d,/21; d/l, 19; ds,/4，29，46”。 倒 排 表 也 可 以 包含 文档 的 术语 频率 。 

这 些 索 引 都 必须 存储 在 磁盘 上 ， 每 个 列表 5; 都 可 能 分 布 在 多 个 磁盘 页 上 。 为 了 最 小 化 检索 每 个 列 
KS 所 需要 的 VO 操作 次 数 ， 系 统 可 能 试图 将 每 份 文档 列表 5; 保存 在 一 组 连续 的 磁盘 页 上 ， 这 样 ， 仅 
通过 一 次 磁盘 寻 道 就 可 以 检索 到 整个 列表 。B’ 树 索引 可 以 用 来 把 每 个 关键 字 K 映射 到 与 其 关联 的 倒 
HER S, 上 。 

and 操作 用 来 找 出 包含 一 个 给 定 的 关键 字 集合 中 所 有 关键 字 K, ，K, ，…，K, 的 文档 。 实 现 and 操 
作 时 ， 我们 首先 检索 出 分 别 包 含 各 个 关键 字 的 所 有 文档 的 文档 标识 集 S ,5,,… ,5S, 。 集 合 的 交集 $ NA 
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Sy N S, 给 出 了 所 求 的 文档 集合 的 文档 标识 。or 操作 用 来 给 出 至 少 包含 关键 字 K, K, n, K, 中 的 
一 个 的 所 有 文档 的 集合 。 我 们 通过 计算 其 并 集 S, U 5,… U S, 来 实现 or 操作 。not 操作 用 来 找 出 不 包含 
给 定 关键 字 K 的 文档 。 给 定 文档 标识 集合 $， 我 们 可 以 通过 求 差 $ - S, 去 掉 那 些 包含 指定 关键 字 K, 的 
XH, EF S 是 包含 关键 字 K 的 文档 标识 的 集合 。 

给 定 一 个 查询 中 的 关键 字 集 合 ， 许 多 信息 检索 系统 并 不 一 定 要 求 检索 到 的 文档 包含 所 有 的 关键 字 
(除非 明确 使 用 了 一 个 and 操作 ) 。 在 这 种 情况 下 ， 会 检索 所 有 包含 至 少 一 个 关键 字 的 文档 (如 同 or 操 
作 一 样 ) ， 但 要 用 相关 度 度量 对 它们 进行 排名 。 

为 了 在 相关 度 排 名 中 使 用 术语 频率 ， 索 引 结构 应 该 附加 地 维护 每 份 文 档 中 术语 出 现 的 次 数 ， 为 了 
减少 这 种 开销 ， 可 以 使 用 一 种 只 使 用 少量 bit 位 的 压缩 表示 ， 用 于 对 术语 频率 的 近似 。 索 引 也 应 该 存储 
每 个 术语 的 文档 频率 ( 即 包含 该 术语 的 文档 个 数 ) 。 

如 果 流 行 度 排 名 独立 于 术语 索引 ( 如 PageRank 中 的 情况 ) ， 列 表 S, 可 以 根据 流行 度 排名 ( 其次， 对 
于 流行 度 相同 的 文档 ， 根 据 文档 id 排名 ) 。 这 样 ， 就 可 以 使 用 一 个 简单 的 合并 来 计算 and 和 or 操作 
对 于 and 操作 的 情况 ， 如 果 我 们 忽略 TF-IDF 对 于 相关 度 分 数 的 贡献 ， 仅 仅 要 求 文档 包含 给 定 关 键 字 ， 
并 且 如 果 用 户 只 需要 前 天 个 答案 ,那么 一 旦 得 到 了 天 个 答案 ， 合 并 就 可 以 停止 了 。 一 般 而 言 ， 考 虑 了 
TF-IDF 分 数 后 ， 最 终 分 数 较 高 的 返回 结果 往往 也 具有 较 高 的 游行 度 分 数 ， 并 将 出 现在 结果 列表 的 前 
端 。 能 够 估计 剩余 结果 集 可 能 取得 的 最 高 分 数 的 技术 已 经 开发 出 来 。 这 些 技术 可 以 用 来 识别 尚未 处 理 
的 答案 已 不 可 能 成 为 前 天 个 答案 的 一 部 分 的 情况 。 这 样 ， 处 理 过 程 可 以 提早 结束 。 

但 是 ， 按 照 流行 度 分 数 对 答案 进行 排名 在 回避 长 倒 排 表 扫 描 问题 时 并 不 非常 高 效 。 因 为 它 忽 略 了 
TF-IDF 分 数 的 贡献 。 一 种 可 行 的 处 理 方法 是 将 每 个 术语 的 倒 排 表 切 成 两 部 分 。 第 一 部 分 包含 拥有 高 
TF-IDF 分 值 的 文档 ( 例如， 该 术语 出 现在 标题 内 的 文档 或 者 包含 该 术语 的 锚 文 本 所 指向 的 文档 ) 。 第 二 
部 分 包含 所 有 的 文档 。 倒 排 表 的 两 部 分 均 可 按照 (流行 度 、 文 档 ID) 的 形式 有 序 存 储 。 对 于 一 个 给 定 的 
查询 ， 通 过 合并 各 个 术语 的 倒 排 表 的 第 一 部 分 往往 会 得 到 一 些 具 有 较 高 的 整体 分 数 的 答案 。 如 果 用 倒 
排 表 的 第 一 部 分 没有 找到 足够 多 的 高 分 数 答 案 ， 倒 排 表 的 第 二 部 分 可 以 用 于 找到 所 有 的 剩余 的 答案 . 
如 果 某 份 文档 具有 较 高 的 TF-IDF 分 数 ， 使 用 合并 倒 排 表 第 一 部 分 的 方法 可 以 发 现 这 样 的 文档 。 相 关 文 
献 请 参考 文献 注解 。 


21.6 检索 的 有 效 性 度量 


每 个 关键 字 都 可 能 被 大 量 的 文档 所 包含 ， 因 此 紧凑 的 表示 是 减少 索引 占用 空间 的 关键 。 于 是 ， 对 
应 于 一 个 关键 字 的 文档 集合 以 一 种 压缩 的 形式 维护 。 这 样 可 以 节省 存储 空间 。 但 有 的 时 候 ， 索 引 的 这 
种 存储 方式 使 得 检索 只 是 近似 的 ; 有 一 些 相 关 文 档 可 能 没有 检索 到 ( 称 作 误 丢弃 (false drop) CREF 
(false negative) ) ; 或 检索 到 了 一 些 不 相关 的 文档 ( 称 作 误 选中 (false positive) ) 。 一 个 好 的 索引 结构 将 不 
存在 任何 误 丢弃 ,但 可 以 有 一 些 误 选 中 ， 因 为 系统 随后 可 以 通过 查看 文档 中 实际 包含 的 关键 字 来 滤 除 
它们 。 在 Web 索引 中 ， 也 不 希望 有 误 选 中 ， 因 为 可 能 无 法 迅速 地 存 取 实 际 的 文档 用 于 过 滤 。 
用 于 度量 一 个 信息 检索 系统 回答 查询 的 好 坏 的 度量 有 两 个 : 第 一 个 是 查 准 率 ( precision) ， 度 量 检 
索 到 的 文档 真正 与 查询 相关 的 百分比 ; 第 二 个 是 查 全 率 (recall) ， 度 量 与 查询 相关 的 文档 中 被 检索 到 的 
文档 所 占 百 分 比 。 理 想 情况 下 ， 两 者 都 应 该 是 100% 。 
查 准 率 和 查 全 率 对 于 理解 一 个 特定 的 文档 排名 策略 执行 得 好 坏 也 是 两 个 重要 的 衡量 尺度 。 相 关 性 
排名 策略 可 能 带 来 误 舍弃 和 误 选 中 ,但 在 一 个 更 微妙 的 意义 下 。 
o 当 对 文档 进行 相关 性 排名 时 ， 一些 相关 文档 可 能 排名 较 低 ， 这 就 会 发 生 误 舍弃 。 如 果 我 们 取 来 
所 有 的 文档 (包括 那些 排名 很 低 的 文档 )， 则 只 会 有 很 少 的 误 舍 弃 。 然 而 ,很 小 有 人 会 查看 最 先 
返回 的 数 十 个 以 外 的 文档 ， 因 此 可 能 错过 一 些 没有 排 在 前 面 的 相关 文档 。 事 实 上 ， 误 舍弃 的 多 
少 取决 于 查看 的 文档 的 多 少 。 因 此 ,我们 不 用 一 个 单独 的 数字 作为 查 全 率 的 度量 ， 而 是 把 查 全 
率 的 度量 表示 为 取 回 的 文档 数量 的 一 个 函数 。 
© 当 不 相关 文档 比 相关 文档 排 在 更 前 面 时 会 发 生 误 选 中 。 这 也 取决 于 查看 的 文档 的 多 少 。 可 以 选 
择 将 查 准 率 的 度量 作为 取 回 的 文档 数量 的 一 个 函数 。 
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一 个 更 好 且 更 直观 的 用 于 度量 查 准 率 的 可 选 方 法 是 将 其 作为 查 全 率 的 一 个 函数 进行 度量 。 使 用 这 
种 结合 的 度量 方法 ， 如 果 需 要 ， 查 准 率 和 查 全 率 都 可 以 作为 文档 数量 的 函数 进行 计算 。 

例如 ， 我们 可 以 说 当 查 全 率 为 50% 时 ， 查 准 率 是 75% ， 而 当 查 全 率 为 75% 时 ， 查 准 率 降低 到 
60% 。 一般 来 说 ,我 们 可 以 画 一 张 关 联 查 准 率 与 查 全 率 的 图 。 这 些 度量 可 以 针对 单个 查询 进行 计算 ， 
然后 在 查询 基准 测试 中 对 于 一 批 查询 来 求 平均 。 

然而 与 度量 查 准 率 和 查 全 率 相关 的 另 一 个 问题 在 于 如 何 定义 哪些 文档 是 真正 相关 的 ， 哪 些 不 是 。 
事实 上 ， 为 了 决定 一 份 文档 是 否 相 关 ， 需 要 有 对 自然 语言 的 理解 和 对 查询 旨 在 理解 。 研 究 人 员 因 此 创 
建 了 文档 和 查询 的 集合 ， 并 人 工地 将 文档 标记 为 与 该 查询 相关 或 不 相关 。 不 同 的 相关 性 排名 系统 可 以 
运行 在 这 些 集合 之 上 ， 以 度量 它们 对 多 个 查询 的 平均 查 准 率 和 查 全 率 。 


21.7 Web 的 抓 取 和 索引 


PREH (web crawler) 是 定位 和 收集 Web 上 的 信息 的 程序 。 它 们 沿 着 已 知 文档 中 存在 的 超 文本 链 
接 递归 地 找到 其 他 文档 。 网 络 怜 虫 从 一 组 可 由 人 工 设 定 的 初始 链接 开始 ， 依 据 URL 链接 抓 取 Web 上 的 
页 面 。 随 后 ， 爬 虫 定位 抓 取 到 的 页 面 中 所 包含 的 所 有 URL 链接 信息 ， 如 果 这 些 链接 所 指向 的 页 面 没有 
被 抓 取 过 ， 而 且 也 不 存在 于 当前 的 待 抓 取 集合 中 ,那么 疏 虫 就 把 它们 加 入 到 待 抓 取 的 URL 链接 集合 
中 。 这 一 过 程 将 以 不 断 抓 取 待 抓 取 集合 中 的 页 面 并 处 理 这 些 页 面 中 的 链接 的 形式 反复 进行 。 通 过 重复 
以 上 过 程 ， 所 有 可 以 由 初始 集合 中 的 URL 出 发 以 任意 的 链接 顺序 到 达 的 页 面 都 将 最 终 被 抓 取 到 。 

由 于 Web 上 的 文档 数量 很 大 ， 因 此 要 想 在 短 时 间 里 抓 取 整 个 Web 是 不 可 能 的 。 实 际 上 ， 所 有 的 搜 
索引 擎 都 只 是 搜索 部 分 而 不 是 全 部 Web， 它 们 的 疏 虫 对 它们 覆盖 的 网 页 执行 一 次 单独 的 扫描 抓 取 需要 
数 周 或 数 月 的 时 间 。 疏 虫 抓 取 过 程 中 通常 有 许多 进程 ， 在 多 台 主 机 上 和 运行。 数据 库存 储 了 需要 搜索 的 
一 个 链接 (或 站 点 ) 集 合 ， 将 该 集合 中 的 链接 交 给 每 个 怜 虫 进程 。 抓 取 过 程 中 发 现 的 新 链接 被 添加 进 数 
据 库 中 ， 并 可 能 会 立即 或 在 稍 后 的 时 间 里 抓 取 。 必 须 周期 性 地 重新 提取 网 页 ( 即 重新 抓 取 ) 以 获得 更 新 
信息 ， 并 去 除 不 存在 的 站 点 ， 以 使 搜索 索引 中 的 信息 保持 合理 的 更 新 程度 。 

相关 参考 文献 中 有 很 多 进行 Web 抓 取 的 实用 细节 。 例 如 在 动态 网 页 中 生成 的 无 限 链接 序列 ( 称 作 
NG BPA spider trap) ) ， 页 面 抓 取 的 优先 顺序 以 及 保证 Web 站 点 不 会 被 由 疏 虫 发 出 的 频繁 的 访问 请 求 
所 淹没 。 

抓 取 到 的 页 面 被 交 给 可 能 运行 在 不 同 机 器 上 的 威望 值 计算 系统 和 索引 系统 进行 处 理 。 进 行 威望 值 
计算 和 索引 的 系统 本 身 并 行 地 在 多 台 主 机 上 运行 。 当 它们 完成 了 对 页 面 威望 值 计 算 并 且 加 入 到 索引 中 
之 后 ， 这 些 页 面 就 可 以 丢掉 了 。 不 过 ， 这 些 页 面 往往 是 被 搜索 引擎 缓存 了 起 来 ， 以 便 即 使 该 页 面 所 在 
原始 站 点 无 法 访问 ， 搜 索引 擎 用 户 仍然 可 以 快速 地 访问 这 个 缓存 页 面 。 

将 搜索 到 的 网 页 加 到 正 用 于 查询 的 索引 中 不 是 一 个 好 主意 ， 因 为 这 样 做 将 需要 索引 上 的 并 发 控制 ， 
从 而 会 影响 查询 和 更 新 的 性 能 。 蔡 代 的 办 法 是 ， 使 用 索引 的 一 个 副本 回答 查询 ， 而 用 新 搜索 到 的 网 页 
对 另 一 个 副本 进行 更 新 。 周 期 性 地 ， 这 两 个 副本 互 换 ， 对 旧 的 副本 进行 更 新 ， 而 新 的 副本 用 于 查询 。 

为 了 支持 非常 高 的 查询 速度 ， 索 引 可 能 存储 在 主 存 中 ， 而 且 有 多 人 台 这 样 的 机 器 ; 系统 选择 性 地 将 
查询 路 由 到 不 同 的 主机 上 以 取得 主机 间 的 负载 均衡 。 流 行 的 搜索 引擎 经 常 有 数 万 台 主 机 承担 各 种 各 样 
的 候 虫 抓 取 任 务 、 索 引 任 务 以 及 对 于 用 户 查 询 的 应 答 任 务 。 

网 页 息 虫 依赖 于 可 以 由 超 链 接 所 到 达 的 所 有 相关 页 面 。 但 是 ,许多 包含 有 大 量 数 据 的 站 点 也 许 不 
会 以 超 链接 页 面 的 形式 提供 所 有 的 数据 。 相 反 ， 这 些 站 点 提供 了 检索 接口 。 通 过 使 用 这 些 接口 ， 用 户 
可 以 输入 术语 或 者 选择 菜单 项 以 获得 检索 结果 。 例 如 ， 用 于 存储 航班 信息 的 数据 库 通常 没有 指向 包含 
航班 信息 页 面 的 超 链接 ， 而 是 以 搜索 界面 的 方式 提供 给 用 户 的 。 于 是 ， 这 类 站 点 中 的 信息 是 不 能 被 传 
统 的 网 络 朴 虫 所 访问 到 的 。 这 些 信 息 通常 被 称 为 深度 Web( deep Web) 信 息 。 

深度 Web MEH (deep Web crawler) 通过 猜测 在 检索 界面 中 输入 什么 样 的 术语 是 合理 的 ， 如 何 选择 
菜单 项 等 方式 来 抽取 这 样 的 信息 。 通 过 输入 每 一 个 可 能 的 检索 词 / 选 项 ， 并 执行 这 样 的 搜索 界面 ， 它 可 
以 抽取 到 包含 其 他 方法 无 法 得 到 的 数据 信息 的 网 页 。 例 如 Google 搜索 引擎 能 够 提供 的 搜索 结果 就 包含 
了 由 深度 Web 爬虫 所 抓 取 到 的 数据 。 
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21.8 信息 检索 : 网 页 排名 之 外 


信息 检索 系统 原本 被 设计 为 寻找 与 一 个 查询 请 求 相关 联 的 文本 文档 。 后 来 扩展 为 在 Web 上 寻找 与 
查询 相关 的 页 面 。 人 们 使 用 搜索 引擎 来 完成 各 种 任务 : 小 到 如 定位 一 个 要 用 到 的 Web 站 点 这 样 的 简单 
任务 ， 大 到 寻找 与 某 个 所 关心 的 主题 相关 的 信息 。Web 搜索 引擎 在 定位 欲 访问 的 站 点 方面 表现 已 非 党 
出 色 。 但 是 提供 所 关心 的 主题 的 相关 信息 的 任务 却 难 了 很 多 。 这 一 节 将 探讨 一 些 可 行 方法 。 

对 于 能 够 (以 有 限 的 程度 ) 理解 文 档 和 基于 这 样 (有 限 ) 的 理解 回答 问题 的 系统 的 需要 越 来 越 多 。 一 

种 方法 就 是 根据 非 结构 化 的 文档 建立 结构 化 的 信息 ， 并 基于 结构 化 信息 回答 问题 。 另 一 种 方法 应 用 自 
然 语言 技术 找到 与 某 个 问题 ( 自然 语言 短语 构成 ) 相关 的 文档 ， 并 将 文档 的 相关 段落 作为 问题 的 答案 
返回 。 

21.8.1 查询 结果 的 多 样 化 

现今 ， 搜 索引 擎 不 仅仅 能 够 返回 一 个 与 查询 相关 的 Web 页 面 排名 列表 ， 同 时 还 能 够 返回 相关 的 图 
片 及 视频 结果 。 更 进一步 ， 很 多 站 点 可 以 提供 动态 变化 的 内 容 ， 例 如 体育 竞技 比分 、 股 市 行情 。 为 了 
获得 这 些 站 点 的 当前 信息 ， 用 户 需要 首先 点 击 查询 结果 。 取 而 代 之 的 是 ， 搜 索引 擎 实现 了 能 够 从 特定 
的 域名 获取 数据 的 “控件 ”。 这 些 数据 包括 体育 竞技 比分 、 股 票 价格 以 及 天 气 状 况 等 。 这 些 控件 还 可 以 
把 获得 的 数据 以 良好 的 图 像 形 式 展 示 出 来 ， 以 此 作为 查询 结果 。 搜 索引 擎 必须 将 可 用 的 控件 依照 与 检 
索 词 的 相关 程度 进行 排名 ， 并 连同 Web 页 面 、 图 像 、 视 频 以 及 其 他 类 型 的 结果 一 起 ， 展 示 最 相关 的 控 
件 结果 。 因 此 ， 一 个 查询 结果 拥有 丰富 的 结果 类 型 。 

检索 词 常常 是 有 歧义 的 。 例 如 ， 一 个 查询 “eclipse” 可 以 用 来 指 日 食 或 月 食 ， 也 可 以 用 来 指 一 个 叫 
做 Eclipse 的 集成 开发 环境 (IDE) 。 如 果 返 回 结果 中 排名 高 的 所 有 页 面 都 是 有 关 IDE W, 那么 ， 寻 找 日 
食 和 月 食 信息 的 用 户 将 会 非常 失望 。 因 此 ， 搜 索引 擎 试图 提供 一 组 涉及 多 种 主题 的 结果 ， 从 而 尽 可 能 
避免 用 户 对 结果 很 不 满意 的 可 能 性 。 为 了 实现 这 样 的 目的 ， 搜 索引 擎 必须 消除 页 面 中 使 用 的 词语 的 歧 
义 。 例 如 ， 它 必须 能 够 确定 某 个 页 面 中 的 eclipse 指 的 是 IDE 还 是 天 文 现 象 。 这 样 ， 对 于 一 个 查询 ， 搜 
索引 警 将 试图 提供 与 该 词 的 最 普遍 含义 相关 的 结果 。 

从 Web 页 面 中 获取 的 结果 需要 归纳 成 为 查询 结果 中 的 小 片段 ( snippet) 。 在 传统 方法 中 ， 搜 索引 擎 
提供 被 检索 的 关键 字 周 围 的 一 些 词语 作为 结果 片段 以 便于 揭示 该 页 面 所 包含 的 内 容 。 不 过 ， 很 多 领域 
中 的 小 片段 可 以 通过 更 加 有 意义 的 方式 产生 。 例 如 ， 如 果 用 户 查询 饭店 ， 搜 索引 擎 可 以 生成 除了 指向 
饭店 主页 的 链接 之 外 ， 还 包含 饭店 评级 、 电 话 号 码 以 及 指向 地 图 的 链接 的 小 片段 。 这 样 的 内 容 具 体 的 
小 片段 通常 是 由 来 自 数据 库 ( 例 如 一 个 存储 饭店 信息 的 数据 库 ) 中 的 数据 所 生成 的 。 

21.8.2 ”信息 抽取 

信息 抽取 (information extraction) 系统 将 信息 从 文本 形式 转换 为 更 结构 化 的 形式 。 例 如 ， 一 则 房 地 
产 广告 可 能 会 以 文本 形式 来 描述 一 栋 房 屋 的 属性 ， 例 如 “位 于 Queens 街区 的 两 间 卧 室 和 三 间 浴 室 的 住 
宅 ，100 万 美元 "。 一 个 信息 抽取 系统 可 能 会 从 这 样 的 广告 中 抽取 出 诸如 卧室 数量 、 浴 室 数量 、 价 格 以 

及 邻居 这 样 的 属性 。 原 始 的 广告 内 容 可 能 使 用 了 多 种 词汇 ， 如 2 室 、 二 室 、 两 卧 等 来 描述 两 间 卧 室 。 
抽取 出 来 的 信息 可 以 用 于 以 标准 方式 来 构建 数据 。 从 而 ， 用 户 可 以 说 明 他 所 感 兴趣 的 是 带 有 两 间 卧 室 
的 房屋 ; 查询 系统 就 可 以 基于 结构 化 的 数据 来 返回 所 有 相关 的 房屋 ， 即 使 原始 广告 中 所 使 用 的 词汇 不 
尽 相同 。 

一 个 维护 公司 信息 的 数据 库 的 组 织 ， 可 能 会 使 用 信息 抽取 系统 从 报刊 文章 中 自动 抽取 信息 。 抽 取 
出 的 信息 会 与 感 兴趣 的 属性 的 变化 有 关 ， 诸 如 辞职 、 解 雇 或 公司 领导 间 的 会 晤 等 。 

又 如 ， 定 位 于 寻找 学 术 研 究 文章 的 搜索 引擎 ( 如 Citeseer 和 Google Scholar) 抓 取 万 维 网 中 很 可 能 是 
学 术 论 文 的 页 面 。 它 们 通过 检查 特定 的 条 件 来 确定 一 份 文档 是 不 是 一 篇 学 术 研 究 文章 。 这 些 条 件 包括 
是 否 出 现 了 “参考 文献 ”"、“ 引 用 ”以 及 “摘要 ”等 词汇 。 然 后 ， 它 们 利用 信息 抽取 技术 来 提取 标题 、 作 者 
列表 以 及 文 末 的 引文 信息 。 抽 取出 的 引用 信息 可 以 用 来 建立 文章 与 引文 以 及 文章 与 引用 本 文 的 文章 之 
间 的 链接 关系 。 这 些 引 用 链接 关系 对 学 术 研究 者 非常 有 用 。 
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已 经 建成 了 几 个 系统 用 来 对 特定 应 用 进行 信息 抽取 。 他 们 利用 的 是 语言 学 技术 ， 以 及 特定 领域 的 
用 户 定 义 规则 (比如 房地产 广告 、 学 术 出 版 物 ) 。 对 于 有 限 的 范围 ( 如 一 个 特定 的 Web 站点) ， 手 动 指定 
用 于 信息 抽取 的 匹配 模式 是 可 行 的 。 例 如 ， 在 一 个 特定 的 站 点 ， 一 个 形 如 “价格 : < 数字 > S” Hp < 
数字 > 指 任意 的 数值 ) 的 模式 可 以 用 来 匹配 价格 的 指定 位 置 。 可 以 为 有 限 数量 的 Web 站 点 手动 指定 这 
样 的 模式 。 

但 是 ， 在 如 今 包含 了 数 以 百 万 计 的 Web 站 点 的 大 规模 网 络 中 ， 手 动 生 成 这 样 多 的 模式 是 更 本 不 可 
能 的 。 机 器 学 习 技 术 可 以 从 一 组 训练 数据 中 学 习 出 这 样 的 模式 ， 因 而 广泛 应 用 于 信息 抽取 的 自动 执行 
过 程 中 。 

在 抽取 出 的 信息 的 一 小 部 分 中 往往 包含 错误 。 这 是 由 于 某 些 页 面包 含 语法 上 符合 匹配 模式 的 信息 ， 
但 是 不 真正 指定 一 个 值 (例如 价格 ) 。 使 用 简单 的 匹配 模式 的 信息 抽取 独立 地 匹配 页 面 的 一 部 分 ， 更 容 
易 产生 错误 。 机 器 学 习 技 术 能 够 基于 模式 之 间 的 交互 执行 更 加 复杂 多 变 的 分 析 任 务 ， 从 而 尽 可 能 地 减 
少 抽取 出 的 信息 中 的 错误 数量 ， 同 时 尽 可 能 地 扩大 抽取 出 的 信息 总 量 。 更 多 信息 请 参考 文献 注解 。 
21.8.3 问答 系统 

信息 检索 系统 把 问题 焦点 集中 在 针对 一 个 给 定 的 查询 找到 其 相关 的 文档 。 然 而 ， 一 个 查询 的 答案 
可 能 就 仅仅 在 文档 的 一 部 分 中 ， 或 者 是 在 好 几 份 文 档 的 各 个 小 部 分 中 。 问 答 ( question answering) 系统 试 
图 对 用 户 提 出 的 问题 提供 直接 的 答案 。 例 如 ， 像 “ 谁 杀 死 了 林肯 ? "这样 的 问题 最 好 是 能 够 用 一 行 “ 亚 伯 
AF + 林肯 于 1865 年 被 约翰 威 尔 克 斯 : 布 斯 射 杀 ” 这样 的 文字 来 回答 。 注 意 到 这 个 答案 实际 上 并 不 
包含 “ 杀 死 ”或 “ 谁 " 这 些 词 ， 但 是 系统 推断 出 “ 谁 能够 用 一 个 名 字 来 回答 ， 而 “ 杀 死 " 与 * 射 杀 ” 是 有 
关 的 。 

以 Web 中 的 信息 为 目标 的 问答 系统 通常 根据 一 个 提交 的 问题 产生 一 个 或 多 个 关键 字 查 询 ， 使 用 
Web 搜索 引擎 执行 这 些 关键 字 查询 ， 并 解析 返回 的 文档 找到 回答 这 个 问题 的 文档 段落 。 许 多 语言 学 技 
术 和 启发 式 方法 已 经 用 来 产生 关键 字 查询 ， 并 从 文档 中 找到 相关 的 段落 。 

问答 系统 中 的 一 个 难题 是 对 于 同一 个 问题 不 同 的 文档 会 给 出 不 同 的 答案 。 例 如 ， 如 果 问 题 是 :“ 长 
颈 诽 有 多 高 ?不同 的 文档 给 出 不 同 的 数字 作为 答案 。 这 些 答案 构成 了 一 个 数值 的 分 布 。 问答 系统 可 以 
选择 平均 值 或 中 间 值 来 作为 答案 返回 。 为 了 向 用 户 反映 答案 不 准确 的 情况 ， 系 统 也 许 会 一 并 返回 均值 
和 标准 差 (例如 ， 均 值 为 16 英尺 ， 标准 差 为 2 英尺 ), 或 者 一 个 基于 均值 和 标准 差 的 范围 值 (例如 ， 在 
14 ~18 英尺 之 间 )。 

当前 的 问答 系统 能 力 有 限 ， 因 为 它们 并 不 真正 理解 问题 以 及 用 来 解答 问题 的 文档 。 然 而 ， 对 于 大 
量 简单 的 问答 任务 来 说 ， 它 们 是 有 用 的 。 

21. 8.4 查询 结构 化 数据 

结构 化 数据 主要 以 关系 或 XML 形式 表示 。 多 个 系统 已 经 建成 以 支持 在 关系 数据 和 XML 数据 上 进 
行 关键 字 查询 ( 见 第 23 章 ) 。 这 些 系 统 的 共同 主题 就 在 于 找到 包含 指定 关键 字 的 结 点 (元 组 或 XML 元 
素 ) ， 并 找到 它们 之 间 的 连接 路 径 (或 是 在 XML 数据 情况 下 的 共同 祖先 ) 。 

例如 ， 在 某 个 大 学 数据 库 中 查询 “Zhang Katz” 可 能 会 找到 出 现在 student 关系 的 某 个 元 组 中 的 name 
字段 为 “Zhang”， 还 有 在 instructor 关系 的 某 个 元 组 中 的 name FRH“ Katz”, WILE advisor 关系 中 连接 
这 两 个 元 组 的 某 条 路 径 。 其 他 的 路 径 ， 例 如 学 生 “Zhang”" 修 读 一 门 由 “ Katz” 讲授 的 课程 ， 也 会 作为 该 查 
询 的 应 答 而 找到 。 当 用 户 不 知道 正确 的 模式 ， 并 且 也 不 想 费 力 去 写 一 个 SQL 查询 来 定义 她 想 要 查询 什 
么 的 时 候 ， 上 述 这 样 的 查询 就 可 以 用 来 对 数据 进行 即席 的 浏览 和 查询 。 事 实 上 ， 期 望 那些 非 专 业 用 户 
用 结构 化 查询 语言 写 出 查询 是 不 合理 的 ， 而 关键 字 查 询 就 很 自然 。 

由 于 查询 并 没有 完全 地 定义 ， 因 此 它们 可 能 会 有 许多 不 同类 型 的 答案 ， 这 些 答案 必须 是 经 过 排 
名 的 。 很 多 种 技术 已 经 提出 用 于 在 这 样 的 设 定 下 对 答案 进行 排名 。 包 括 基于 连接 路 径 长 度 的 以 及 基 
于 指定 边 的 方向 和 权 值 技术 的 。 基 于 诸如 外 键 和 IDREF 链接 的 ， 为 元 组 和 XML 元 素 指 定 流行 度 排名 
的 技术 也 已 经 提出 了 。 更 多 有 关 在 关系 数据 和 XML 数据 之 上 进行 关键 字 查询 的 信息 请 参考 文献 
注解 。 
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21.9 目录 与 分 类 


一 个 典型 的 图 书馆 用 户 可 能 会 使 用 图 书目 录 来 定位 自己 所 需 的 图 书 。 然 而 ， 当 她 从 书架 上 拿 取 图 
书 时 ， 她 很 可 能 会 浏览 位 于 附近 的 其 他 图 书 。 图 书馆 用 把 相关 的 图 书 放 在 一 起 的 方式 组 织 图 书 。 因 此 ， 
与 读者 想 要 的 书 物理 上 接近 的 书 可 能 也 是 读者 感 兴 趣 的 ， 这 样 的 安排 对 于 读者 浏览 这 些 书 是 有 意义 的 。 

为 了 将 有 关 的 书 放 在 一 起 ， 图 书馆 使 用 一 种 分 类 层次 (classification hierarchy) 。 有 关 科 学 的 书 被 分 
类 到 一 起 。 在 这 个 图 书 集合 里 进行 更 细 的 分 类 : 计算 机 科学 类 图 书 组 织 到 一 起 ， 数 学 类 图 书 组 织 在 一 
起 等 。 由 于 数学 和 计算 机 科学 有 一 定 的 联系 ， 因 此 相关 的 图 书 集合 存放 在 物理 上 彼此 邻近 的 地 方 。 在 
分 类 层次 中 的 另 一 个 级 别 上 ， 计 算 机 科学 图 书 被 分 解 为 几 个 子 领 域 ， 例 如 操作 系统 、 语 言 和 算法 。 图 
21-1 表示 了 一 个 图 书馆 可 能 使 用 的 分 类 层次 。 因 为 图 书 只 能 保存 在 一 个 地 方 ， 所 以 图 书馆 里 的 每 本 图 
书 被 分 到 分 类 层次 中 某 个 确切 的 位 置 上 。 





图 21-1 一 个 图 书馆 系统 的 分 类 层次 


在 信息 检索 系统 中 ， 不 需要 将 相关 文档 存储 在 一 起 。 然 而 ， 为 了 允许 用 户 浏 览 ， 此 类 系统 需要 有 
逻辑 地 组 织 文档 。 因 此 ， 此 类 系统 会 使 用 与 图 书馆 使 用 的 分 类 层次 类 似 的 分 类 层次 ， 而 且 ， 当 显示 一 
个 特定 文档 的 时 候 ， 也 会 显示 一 些 层次 上 相近 的 文档 的 简短 描述 。 

在 信息 检索 系统 中 ， 不 需要 将 文档 保存 到 层次 结构 中 的 单独 位 置 上 。 一 个 为 计算 机 研究 人 员 讲 述 
数学 的 文档 可 以 分 在 数学 下 面 也 可 以 分 在 计算 机 科学 下 面 。 存 储 在 每 个 位 置 上 的 是 文档 的 标识 ( 即 一 
份 文档 的 指针 ) ， 使 用 该 标识 可 以 很 容易 地 取得 该 文档 的 内 容 。 

由 于 这 种 灵活 性 ， 不 仅 可 以 把 一 份 文档 分 类 到 两 个 位 置 上 ， 而 且 分 类 层次 中 的 子 领域 本 身 也 可 以 
出 现在 两 个 领域 下 。“ 图 算法 "文档 的 类 别 可 以 出 现在 数学 下 面 也 可 以 出 现在 计算 机 科学 下 面 。 因 此 分 
类 层次 现在 变 成 了 一 个 有 向 无 环 图 ( Directed Acyclic Graph, DAG), ， 如 图 21-2 所 示 。 图 算法 的 一 份 文档 
可 能 出 现在 DAG 图 中 的 一 个 单独 的 位 置 上 ， 但 可 以 通过 不 同 的 路 径 访问 。 

一 个 目录 (directory ) 就 是 一 个 分 类 DAG 结构 。 目 录 的 每 个 叶 结 点 存储 了 与 该 叶 结 点 代表 的 主题 相 
关 的 文档 的 链接 。 内 部 结 点 也 可 能 包含 一 些 链接 ， 例 如 指向 无 法 归 类 到 任何 子 结 点 下 的 文档 的 链接 。 

为 了 找到 有 关 一 个 主题 的 信息 ， 用 户 需 要 从 目录 的 根 开 始 ， 沿 着 路 径 向 下 搜索 DAG ， 直 到 抵达 代 
表 所 需 主题 的 一 个 结 点 为 止 。 在 向 下 浏览 目录 时 ， 用 户 不 仅 可 以 找到 他 感 兴趣 的 主题 方面 的 文档 ， 而 
且 还 可 以 找到 分 类 层次 中 的 相关 文档 和 相关 分 类 。 用 户 通过 在 相关 分 类 中 浏览 文档 (或 子 类 ) 可 以 了 解 
一 些 新 信息 。 

将 Web 中 的 大 量 可 用 信息 组 织 成 一 个 目录 结构 是 一 项 严峻 的 任务 。 

。 第 一 个 问题 是 精确 确定 目录 层次 结构 。 
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。 第 二 个 问题 是 ， 给 定 一 份 文档 ， 决 定 哪个 目录 结 点 是 与 该 文档 相关 的 分 类 。 





图 21-2 一 个 图 书馆 信息 检索 系统 的 分 类 DAG 


为 了 处 理 第 一 个 问题 ， 像 Yahoo! 这 样 的 门户 网 站 有 “Intermet 图 书 管理 员 " 组 ,负责 提出 分 类 层次 
并 对 它 持 续 地 修正 。 

第 二 个 问题 也 可 以 通过 图 书馆 管理 员 手 工地 解决 ， 或 者 由 Web 站 点 维护 人 员 负 责 决 定 他 们 的 站 点 
应 该 处 于 目录 层次 中 的 什么 位 置 。 也 有 一 些 基于 计算 文档 与 已 经 分 类 的 文档 的 相似 性 来 自动 确定 该 文 
档 的 位 置 的 技术 。 

维基 百科 ( wikipedia) 是 一 部 在 线 的 百科 全 书 。 它 从 相反 的 方向 解决 分 类 问题 。 维 基 百 科 中 的 每 个 
页 面 都 包含 一 个 所 属 类 别 ( category) 的 列表 。 例 如 ， 就 2009 年 所 见 ， 维 基 百 科 上 关于 长 颈 鹿 的 页 面 的 
一 个 所 属 类 别 是 “非洲 哺乳 动物 ”。 而 “非洲 哺乳 动物 ”本身 又 包含 于 “ 按 地 理 划 分 哺乳 动物 "类 别 中 ,后 
者 又 包含 于 属于 “ 淮 椎 动物 ”的 “哺乳 动物 "类别 中 ,以 此 类 推 。 类 别 结构 对 于 浏览 同一 类 别 中 的 其 他 实 
例 是 很 有 用 的 。 例 如 ， 查 找 其 他 的 非洲 哺乳 动物 或 者 其 他 的 哺乳 动物 。 相 反 地 ， 一 个 查找 哺乳 动物 的 
查询 可 以 使 用 这 种 类 别 信息 来 推断 出 长 颈 鹿 是 一 种 哺乳 动物 。 维 基 百 科 的 类 别 结构 不 是 树 状 的 ， 而 几 
PE DAG 形式 的 。 事 实 上 ， 它 也 不 是 一 个 DAG， 因 为 其 中 存在 一 些 循 环 结 构 ， 这 很 可 能 反映 了 分 
类 错误 。 


21.10 ”总 结 


。 信息 检索 系统 用 于 存储 和 查询 如 文档 那样 的 文本 数据 。 与 数据 库 系 统 相 比 ， 它 们 使 用 更 简单 的 数据 
模型 ， 但 能 在 受 限 的 模型 里 提供 更 强大 的 查询 能 力 。 

。 查询 试图 通过 指定 关键 字 集合 来 定位 用 户 感 兴趣 的 文档 。 用 户 心里 所 想 的 查询 往往 不 能 精确 地 表述 ， 

因此 ， 信 息 检 索 系 统 基 于 潜在 的 相关 性 对 答案 排名 。 

相关 性 排名 利用 多 种 类 型 的 信息 ， 诸 如 : 

口 术语 频率 : 每 个 术语 对 每 份 文档 的 重要 性 。 

O 逆 文 档 频 率 。 

口 流行 度 排名 。 

文档 相似 性 用 于 检索 与 一 个 示例 文档 相似 的 文档 。 余 强度 量 值 用 于 定义 相似 度 ， 它 基于 向 量 空间 

模型 。 

PageRank 和 链接 中 心 /权威 页 排名 是 基于 指向 页 面 的 链接 对 页 面 威望 度 赋值 的 两 种 方法 。PageRank 

度量 可 以 用 随机 游 走 模型 来 直观 地 理解 。 锚 文本 信息 也 可 以 用 来 计算 单个 关键 字 意 义 上 的 流行 度 。 

信息 检索 系统 需要 整合 多 种 因素 (包括 TF-IDF 和 PageRank ) 来 获得 对 页 面 的 全 局 评分 。 

。 搜索 引擎 作弊 试 图 使 一 个 页 面 得 到 高 的 (但 不 是 应 得 的 ) 排 名 。 
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同义词 和 多 义 词 使 信息 检索 的 任务 复杂 化 。 基 于 概念 的 查询 旨 在 找到 含有 指定 概念 的 文档 ， 而 与 指 


定 该 概念 所 使 用 的 确切 的 词 (以 及 语言 ) 无 关 。 本 体 利用 诸如 is-a 或 part-of 这 样 的 关系 将 概念 联系 


起 来 。 


倒 排 索引 用 来 对 关键 字 查 询 做 出 应 答 。 
查 准 率 和 查 全 率 是 信息 检索 系统 有 效 性 的 两 种 度量 。 


© Web 搜索 引擎 使 用 息 虫 搜索 Web 找到 网 页 ， 然 后 分 析 它 们 以 计算 其 威望 度 度量 ， 并 为 它们 建立 


索引 。 


并 对 用 户 使 用 自然 语 


术语 回顾 


。 信息 检索 系统 

。 关键 字 搜 索 

。 全 文 检索 

。 术语 

© 相关 度 排名 

口 术语 频率 

口 道 文档 频率 

口 相关 度 

接近 度 

。 基于 相似 性 的 检索 
口 向 量 空间 模型 
O 余弦 相似 度 度量 
口 相关 反馈 

e 停 用 词 




















。 使 用 超 链 接 的 相关 度 


实践 习题 


口 流行 度 / 威 望 度 

O 威望 度 传递 
PageRank 

口 随机 游 走 模型 
基于 锚 文本 的 相关 度 
链接 中 心 /权威 页 排名 
RRI EEN 
同义词 

多 义 词 

概念 

基于 概念 的 查询 
本 体 

语义 网 络 

倒 排 索引 





已 经 开发 出 了 相关 技术 能 够 从 文本 数据 中 抽取 出 结构 化 信息 ， 在 结构 化 数据 之 上 进行 关键 字 查询 ， 
言 提出 的 简单 问题 给 出 直接 的 答案 。 
目录 结构 和 分 类 用 来 将 文档 与 其 他 相似 文档 归 类 到 一 起 。 


REF 

REF 

误 选 中 

查 准 率 

查 全 率 

peel 245 

深度 Web 

查询 结果 多 样 化 
信息 抽取 

问答 系统 

查询 结构 化 数据 
目录 

分 类 层次 

类 别 


21.1 计算 本 章 的 每 个 实践 习题 与 查询 “SQL 关系 "之 间 的 相关 度 (使 用 术语 频率 和 逆 文 档 频率 的 定义 ) 。 

21.2 假设 你 想 要 查找 至 少 包含 给 定 的 个 关键 字 中 的 大 个 的 文档 。 再 假设 你 有 一 个 关键 字 索 引 ， 它 给 你 提 
供 了 包含 某 个 特定 关键 字 的 文档 标识 的 (有 序 ) 列 表 。 给 出 一 个 高 效 算法 找 出 所 需 的 文档 集 。 

21.3 假定 了 矩阵 (即使 采用 邻接 表 表 示 ) 无 法 放 人 主 在 中， 怎样 实现 计算 PageRank 的 迭代 技术 呢 ? 

21.4 一 个 包含 某 个 词 ( 比 如 "leopard"( 美 洲 豹 ) ) 的 文档 该 怎样 索引 ， 使 得 使 用 更 泛 化 的 概念 (诸如 
“carnivore” (食肉 动物 ) 或 “mammal” (哺乳 动物 ) ) 的 查询 才能 够 高 效 地 检索 到 该 文档 ”你 可 以 假设 这 
个 概念 分 层 并 不 是 很 深 ， 因 此 每 个 概念 只 有 少数 几 个 泛 化 (然而 ， 一 个 概念 通常 可 以 有 许多 特 化 ) 。 
你 也 可 以 假定 已 经 提供 给 你 了 一 个 函数 ， 可 以 对 于 一 份 文档 中 的 每 个 词 返回 其 概念 。 另 外 ， 一 个 使 用 
特 化 概念 的 查询 怎样 才能 检索 到 使 用 泛 化 概念 的 文档 ? 

21.5 假设 倒 排 表 是 在 块 中 维护 的 ， 每 个 块 记录 了 表 中 余下 的 块 中 文档 的 最 高 的 流行 度 排 名 以 及 TF-IDF 得 
分 。 如 果 用 户 仅仅 只 想 要 排名 最 高 的 天 个 答案 ， 怎 样 做 才能 使 得 倒 排 表 的 合并 过 程 早 些 停止 ? 


21.6 简单 地 将 术语 频率 定义 为 一 份 文档 中 该 术语 出 现 的 次 数 ， 请 给 出 由 本 习题 以 及 下 一 道 习 题 组 成 的 文档 
集合 中 每 一 个 术语 的 TF-IDF 得 分 。 
21.7 举 个 小 例子 ， 要 包括 4 个 具有 PageRank 的 小 文档 ， 并 对 这 些 用 PageRank 排名 的 文档 创建 倒 排 表 。 你 


不 必 计 算 PageRank ， 只 需要 假设 对 于 每 个 页 面 都 有 某 些 值 即 可 。 
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21.8 假设 你 想 要 在 数据 库 的 一 个 元 组 集合 之 上 进行 关键 字 查询 ， 其 中 每 个 元 组 只 有 几 个 属性 ， 每 个 属性 只 
含有 几 个 词 。 在 这 样 的 上 下 文中 ,术语 频率 的 概念 行 得 通 吗 ? 道 文档 频率 的 概念 呢 ? 请 解释 你 的 答 
案 。 也 请 考虑 一 下 怎样 使 用 TF-IDF 概念 来 定义 两 个 元 组 的 相似 性 ? 

21.9 希望 做 些 宣传 和 推广 的 Web 站 点 可 以 加 入 一 个 Web 圈子 中 ， 它 们 建立 指向 圈 中 其 他 站 点 的 链接 ， 以 
换取 圈 中 其 他 的 站 点 建立 指向 它们 的 链接 。 请 问 : 类 似 这 样 的 圈子 对 于 诸如 PageRank 这 样 的 流行 度 
排名 技术 有 什么 影响 ? 

21.10 Google 搜索 引擎 提供 了 一 个 特性 ， 就 是 Web 站 点 能 够 显示 由 Google 提供 的 广告 。 这 些 提 供 的 广告 是 
基于 页 面 内 容 的 。 请 问 : 给 定 页 面 的 内 容 ，Google 可 能 会 怎样 为 一 个 页 面 挑选 该 提供 哪些 广告 呢 ? 

21.11 一 种 创建 PageRank 的 特定 关键 字 版 本 的 方法 是 修改 随机 跳 转 ， 从 而 使 得 跳 转 只 可 能 跳 转 到 含有 关键 
字 的 页 面 。 这 样 ， 那 些 不 含 关 键 字 ， 但 离 含 有 关键 字 的 页 面 很 近 ( 用 链接 来 度量 ) 的 页 面 也 会 得 到 对 
应 那个 关键 字 的 非 零 排名 值 。 

a. 给 出 定义 这 样 一 个 特定 关键 字 版 本 的 PageRank 的 公式 。 
b. 给 出 计算 一 个 页 面 与 含有 多 个 关键 字 的 查询 之 间 的 相关 度 的 公式 。 

21.12 可 以 利用 外 键 以 及 IDREF 边 取 代 超 链接 ， 从 而 将 使 用 超 链 接 进 行 流行 度 排 名 的 想法 扩展 到 关系 数据 
和 XML 数据 上 。 请 问 : 这 样 的 排名 模式 怎样 才能 够 在 下 述 应 用 中 有 价值 ? 

a. 一 个 文献 目录 数据 库 ， 其 中 含有 从 文章 到 文章 作者 的 链接 以 及 从 每 篇 文章 到 其 引用 的 每 篇 文章 的 
链接 。 
b. 一 个 销售 数据 库 ， 其 中 含有 从 每 条 销售 记录 到 销售 出 去 的 物品 的 链接 。 
还 请 回答 : 为 什么 在 一 个 记录 了 哪个 演员 出 演 了 哪些 影片 的 电影 数据 库 中 ， 威 望 度 排 名 只 能 给 
出 几乎 没有 意义 的 结果 ? 

21. 13” 误 选中 和 误 舍 弃 有 何不 同 ? 如 果 一 个 信息 检索 查询 不 允许 遗漏 任何 相关 信息 ， 含 有 误 选 中 或 误 丢 弃 

是 可 接受 的 吗 ? 为 什么 ? 


工具 


Google( www. google. com) 是 目前 最 流行 的 搜索 引擎 ,但 还 有 许多 其 他 的 搜索 引擎 ， 诸 如 Microsoft Bing 
(www. bing. com) 和 Yahoo! 搜索 ( search. yahoo. com) 。 站 点 searchenginewatch. com 提供 了 有 关 搜 索引 警 的 各 
种 信息 。Yahoo! (dir. yahoo. com) 和 开放 目录 项 目 ( dmoz. org) 提供 了 Web 站 点 的 分 类 层次 。 


文献 注解 


Manning 等 [2008 ] 、Chakrabarti[ 2002] 、Grossman 和 Frieder[ 2004 ] , Witten 等 [ 1999], ， 以 及 Baeza-Yates 
和 Ribeiro-Neto[ 1999 ] 提供 了 描述 信息 检索 的 教科 书 。 特 别 是 ，Chakrabarti[ 2002 ] 和 Manning 等 [ 2008 | 详细 
覆盖 了 网 络 疏 虫 、 排 名 技术 以 及 其 他 有 关 信 息 检索 的 挖掘 技术 ( 如 文本 分 类 和 聚 类 ) 。 

Brin 和 Page[ 1998 ] 剖 析 了 包括 PageRank 技术 在 内 的 Google 搜索 引擎 MERA HITS 的 基于 链接 中 心 和 
权威 页 的 排名 技术 由 Kleinberg[ 1999 ] HR. Bharat 和 Henzinger[ 1998 ] 阐述 了 对 HITS 排名 技术 的 改进 。 这 些 
技术 以 及 其 他 基于 流行 度 的 排名 技术 ( 和 用 来 避免 搜索 引擎 作弊 的 技术 ) 在 Chakrabarti [ 2002 ] 中 有 详细 阐述 ， 
Chakrabarti 等 [ 1999 ] 说 明了 针对 Web 焦点 的 爬虫 搜索 ， 用 来 找 出 与 某 个 特定 主题 有 关 的 页 面 。Chakrabarti 
[1999 ] 提供 了 一 个 关于 Web 资源 发 现 的 综述 。 

Witten 等 [1999 ] 详 细 介绍 了 文档 索引 。JjJones 和 Willet[ 1997 | 是 一 本 信息 检索 方面 的 论文 选集 。Salton 
[1989] 是 一 本 有 关 信 息 检索 系统 的 早期 教科 书 。Brin 和 Page[ 1998 ] 讨 论 了 在 页 面 的 排名 和 索引 中 存在 的 许 
多 现实 问题 ( 比如 Google 搜索 引擎 的 早期 版 本 中 的 解决 方法 ) 。 遗 憾 的 是 ， 当 今 领先 的 搜索 引擎 并 没有 公开 
它们 进行 页 面 排名 的 方法 细节 。 

Citeseer 系统 ( citeseer ist. psu. edu) 维护 了 一 个 关于 出 版 物 (文章 ) 的 非常 大 的 数据 库 ， 以 及 出 版 物 之 间 
的 引用 链接 ， 并 使 用 引用 来 对 出 版 物 排名 。 它 包括 一 个 用 来 基于 出 版 物 的 年 份 调整 引用 排名 的 技术 ， 作 为 
对 随 着 时 间 的 流逝 ， 一 个 出 版 物 的 引用 自然 会 增加 这 个 事实 的 补偿 。 如 果 不 进行 调整 ， 更 古老 的 文档 会 得 
到 一 个 比 它们 真正 应 得 的 排名 更 高 的 排名 。Google Scholar( scholar. google. com) 提供 了 一 个 包含 引用 关系 类 
似 的 可 检索 的 学 术 论 文 数据 库 。 值 得 注意 的 是 ， 这 些 系 统 利 用 信息 抽取 技术 来 推断 标题 、 作 者 列表 以 及 文 
末 的 引文 信息 。 然 后 ， 它 们 通过 ( 近似 ) 匹配 文章 标题 以 及 作者 列表 来 创建 论文 之 间 的 引用 链接 。 
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信息 抽取 和 问答 系统 在 人 工 智能 领域 已 经 有 相当 长 的 一 段 历史 了 。Jackson 和 Moulinier[ 2002 ] 提供 了 教 
科 书 式 的 涵盖 了 自然 语言 处 理 技 术 的 描述 ， 并 强调 了 信息 抽取 。Soderland[ 1999] 讲述 了 使 用 WHISK 系统 进 
行 信息 抽取 ， 同 时 ，Appelt 和 Israel[ 1999 ] 提供 了 一 个 关于 信息 抽取 的 教程 。 
文本 检索 年 会 (TREC) 有 很 多 专题 。 每 个 专题 定义 了 一 个 问题 和 一 个 基础 框架 ， 用 来 测试 问题 的 解决 方 
案 的 质量 。TREC 的 详细 信息 可 以 在 trec. nist. gov 上 找到 。 有 关 WordNet 的 更 多 信息 可 以 在 
wordnet. princeton. edu 和 globalwordnet. org 上 找到 。Cye 系统 的 目标 是 提供 对 于 大 量 的 人 类 知识 的 正式 表达 。 
它 的 知识 库 包 含 大 量 术语 和 关于 每 个 术语 的 断言 。Cyc 也 包括 对 于 自然 语言 的 理解 和 歧义 消解 的 支持 。 有 关 
Cyc 系统 的 信息 可 以 在 cyc. com 和 opencyc. org 上 找到 。 
Dalvi 等 [2009 ] 讨 论 了 网 页 检索 向 概念 和 语义 而 非 关键 字 演 进 的 观点 。 国 际 语义 网 络 年 会 (ISWC) 是 一 个 
展示 语义 网 络 方面 的 新 进展 的 重要 会 议 。 详 见 semanticweb. org。 
941 Agrawal 等 [2002 ] Bhalotia 等 [2002 ] 以 及 Hristidis 和 Papakonstantinou[ 2002 ] 涵盖 了 关系 数据 的 关键 字 
ais 查询 。XML 数据 的 关键 字 查询 在 Florescu 等 [2000] 和 Guo 等 [2003 ] 以 及 其 他 文献 中 有 所 阐释 。 


| 第 七 部 分 


Part 7 


特种 数据 库 





数据 库 系统 在 几 个 应 用 领域 由 于 关系 数据 模型 局 限 而 受到 限制 。 其 结果 是 ， 研 究 人 员 基 
于 面向 对 象 的 方法 开发 了 几 个 数据 模型 ， 来 处 理 这 些 应 用 领域 的 问题 。 

对 象 -关系 模型 在 第 22 章 中 描述 ， 它 结合 了 关系 模型 和 面向 对 象 模型 的 特性 。 这 一 模型 
提供 了 面向 对 象 语言 的 丰富 的 类 型 系统 ， 并 与 关系 相 结 合作 为 数据 存储 的 基础 。 它 将 继承 不 
仅 应 用 于 类 型 而且 应 用 于 关系 。 对 象 -关系 数据 模型 提供 了 从 关系 数据 库 平滑 迁移 的 路 径 ， 

这 对 关系 数据 库 厂商 很 有 吸引 力 。 其 结果 是 ， 从 SQL: 1999 开始 ，SQL 标准 都 在 其 类 型 系统 
中 包括 了 若干 面向 对 象 特性 ， 同 时 继续 采用 关系 模型 作为 基础 的 模型 。 

术语 面向 对 象 数 据 库 用 来 描述 这 样 的 数据 库 系统 ， 它 支持 来 自 面向 对 象 程序 设计 语言 的 
对 数据 的 直接 存 取 ， 而 无 须 关 系 查询 语言 作为 数据 库 界 面 。 第 22 章 中 也 提供 了 对 面向 对 象 数 
据 库 的 简单 介绍 。 

XML 语言 最 初 设计 为 给 正文 文档 添加 标注 信息 的 一 种 途径 ， 但 是 由 于 它 在 数据 交换 中 的 
应 用 ,现在 已 经 变 得 非常 重要 。XML 提供 对 于 具有 府 套 结构 的 数据 的 一 种 表示 方法 ， 而且 它 
允许 在 数据 构造 上 的 很 大 的 灵活 性 ， 这 对 于 某 些 种 类 的 非 传统 数据 是 很 重要 的 。 第 23 EM [943] 
XML 语言 ， 然 后 给 出 对 XML 表示 的 数据 表达 查询 的 不 同方 法 ， 包 括 XQuery XML 查询 语言 和 |944 
SQL 的 扩展 SQLZXML， 它 允许 创建 谈 套 的 XML 输出 。 





945 
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基于 对 象 的 数据 库 





传统 的 数据 库 应 用 由 数据 处 理 任务 组 成 ， 例 如 银行 业务 和 工资 管理 。 这 些 领 域 只 有 相对 简单 的 
数据 类 型 ， 非 常 适合 于 关系 模型 。 当 数据 库 系 统 应 用 到 更 加 广阔 的 应 用 领域 ， 如 电脑 辅助 设计 和 地 
理 信息 系统 时 ， 关 系 模型 带 来 的 局 限 就 暴露 出 来 ， 成 为 了 一 个 障碍 。 解 决 的 方法 是 引入 允许 处 理 复 
杂 数 据 类 型 的 基于 对 象 的 数据 库 . 


22.1 概述 


程序 员 在 使 用 关系 数据 模型 时 要 面 对 的 第 一 个 障碍 是 关系 模型 支持 的 有 限 的 类 型 系统 。 复 杂 应 
用 领域 需要 相应 的 复杂 数据 类 型 ， 如 髓 套 的 记录 结构 、 多 值 属性 和 继承 ,它们 为 传统 程序 设计 语言 
所 支持 。 这 些 特性 事实 上 都 为 E-R 和 扩展 E-R 概念 所 支持 ,但 必须 被 转化 成 较为 简单 的 SQL 数据 类 
型 。 对 象 -关系 数据 模型 (object-relational data model) 通过 提供 更 加 丰富 的 类 型 系统 扩展 了 关系 数据 
模型 ， 它 包括 了 复杂 数据 类 型 和 面向 对 象 。 关 系 查 询 语言 ， 特 别 是 SQL， 需 要 相应 的 扩展 以 处 理 更 
丰富 的 类 型 系统 。 这 种 扩展 试图 在 扩展 建 模 能 力 的 同时 保持 关系 的 基础 ， 特 别 是 对 数据 的 声明 式 访 
问 。 对 象 -关系 数据 库 系统 ( object-relational database system) ， 也 就 是 基于 对 象 - 关系 模型 的 数据 库 
系统 ， 为 想 要 使 用 面向 对 象 特性 的 关系 数据 库 用户 提 供 了 一 个 方便 的 移植 途径 。 

第 二 个 障碍 在 于 ， 很 难 通 过 用 C++ 或 Java 等 程序 设计 语言 编写 的 程序 访问 数据 库 中 的 数据 。 仅 
仅 扩展 数据 库 支 持 的 类 型 系统 不 足以 彻底 解决 这 个 问题 。 数 据 库 的 类 型 系统 和 程序 设计 语言 的 类 型 
系统 之 间 的 差别 使 得 数据 的 存储 和 获取 更 加 复杂 ， 因 而 需要 最 小 化 这 种 差别 。 只 能 使 用 一 种 不 同 于 
程序 设计 语言 的 语言 (如 SQL) 来 表达 数据 库 访 问 也 使 得 程序 员 的 工作 更 加 艰难 。 很 多 应 用 都 需要 人 允 
许 直接 访问 数据 库 中 数据 的 程序 设计 语言 结构 或 扩展 ， 而 非 通过 一 个 中 间 语 言 例 如 SQL 来 访问 。 

在 本 章 中 ,我 们 首先 解释 发 展 复杂 数据 类 型 的 动机 。 然 后 我 们 研究 对 象 - 关系 数据 库 系 统 ， 特 
别 是 用 SQL: 1999 和 SQL: 2003 引入 的 新 特性 。 注 意 ， 大 多 数 数据 库 产品 只 支持 这 里 描述 的 SQL 特 
性 的 一 个 子 集 ， 而 且 对 于 所 支持 的 特性 而 言 ， 其 语法 也 与 标准 稍 有 不 同 。 这 是 由 于 标准 成 文 之 前 ， 
商业 数据 库 系 统 就 开始 向 市 场 引入 对 象 -关系 特性 所 造成 的 ,需要 查阅 所 使 用 的 数据 库 系统 的 用 户 
手册 以 发 现 它 支持 哪些 特性 。 

接着 ， 我 们 说 明 对 于 面向 对 象 程序 设计 语言 的 本 地 类 型 系统 中 的 数据 的 持久 化 的 支持 问题 。 实 
践 中 使 用 了 两 种 方法 : 

1. 建立 面向 对 象 的 数据 库 系 统 (object-oriented database system) ， 即 一 个 以 本 地 方式 支持 面向 对 象 
类 型 系统 ， 而 且 人 允许 面向 对 象 编程 语言 使 用 本 地 语言 的 类 型 系统 直接 访问 数据 的 数据 库 系统 。 

2. 自动 地 将 以 编程 语言 的 本 地 类 型 表示 的 数据 转换 为 关系 数据 库 的 表示 形式 ， 反 之 亦 然 。 数 据 
转换 由 对 象 - 关系 映射 (object-relational mapping) 来 说 明 。 

我 们 将 对 这 两 种 方法 做 简要 介绍 。 

最 后 ， 我 们 概述 哪些 情况 下 使 用 对 象 - 关系 方法 更 好 ， 哪 些 情 况 下 使 用 面向 对 象 方法 更 好 ， 并 
介绍 在 两 者 之 间 进 行 选择 的 标准 。 


22.2 复杂 数据 类 型 
传统 的 数据 库 应 用 在 概念 上 只 有 简单 数据 类 型 。 基 本 数据 项 是 相当 小 的 记录 ， 且 记录 的 域 是 原 
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子 的 ， 即 它们 没有 被 进一步 结构 化 ， 并 且 第 一 范式 成 立 ( 见 第 8 章 )。 而 且 只 有 少数 几 种 记录 类 型 。 

最 近 几 年 ， 对 处 理 更 加 复杂 的 数据 类 型 的 方法 的 需求 逐渐 增多 。 例 如 ， 考 虑 地 址 信息 。 虽 然 一 
个 完整 的 地 址 可 以 看 成 一 个 字符 串 类 型 的 原子 数据 项 ， 但 这 种 方式 可 能 隐藏 了 详细 信息 ， 比 如 街道 
地 址 、 城 市 、 州 和 邮编 ， 这 些 也 可 能 是 查询 所 感 兴趣 的 内 容 。 另 一 方面 ， 如 果 一 个 地 址 被 分 解 成 几 
个 部 分 (街道 地 址 、 城 市 、 州 和 邮编 ) 来 表示 ， 书 写 查询 将 更 为 复杂 ， 因 为 要 提 及 每 一 个 域 。 一 个 更 
好 的 可 选择 的 方法 是 允许 结构 化 数据 类 型 ， 即 允许 address 类 型 包含 子 部 分 street_address, city, state 
和 postal_code , 

作为 另 一 个 例子 ， 考 虑 E-R 模型 中 的 多 值 属 性 。 这 样 的 属性 很 自然 ， 例 如 电话 号 码 的 表示 ， 因 


为 一 个 人 可 能 有 多 个 电话 。 对 于 这 个 例子 ， 作 为 可 选 方 法 ， 通 过 创建 一 个 新 的 关系 来 达到 规范 化 的 [946 


目的 是 昂贵 且 不 自然 的 。 
利用 复杂 的 类 型 系统 ， 我 们 可 以 直接 地 表示 E-R 模型 中 诸如 复合 属性 、 多 值 属性 、 一 般 化 和 特 
殊 化 等 概念 ， 而 不 需要 翻译 转换 到 关系 模型 的 复杂 过 程 。 
在 第 8 章 中 ,我 们 定义 了 第 一 范式 (1NF) ， 它 要 求 所 有 的 属性 具有 原子 的 域 。 回 忆 一 下 ， 如 果 
域 的 元 素 被 认为 是 不 可 分 的 单元 ， 那 么 这 个 域 是 原子 的 。 
INF 假设 对 于 我 们 考虑 的 数据 库 应 用 的 例子 是 合理 的 。 但 是 并 非 所 有 应 用 都 可 以 用 1NF 关系 很 
好 地 建 模 。 例 如 ， 某 些 应 用 的 用 户 将 数据 库 看 成 是 对 象 (或 实体 ) 的 集合 而 不 是 记录 的 集合 。 这 些 对 
象 可 能 需要 若干 条 记录 来 描述 。 一 个 简单 易 用 的 接口 需要 用 户 对 对 象 的 直观 理解 和 数据 库 系 统 中 数 
据 项 的 概念 之 间 的 一 一 对 应 。 
例如 ， 考 虑 一 个 图 书馆 应 用 ， 假 设 我 们 希望 对 每 本 书 存储 如 下 信息 : 
. pZ. 
。 作者 列表 。 
。 出 版 商 。 
。 关键 字 集 合 。 
可 以 看 出 ， 如 果 我 们 对 上 述 信息 定义 一 个 关系 ， 很 多 域 都 是 非 原子 的 。 
。 作者 。 一 本 书 可 能 有 很 多 作者 ， 我 们 可 以 用 一 个 数组 来 表示 。 但 是 ,我 们 可 能 需要 查找 所 有 
Jones 为 作者 之 一 的 书 。 因 此 ,我们 所 感 兴趣 的 是 域 元 素 “ 作 者 "的 一 个 子 部 分 
。 关键 字 。 如 果 我 们 为 一 本 书 存 储 一 个 关键 字 集 合 ， 我 们 希望 可 以 获取 所 有 包含 某 个 或 某 几 个 
指定 关键 字 的 书 。 因 此 ， 我 们 将 关键 字 集 合 这 个 域 看 做 是 非 原子 的 。 
。 出 版 商 。 不 同 于 关键 字 和 作者 ， 出 版 商 并 没有 一 个 以 集合 为 值 的 域 , 但 是 我 们 可 以 将 出 版 商 
视 为 由 名 称 和 部 门 两 个 子 域 组 成 的 。 这 种 观念 使 得 出 版 商 域 成 为 非 原子 的 。 
图 22-1 展示 了 一 个 示例 关系 一 一 books。 














{parsing, analysis} 


Networks | [Jones, Frick] (Oxford, London) {Internet, Web} 








books 





图 22-1 非 INF 的 书籍 关系 


为 了 简单 起 见 ， 我 们 假设 书 名 唯一 标识 了 一 本 书 。° 那 么 我 们 就 可 以 用 下 面 的 模式 来 表达 同样 
的 信息 ， 主 键 属性 用 下 划 线 标记 : 

è authors (title, author, position) 

© keywords (title, keyword) 

© books4 (title, pub_name, pub_branch) 

以 上 的 模式 满足 4NF。 图 22-2 给 出 了 图 22-1 中 数据 的 规范 化 表示 。 

尽管 不 用 舱 套 关系 也 足以 充分 表达 我 们 的 示例 书籍 数据 库 ， 但 是 使 用 赃 套 关系 可 以 产生 一 个 更 





O ”这 个 假设 在 现实 世界 中 并 不 成 立 。 图 书 一 般 通 过 唯一 标识 每 本 出 版 物 的 10 位 ISBN 码 进行 识别 。 
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易于 理解 的 模型 。 一 个 信息 检索 系统 的 典型 用 户 或 程序 员 根 据 具 有 作者 信息 的 书 将 该 数据 库 看 作 一 
个 非 UNF 的 设计 模型 。4NF 设计 需要 在 查询 时 连接 多 个 关系 ， 而 非 1NF 设计 则 使 得 很 多 类 型 的 查询 
更 容易 。 









































与 此 相反 ， 在 一 些 其 他 情况 下 使 用 第 一 范式 形式 来 表达 可 能 ane TAOFT posin) 
会 更 好 。 例 如 ， 考 虑 我 们 大 学 例子 中 的 takes 关系 。 这 个 关系 是 Compilers |Smith| 1 
student 和 section 之 间 的 多 对 多 关系 。 我 们 当然 可 以 为 每 个 学 生存 | Compilers | somes | 1 
储 一 组 课程 段 ， 或 者 为 每 个 课程 段 存 储 一 组 学 生 ， 或 者 二 者 都 存 Networks | Frick | 2 | 
储 。 如 果 两 个 都 存储 ， 将 会 出 现 数据 宛 余 ( 某 个 特定 学 生 和 某 个 spats 
特定 课程 段 之 间 的 关系 将 会 被 存储 两 次 ) 。 -m ord 

使 用 如 集合 、 数 组 的 复杂 数据 类 型 的 能 力 在 很 多 应 用 里 是 有 Compilers | análynis 
用 的 ， 但 必须 小 心 使 用 。 ee re 
22.3 SQL 中 的 结构 类 型 和 继承 ee 

title pub_name ub_branch 





在 SQL: 1999 之 前 ，SQL 的 类 型 系统 由 一 个 很 简单 的 预定 义 Compilers | McGraw-Hill g York 
dadini. ors 1999 25 SOLMINT th eae, [Neos | Oxford London 


i books4 
允许 结构 类 型 和 类 型 继承 。 22-2 books 关系 的 4NF 版 本 
22.3.1 结构 类 型 


结构 类 型 允许 直接 表示 E-R 设计 中 的 复合 属性 。 例 如 ， 我们 可 以 定义 如 下 结构 类 型 以 表示 一 个 
由 成 分 属性 firstname 和 lastname 构成 的 复合 属性 name: 


create type Name as 
(firstname varchar (20) , 
lastname varchar (20) ) 
final 3 


类 似 地 ， 下 面 的 结构 类 型 可 以 用 于 表示 一 个 复合 属性 address: 
create type Address as 
(street varchar( 20) , 
city varchar ( 20) 
zipcode varchar (9 ) ) 
not final; 
这 种 类 型 在 SQL 中 被 称 作用 户 定义 (user-defined ) 类 型 >。 上 面 的 定义 对 应 图 74 中 的 E-R 图 。 语 句 中 
指明 的 final 和 not final 与 子 类 型 定义 相关 ， 我 们 稍 后 将 在 22. 3. 2 WHER. © 
我 们 现在 可 以 使 用 这 些 类 型 在 关系 里 创建 复合 属性 ， 只 需 简 单 地 声明 一 个 属性 为 这 样 一 种 类 型 。 
例如 ， 我 们 可 以 创建 如 下 的 一 个 person 表 : 


create table person( 
name Name, 
address Address , 
dateOfBirth date) ; 


复合 属性 的 成 分 可 以 通过 “点 "记号 来 访问 ; 例如 name. firstname 返回 姓名 属性 的 “名 "成 分 。 对 
属性 name 的 访问 将 会 返回 一 个 结构 类 型 Name 的 值 。 

我 们 也 可 以 创建 一 个 表 ， 表 的 行 是 用 户 定义 的 类 型 。 例 如 ， 我 们 可 以 定义 一 个 PersonType 类 型 ， 
949 并 创建 一 个 person KWF S: 











昌 为 了 解释 我 们 早先 关于 在 标准 推出 之 前 商业 数据 库 系统 定义 语法 的 方法 的 注释 ， 我 们 指出 ，Oracle 要 求 在 as 
之 后 应 当 有 关键 字 object。 

© 对 Naome 注 明 final 表示 我 们 不 能 为 name 创建 子 类 型 ， 而 对 Address 注 明 not final 表示 我 们 可 以 为 address 创建 子 
类 型 。 

© 事实 上 ,在 大 多 数 系统 中 ， 对 大 小 写 不 敏感 ， 将 不 允许 name 被 同时 用 作 属 性 名 和 数据 类 型 。 
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create type PersonType as ( 
name Name, 
address Address , 
dateOfBirth date ) 
not final 
create table person of PersonType; 


在 SQL 中 定义 复合 属性 的 一 种 可 选 方法 是 使 用 无 名 称 的 行 类 型 (row type) 。 例 如 ， 表 示人 的 信息 
的 关系 可 以 使 用 如 下 的 行 类 型 进行 创建 : j 


create table person_r ( 
name row ( firstname varchar (20) , 
lastname varchar( 20) ), 
address row ( street varchar (20) , 
city varchar (20) , 
zipcode varchar(9) ) , 
dateOfBirth date) ; 


这 个 定义 与 前 面 的 表 定 义 是 等 价 的 ， 只 是 这 里 name 属性 和 address 属性 有 无 名 称 的 类 型 ， 表 的 行 
也 有 一 个 无 名 称 的 类 型 。 
下 面 的 查询 示例 了 如 何 访问 一 个 复合 属性 的 成 分 属性 。 这 个 查询 找 出 每 个 人 的 姓 和 城市 。 


select name. lastname, address. city 
from person ; 


结构 类 型 上 可 以 定义 方法 (method) 。 我 们 将 方法 的 声明 作为 结构 类 型 的 类 型 定义 的 一 部 分 : 950 


create type PersonType as ( 
name Name, 
address Address , 
dateOfBirth date ) 
not final 

method ageOnDate( onDaie date) 
returns interval year ; 


我 们 单独 地 创建 方法 的 主体 : 


create instance method ageOnDate( onDate date) 
returns interval year 
for PersonType 

begin 
return onDate - self. dateOfBirth; 

end 


注意 for 子 句 指出 这 个 方法 是 对 哪个 类 型 定义 的 ， 关 键 字 instance 指出 这 个 方法 在 Person 类 型 的 
实例 上 执行 。 变 量 self 代表 正在 调用 方法 的 Person 实例 。 方 法 的 主体 可 以 包含 过 程 语句 ， 我 们 在 前 
面 的 5. 2 节 已 经 看 到 过 了 。 方 法 中 可 以 更 新 正在 执行 该 方法 的 实例 的 属性 。 

可 以 在 类 型 的 实例 上 调用 方法 。 如 果 我 们 已 经 创建 了 一 个 PersonType 类 型 的 表 person， 我 们 可 以 
像 下 面 这 样 调用 ageOnDate( ) 方法 来 查询 每 个 人 的 年 龄 : 


select name. lastname, ageOnDate( current_date ) 
from person ; 


在 SQL: 1999 中 ， 构 造 器 函数 ( constructor function) 用 来 创建 结构 类 型 的 值 。 与 结构 类 型 同名 的 
函数 就 是 这 个 结构 类 型 的 构造 器 函数 。 例 如 ， 我 们 可 以 像 这 样 为 Name 类 型 声明 一 个 构造 器 : 


create function Name (firstname varchar( 20) , lastname varchar( 20) ) 
returns Name 
begin 
set self. firstname = firstname; 
set self. lastname = lastname; 
end 


然后 我 们 就 可 以 用 mew Name( ‘John’, ‘Smith’ ) 创 建 Name 类 型 的 一 个 值 。 我 们 可 以 通过 在 圆 括 
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号 中 列 出 其 属性 来 构造 一 个 行 类 型 的 值 。 例 如 ， 如 果 我 们 声明 name 属性 为 一 个 由 firstname 和 
lastname 成 分 组 成 的 行 类 型 ， 我 们 可 以 为 它 创建 这 个 值 : (“Ted” ,，“ Codd'" ) ， 而 不 需 使 用 构造 器 。 
默认 的 情况 下 ， 每 一 个 结构 类 型 都 有 一 个 不 带 参 数 的 构造 器 ， 它 将 属性 设 为 默认 值 。 任何 其 他 
的 构造 器 必须 被 显 式 地 创建 。 同 一 个 结构 类 型 可 以 有 不 止 一 个 构造 器 ; 虽然 它们 有 相同 的 名 字 ， 但 
是 它们 必须 以 参数 的 个 数 和 类 型 来 相互 区 分 。 
下 面 的 语句 示例 了 如 何在 Person 关系 中 创建 一 个 新 的 元 组 。 假 设 类 似 于 我 们 为 Name 做 出 的 定 
义 ，4ddress 上 已 经 定义 了 一 个 构造 器 。 


insert into Person 


values 
(new Name( * John’, ‘Smith’ ) , 
new Address( ‘20 Main St’, ‘New York’, ‘11001’ ), 


date ‘1960-8-22" ) ; 
22.3.2 类 型 继承 
假定 有 如 下 的 关于 人 的 类 型 定义 : 


create type Person 
(name varchar(20) , 
address varchar(20) ) ; 


我 们 可 能 希望 在 数据 库 中 为 那些 是 学 生 和 教师 的 人 存储 一 些 额 外 的 信息 ， 由 于 学 生 和 教师 也 同 
样 是 人 ， 我 们 就 可 以 在 SQL 中 使 用 继承 来 定义 学 生 和 教师 类 型 : 


create type Student 
under Person 
(degree varchar(20) , 
department varchar( 20) ) ; 
create type Teacher 
under Person 
(salary integer , 
department varchar (20) ) ; 


Student 和 Teacher 都 继承 了 Person 的 属性 ， 即 name 和 address, Student 和 Teacher 被 称 为 Person 的 
子 类 型 Person 是 Student 的 父 类 型 ， 同 时 也 是 Teacher 的 父 类 型 。 

像 属 性 一 样 ， 结 构 类 型 的 方法 也 被 它 的 子 类 型 继承 。 不 过 ， 子 类 型 可 以 通过 在 方法 声明 中 用 

overriding method 代替 method 来 重新 声明 该 方法 ， 以 重 定义 该 方法 的 效用 。 

SQL 标准 还 需要 在 类 型 定义 的 尾部 有 一 个 额外 的 域 ， 取 值 为 final 或 not final。 关 键 字 final 表示 
不 能 从 给 定 类 型 创建 子 类 型 ， 而 not final 表示 可 以 创建 子 类 型 。 

现在 假定 我 们 要 存储 关于 助教 的 信息 ， 这 些 助教 同时 既是 学 生 又 是 教师 ， 甚 至 可 能 是 在 不 同 的 
系 里 。 如 果 类 型 系统 支持 多 重 继承 (multiple inheritance) ， 即 一 个 类 型 可 以 被 声明 为 多 个 类 型 的 子 类 
型 ， 我 们 就 可 以 做 到 这 一 点 。 注 意 SQL 标准 并 不 支持 多 重 继承 ， 尽 管 将 来 的 SQL 标准 可 能 支持 。 因 
此 这 里 我 们 仅仅 在 概念 层面 加 以 讨论 。 

例如 ， 如 果 我 们 的 类 型 系统 支持 多 重 继承 ， 我 们 可 以 试 着 为 助教 定义 一 个 类 型 如 下 : 


create type TeachingAssistant 
under Student, Teacher; 


TeachingAssistant 将 继承 Student 和 Teacher 的 所 有 属性 ， 但 是 却 有 一 个 问题 ， 因 为 name, address 
和 department 属性 同时 存在 于 Student 和 Teacher 中 。 

name 和 address 属性 实际 上 是 从 同一 个 来 源 Person 继承 来 的 ， 因 此 同时 从 Student 和 Teacher 
中 继承 这 两 个 属性 不 会 引起 冲突 。 然 而 department 属性 是 在 Student 和 Teacher 中 分 别 定义 的 。 事 实 
上 ， 一 个 助教 可 能 是 某 个 系 的 学 生 同 时 又 是 另 一 个 系 中 的 教师 。 为 了 避免 两 次 出 现 的 department 之 间 
的 冲突 ， 我 们 可 以 使 用 as 子 句 将 它们 重新 命名 ， 如 下 面 的 TeachingAssistant 类 型 定义 所 示 : 


create type TeachingAssistant 
under Student with ( department as student_dept) , 
Teacher with ( department as teacher_dept ) ; 
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在 SQL 中 ， 和 在 大 多 数 其 他 的 语言 中 一 样 ， 一 个 结构 类 型 的 值 必须 恰好 只 有 一 个 最 明确 类 型 ， 
即 每 一 个 值 在 创建 时 必须 被 关联 到 一 个 确定 的 类 型 ， 称 为 它 的 最 明确 类 型 (most-specific type) 。 通 过 
继承 ， 它 也 与 其 最 明确 类 型 的 每 个 父 类 型 相关 联 。 举 例 来 说 ,假定 一 个 实体 具有 类 型 Person， 同 时 
又 具有 类 型 Student， 那 么 这 个 实体 的 最 明确 类 型 为 Student， 因 为 Student 是 Person 的 子 类 型 。 然 而 一 
个 实体 不 能 同时 既 具 有 类 型 Student 又 具有 类 型 Teacher， 除 非 这 个 实体 具有 一 个 如 TeachingAssistant H 
样 既是 Student 的 子 类 型 又 是 Teacher 的 子 类 型 的 类 型 (这 在 SQL 中 是 不 可 能 的 ， 因 为 SQL 不 支持 多 重 
继承 )。 [953 | 


22.4 RÆK 
SQL 中 的 子 表 对 应 E-R 概念 中 的 特殊 化 /一 般 化 。 例 如 ， 假 设 我 们 如 下 定义 people K: 


create table people of Person; 


则 我 们 可 以 如 下 定义 表 students 和 teachers (EH people 的 子 表 ( subtable ) : 
create table students of Student 
under people; 
create table teachers of Teacher 
under people ; 
子 表 的 类 型 (在 上 例 中 是 Student 和 Teacher R) 必须 是 父 表 类 型 (在 以 上 例子 中 是 Person K) 的 子 类 型 ， 
因此 ， 出 现在 表 people 中 的 每 一 个 属性 也 出 现在 其 子 表 students 和 teachers 中 。 
进一步 说 ， 当 我 们 声明 students 和 teachers 作为 people 的 子 表 时 ,students 或 teachers 中 出 现 的 每 一 
个 元 组 也 隐 式 地 存在 于 people 中。 所 以 ， 如 果 一 个 查询 用 到 people 表 ， 它 将 查找 到 的 不 仅仅 是 直接 插 
入 到 这 个 表 中 的 元 组 ， 而 且 还 包含 插入 到 它 的 子 表 中 的 元 组 ， 也 就 是 students 和 teachers 中 的 元 组 . 
然而 ， 这 个 查询 只 能 访问 那些 出 现在 people 中 的 属性 。 
SQL 允许 我 们 在 查询 中 使 用 “only people” 代替 people 来 查找 只 在 people 中 而 不 在 它 的 子 表 中 的 元 
组 。 关 键 字 only 还 可 以 在 delete 和 update 语句 中 使 用 。 如 果 不 使 用 only 关键 字 ， 超 表 ( 例如 people) 
上 的 删除 语句 还 会 删除 原先 插入 到 子 表 ( 例如 students) 中 的 元 组 ; 例如 ， 语 句 


delete from people where P; 


将 删除 people 表 中 所 有 满足 P 的 元 组 ， 以 及 子 表 students Fil teachers 中 所 有 满足 P 的 元 组 。 如 果 在 上 面 
的 语句 中 增加 了 only 关键 字 ， 插 入 到 子 表 中 的 元 组 不 会 受到 影响 ， 即 使 它们 满足 where 子 句 。 以 后 
对 超 表 的 查询 将 仍然 能 够 查找 到 这 些 元 组 。 

概念 上 ， 多 重 继 承 对 表 来 说 也 是 可 能 的 ， 正 如 对 于 类 型 是 可 能 的 一 样 。 例 如 ， 我们 可 以 创建 一 
个 类 型 为 TeachingAssistant 的 表 : 


create table teaching_assistants [954 
of TeachingAssistant 
under students, teachers; 


作为 声明 的 结果 ， 每 一 个 在 teaching_assistants 中 出 现 的 元 组 也 隐 式 地 在 表 teachers 和 students 中 出 
现 ， 从 而 也 出 现在 people 表 中 。 但 是 我 们 注意 到 SQL 并 不 支持 表 的 多 重 继承 。 

对 子 表 有 一 些 一 致 性 要 求 。 在 陈述 约束 之 前 ,我 们 需要 一 个 定义 : 如 果子 表 和 父 表 中 的 元 组 在 
所 有 的 继承 属性 上 具有 同样 的 值 ， 则 称 子 表 中 的 元 组 与 父 表 中 的 元 组 对 应 (correspond) 。 因 此 ， 相 对 
应 的 元 组 表示 同一 个 实体 。 

子 表 的 一 致 性 要 求 为 : 

1. 父 表 的 每 个 元 组 至 多 可 以 与 它 的 每 个 直接 子 表 的 一 个 元 组 相对 应 。 

2. SQL 有 一 个 附加 的 约束 ， 所 有 互相 对 应 的 元 组 必须 由 同一 个 元 组 派生 出 来 (插入 到 一 个 表 
中 )。 

例如 ， 若 没有 第 一 个 条 件 ， 我 们 就 可 能 在 students( 或 teachers) 中 有 两 个 元 组 与 同一 个 人 相对 应 。 

第 二 个 条 件 排除 了 people 中 的 一 个 元 组 同时 对 应 students 中 的 一 个 元 组 和 teachers 中 的 一 个 元 组 的 
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情况 ,除非 所 有 这 些 元 组 都 隐 式 出 现 (这 是 由 于 一 个 元 组 被 插入 到 同时 是 teachers 和 students 的 子 表 的 
teaching_assistants 表 中 )。 

由 于 SQL 不 支持 多 继承 ， 所 以 第 二 个 条 件 实际 上 阻止 了 一 个 人 既是 教师 又 是 学 生 的 情况 。 即 使 
支持 多 继承 ， 这 个 问题 在 没有 子 表 teaching_assistants 时 也 会 出 现 。 显 然 ， 即 使 没有 公共 子 表 teaching_ 
assistants， 为 可 以 让 一 个 人 既是 教师 又 是 学 生 的 情况 建 模 也 是 很 有 用 的 。 因 此 ， 去 掉 第 二 个 条 件 是 有 
用 的 。 这 样 会 在 不 要 求 对 象 必 须 有 一 个 最 明确 类 型 的 情况 下 ， 人 允许 它 具 有 多 个 类 型 。 

例如 ， 仍 然 假定 我 们 有 具有 子 类 型 Student 和 Teacher 的 类 型 Person， 以 及 相应 的 具有 子 表 teachers 
和 students 的 表 people。 然 后 我 们 就 能 够 使 teachers 中 的 一 个 元 组 和 students 中 的 一 个 元 组 与 people 中 的 
同一 个 元 组 相对 应 。 这 就 不 需要 Student 和 Teacher 的 子 类 型 TeachingAssistant 类 型 了 。 我 们 无 需 创建 
一 个 TeachingAssistant 类 型 ， 除 非 我 们 希望 存储 额外 属性 或 以 特定 于 既是 学 生 又 是 教师 的 人 的 方式 重 
定义 方法 。 

但 是 ， 遗 憾 的 是 ,我们 注意 到 ， 由 于 一 致 性 要 求 2，SQL 禁止 这 种 情况 。 因 为 SQL 也 不 支持 多 重 
继承 ， 对 于 一 个 人 既是 学 生 又 是 教师 的 情况 ， 我 们 不 能 用 继承 来 建 模 。 因 此 ，SQL 子 表 不 能 用 于 表 
示 E-R RW P ERRE 

RITH FT LA A E A h R ARREARS A, a EA RK, Ht E E AT 
7.8.6. 1 小 节 进 行 了 描述 。 在 上 面 的 例子 中 , 我们 可 以 创建 表 people, students 和 teachers, Hp 

955 | students il teachers 包含 Person 类 型 的 主键 属性 以 及 Student 和 Teacher 类 型 各 自 的 其 他 特定 属性 。people 
表 将 含有 所 有 人 的 信息 ， 包 括 学 生 和 教师 。 然 后 我 们 增加 适当 的 参照 完整 性 约束 以 确保 学 生 和 教师 
也 在 people 表 中 表示 。 

换 名 话说， 我 们 可 以 利用 SQL 已 有 的 特性 ， 通 过 一 些 在 定义 表 和 在 查询 时 指定 连接 以 获取 需要 
的 属性 方面 的 额外 的 努力 ， 来 构造 我 们 自己 的 改进 的 子 表 机 制 的 实现 。 

我 们 注意 到 SQL 定义 了 一 个 称 为 under 的 特权 ， 当 在 另外 一 个 类 型 或 表 的 下 面 创建 一 个 子 类 型 
或 者 子 表 时 需要 这 个 特权 。 定 义 这 个 特权 的 动机 与 references 特权 类 似 。 


22.5 SQL 中 的 数组 和 多 重 集合 类 型 


SQL 支持 两 种 集合 体 类 型 : 数组 和 多 重 集合 。 数 组 类 型 是 在 SQL: 1999 中 增加 的 ， 而 多 重 集合 
类 型 是 在 SQL: 2003 中 增加 的 。 请 回想 ， 多 重 集合 是 一 个 无 序 集合 ， 一 个 元 素 可 能 在 其 中 出 现 多 次 ， 
多 重 集合 与 集合 相似 ， 区 别 只 在 于 集合 只 允许 每 个 元 素 最 多 出 现 一 次 。 

假定 我 们 希望 记录 有 关 图 书 的 信息 ， 每 本 书 都 包含 一 个 关键 字 的 集合 。 并 且 假 定 我 们 希望 将 图 
书 作者 的 名 字 以 数组 的 形式 存储 ; 不 同 于 多 重 集合 中 的 元 素 ， 数 组 中 的 元 素 是 有 序 的 ， 从 而 我 们 可 
以 区 分 第 一 作者 和 第 二 作者 ， 等 等 。 下 面 的 例子 示例 了 如 何在 SQL 中 定义 这 些 以 数组 和 多 重 集合 为 
值 的 属性 : 





create type Publisher as 
(name varchar( 20) , 
branch varehar( 20) ) ; 
create type Book as 
(title varchar( 20) , 
author_array varchar( 20) array[ 10] , 
pub_date date, 
publisher Publisher , 
keyword_set varchar(20) multiset) ; 
create table books of Book; 


第 一 条 语句 定义 了 一 个 称 为 Publisher 的 类 型 ， 它 包括 两 个 成 分 : name 和 branch。 第 二 条 语句 定 
义 了 一 个 结构 类 型 Book， 包 含 title、author_array、 出 版 日 期 、 出 版 社 (类 型 为 Publisher) 和 关键 字 的 多 
重 集合 ， 其 中 author_array 是 一 个 最 多 可 以 存储 10 个 作者 姓名 的 数组 。 最 后 ,创建 了 一 个 包含 类 型 
为 Book 的 元 组 的 books 表 。 
注意 我 们 使 用 数组 而 不 是 多 重 集合 来 存储 作者 的 姓名 ， 因 为 作者 的 顺序 一 般 是 有 意义 的 ， 而 我 
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们 认为 与 图 书 关联 的 关键 字 的 顺序 是 没有 意义 的 。 
一 般 而 言 ，E-R 模式 中 的 多 值 属性 可 以 映射 到 SQL 中 的 以 多 重 集合 为 值 的 属性 ; 如 果 顺 序 是 重 
要 的 ， 可 以 使 用 SQL 数组 来 代替 多 重 集合 。 
22.5.1 创建 和 访问 集合 体 值 
在 SQL: 1999 中 ,一 个 数组 的 值 可 以 用 这 种 方式 创建 : 
array[ *Silberschatz’ , * Korth’, * Sudarshan’ | 
类 似 地 ， 关 键 字 的 多 重 集合 可 以 这 样 构造 : 
multiset[ ‘computer’ , ‘database’, ‘SQL’ | 
因此 ， 我 们 可 以 创建 一 个 books 关系 中 定义 的 类 型 的 元 组 为 : 
(“Compilers’ , array[ ‘Smith’, ‘Jones’ ], new Publisher ( McGraw-Hill’ , ‘New York’), 
multiset{ ‘ parsing’ , ‘ analysis’ | ) 
这 里 我 们 已 经 通过 以 适当 的 参数 调用 Publisher H #4) i #8 PARMA Publisher 属性 创建 了 一 个 值 。 注 意 
Publisher 的 这 个 构造 器 函数 必须 被 显示 地 创建 ， 而 不 是 默认 存在 的 ; 可 以 用 与 前 面 22.3 节 中 我 们 看 
到 的 Name 的 构造 器 函数 相似 的 方式 声明 它 。 
如 果 我 们 希望 将 上 面 的 元 组 插入 到 books 关系 中 ， 我 们 可 以 执行 这 个 语句 : 


insert into books 

values ( ‘Compilers’, array[ ‘Smith’, ‘Jones’ | ， 
new Publisher( ‘McGraw-Hill’ , * New York’ ) , 
multiset[ ‘ parsing’ , * analysis’ | ) ; 


我 们 可 以 通过 指定 数组 索引 ， 例 如 author_array[ 1] ， 来 访问 或 更 新 数组 中 的 元 素 。 
22.5.2 ”查询 以 集合 体 为 值 的 属性 

现在 我 们 考虑 怎样 处 理 查询 中 的 以 集合 体 为 值 的 属性 。 一 个 计算 得 到 集合 体 的 表达 式 可 以 出 现 
在 关系 名 可 能 出 现 的 任何 地 方 ， 例 如 像 下 个 段落 中 展示 的 那样 出 现在 from 子 句 中 。 我 们 使 用 先前 定 
MAY books Ro 

如 果 我 们 想 找 出 所 有 的 以 “ database” 为 关键 字 之 一 的 书 ， 我 们 可 以 使 用 这 个 查询 : 


select title 
from books 
where ‘database’ in ( unnest( keyword_set) ) ; 


请 注意 我 们 使 用 unnest( keyword_set) WME, MLB ETRE KAN SQL 中 本 来 是 要 求 一 个 
select-from-where 的 子 表达 式 。 
如 果 我 们 知道 一 本 特定 的 书 有 三 个 作者 ， 我 们 会 这 样 写 : 


oO 
Nn 
N 


select author_array[ 1 ] , author_array[ 2] , author_array[ 3 | 
from books 
where title = “ Database System Concepts’ ; 


现在 ， 假 定 我 们 想得到 一 个 关系 ， 它 包含 形式 为 “ 书 名 ,作者 名 ”的 对 ， 对 应 每 本 书 和 书 的 每 个 
作者 。 我 们 可 以 使 用 这 样 的 查询 : 


select B. title, A. author 
from books as B, unnest( B. author_array) as A( author) ; 


由 于 books 的 author_array 属性 是 一 个 以 集合 体 为 值 的 字段 ，unnest( B. author_array) 可 以 用 在 一 个 
from 子 句 中 ， 即 应 该 出 现 一 个 关系 的 位 置 。 注 意 元 组 变量 B 对 这 个 表达 式 是 可 见 的 ， 因 为 它 先 前 已 
经 在 from 子 句 中 定义 了 。 

当 对 一 个 数组 解除 租 套 时 ， 上 面 的 查询 丢失 了 数组 中 元 素 的 顺序 信息 。unnest with ordinality 子 
句 可 以 用 于 获得 该 信息 ， 如 下 面 的 查询 所 示 。 这 个 查询 可 以 用 于 从 books 关系 生成 我 们 以 前 见 到 过 的 
authors 关系 。 
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select title, A. author, A. position 
from books as B, 
unnest( B. author_array) with ordinality as A( author, position) ; 


with ordinality 子 句 生 成 一 个 额外 的 属性 记录 数组 中 元 素 的 位 置 。 一 个 类 似 的 但 是 不 使 用 with 
ordinality 子 句 的 查询 ， 可 以 用 于 生成 keyword 关系 。 


22.5.3 KEMRRRKE 
B—-PREKABRMAA BD (RRE ) AKR A AN RENAN EK ARRRE 

(unnesting) , books 关系 有 author_array 和 keyword_set 两 个 属性 是 集合 体 ， 以 及 title 和 publisher 两 个 属 
性 不 是 集合 体 。 假 定 我 们 想 要 将 该 关系 转化 为 一 个 单一 的 平面 关系 ,使 其 不 包含 垦 套 关系 和 结构 类 
型 作为 属性 。 我 们 可 以 使 用 以 下 查询 来 执行 这 个 任务 : 

select title, A. author, publisher. name as pub_name, publisher. branch 

as pub_branch, K. keyword 
from books as B, unnest( B. author_array) as A( author) , 
unnest( B. keyword_set) as K( keyword) ; 


from 子 句 中 的 变量 B 被 声明 为 以 books 为 取 值 范围 。 变 量 4 被 声明 为 以 书 B 的 author_array 中 的 
作者 为 取 值 范围 ， 同 时 天 被 声明 为 以 书 B 的 keyword_set 中 的 关键 字 为 取 值 范围 。 图 22-1 显示 了 books 
关系 的 一 个 实例 ， 图 22-3 显示 了 我 们 称 之 为 flat_books 的 关系 ， 它 是 上 面 的 查询 的 结果 。 注 意 ,flat_ 
books 关系 是 满足 1NF 的 ， 因 为 它 的 所 有 属性 都 是 原子 的 值 。 

title | author | pub_name pub_branch | keyword 
Compilers | Smith McGraw-Hill | New York parsing 


Compilers | Jones McGraw-Hill New York parsing 
Compilers | Smith McGraw-Hill New York analysis 


























Compilers | Jones McGraw-Hill New York analysis 
Networks Jones Oxford London Internet 
Networks Frick Oxford London Internet 
Networks Jones Oxford London Web 
Networks Frick Oxford | London Web 





图 22-3 flat_books: 对 books 关系 的 author_array 属性 和 keyword_set Jay ER RE WY BR 


将 一 个 1NF RAMI ARERKA NR it PK ARE (nesting). EAH SQL 中 的 分 组 操作 
的 一 个 扩展 来 执行 。 在 SQL 中 分 组 的 常规 使 用 中 ， 要 对 每 个 组 ( 逻辑 上 ) 创建 一 个 临时 的 多 重 集合 关 
系 ， 并 且 在 这 个 临时 关系 上 应 用 一 个 聚集 函数 以 获得 一 个 单一 (原子 ) 值 。collect 函数 返回 值 的 多 重 
集合 ， 因 此 我 们 可 以 创建 一 个 典 套 关系 ， 不 是 创建 一 个 单一 值 。 假 定 给 定 一 个 1NF 关系 flat_books， 
如 图 22-3 所 示 。 下 面 的 查询 在 属性 keyword | KAU TRE: 
select title, author, Publisher( pub_name, pub_branch) as publisher, 
collect( keyword) as keyword_set 


from flat_books 
group by title, author, publisher; 


在 图 22-3 ras hy flat_books 关系 上 执行 这 个 查询 的 结果 如 图 22-4 所 示 。 


hor | ister | 
WR ER PESEE 


ompilers (McGraw-Hill, New York) parsing, analysis 
Compilers jens (McGraw-Hill, New York) | {parsing, analysis} 
Networks Jones (Oxford, London) {Internet, Web} 
Networks Frick Oxford, London Internet, Web 


22-4 flat_books KAW —TPPMA RE WA 
WMRRNCER EA RBHERERISHEA PS, 我们 可 以 使 用 查询 : 
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select title, collect( author) as author_set, 
Publisher( pub_name, pub_branch) as publisher, 
collect( keyword) as keyword_set 
from flat_books 
group by title, publisher; 
A—-MQBEREKAWAKEE select 子 句 中 使 用 子 查询 。 子 查询 方法 的 一 个 优势 是 在 子 查询 中 

可 以 使 用 order by 子 句 ， 从 而 以 创建 数组 所 需 的 顺序 来 产生 结果 。 下面 的 查询 解释 了 这 种 方法 ; 关 
键 字 array 和 multiset 指明 数组 和 多 重 集合 将 用 子 查询 的 结果 来 创建 。 


select title, 
array (select author 
from authors as A 
where A. title = B. title 
order by A. position) as author_array , 
Publisher( pub_name, pub_branch) as publisher, 
multiset ( select keyword 
from keywords as K 
where K. title = B. title) as keyword_set, 
from books4 as B; 


系统 为 外 层 查 询 的 from 和 where 子 句 生成 的 每 个 元 组 执行 select FA PAE FA. TERK 
自 外 层 查 询 的 B. title 属性 被 用 到 藤 套 查询 中 ， 以 确保 对 每 个 书 名 仅 生 成 正确 的 作者 和 关键 字 集合 
SQL; 2003 在 多 重 集合 上 提供 了 多 种 操作 符 ， 包 括 : 函数 set(M) ， 它 返回 多 重 集合 M 的 一 个 无 
重复 元 组 版 本 ;聚集 操作 intersection， 它 返回 一 个 组 中 所 有 多 重 集合 的 交集 ; 聚集 操作 fusion, € 
返回 一 个 组 中 所 有 多 重 集合 的 并 集 ; 谓词 submultiset， 它 检测 一 个 多 重 集合 是 否 包含 在 另 一 个 多 重 [959 | 
集合 中 。 1960 
SQL 标准 不 提供 除了 赋予 新 值 以 外 的 任何 更 新 多 重 集合 属性 的 方法 。 例 如 ， 要 从 多 重 集合 属性 4 
中 删除 一 个 值 v>， 我 们 必须 将 其 置 为 (4 except all multiset! v] ) . 


22.6 SQL 中 的 对 象 标识 和 引用 类 型 


面向 对 象 的 程序 设计 语言 提供 了 引用 对 象 的 能 力 。 类 型 的 一 个 属性 可 以 是 对 一 个 指定 类 型 的 对 
象 的 引用 。 例 如 ， 在 SQL 中 我 们 可 以 定义 一 个 Department 类 型 ， 它 有 一 个 name 域 和 一 个 对 Person 类 
型 进行 引用 的 head 域 ， 并 且 定 义 一 个 Department 类 型 的 表 departments， 如 下 所 示 : 


create type Deparimeni( 

name varchar(20) , 

head ref( Person) scope people) ; 
create table departments of Department ; 


这 里 ， 引 用 被 限制 在 people 表 中 的 元 组 。 在 SQL 中 ， 对 指向 一 个 表 的 元 组 的 引用 范围 ( scope ) 的 
限制 是 强制 的 ， 它 使 引用 的 行为 与 外 码 类 似 。 
我 们 可 以 省 略 掉 类 型 声明 中 的 scope people 声明 ， 而 在 create table 语句 中 作 补 充 : 


create table departments of Department 
(head with options scope people) ; 


被 引用 的 表 必 须 有 一 个 属性 来 存储 元 组 的 标识 符 。 我 们 通过 在 create table 语句 中 增加 一 个 ref is 
子 句 来 声明 这 个 称 为 自 引用 属性 ( self-referential attribute ) 的 属性 : 


create table people of Person 
ref is person_id system generated ; 


这 里 ，person_id 是 一 个 属性 名 ， 不 是 关键 字 ， 而 create table 语句 指定 该 标识 符 是 由 数据 库 自 动 
生成 的 。 

为 了 初始 化 一 个 引用 属性 ， 我 们 需要 得 到 被 引用 元 组 的 标识 符 。 我 们 可 以 通过 查询 得 到 一 个 元 
组 的 标识 符 的 值 。 因 此 ， 为 了 创建 一 个 有 引用 值 的 元 组 ,我 们 可 以 首先 创建 带 有 空 引用 的 元 组 ， 然 
后 单独 地 设置 其 引用 : [961 | 
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insert into departments 
values(*CS’, null); 
update departments 
set head = ( select p. person_id 
from people as p 
where name = ‘John’ ) 
where name = ‘CS’; 


与 系统 生成 标识 符 不 同 的 另 一 种 方法 是 允许 用 户 生成 标识 符 。 自 引用 属性 的 类 型 必须 指定 为 被 
引用 表 的 类 型 定义 的 一 部 分 ， 而 且 表 定义 中 必须 指定 引用 是 用 户 生成 (user generated) 的 ; 


create type Person 
(name yarchar(20 ) , 
address varchar (20) ) 
ref using varchar( 20) ; 
create table people of Person 
ref is person_id user generated ; 


当 向 people 中 插入 元 组 时 ， 我 们 必须 为 标识 符 提供 值 : 
insert into people (person_id, name, address) values 
( ‘01284567’, ‘John’, ‘23 Coyote Run’ ); 


People 表 、 其 父 表 以 及 其 子 表 中 均 不 能 有 其 他 元 组 具有 同样 的 标识 符 。 这 样 我 们 在 向 departments 
中 插入 元 组 时 就 可 以 使 用 标识 符 的 值 ， 而 不 需要 一 个 单独 的 查询 来 获取 标识 符 : 
insert into departments 
values( ‘ CS’, ‘01284567’ ); 
还 有 一 种 可 能 的 方法 是 通过 在 类 型 定义 中 包含 ref from 子 句 以 使 用 一 个 已 有 的 主 码 值 作 为 标 
识 符 : 
create type Person 
(name varchar(20) primary key, 
address varchar( 20) ) 
ref from( name) ; 


create table people of Person 
ref is person_id derived ; 


注意 表 定 义 必须 指明 引用 是 衍生 出 来 的 ,而且 还 必须 指定 一 个 自 引 用 属性 名 。 这 样 当 向 
departments 中 插入 元 组 时 ， 我 们 就 可 以 使 用 : 


insert into departments 
values( ‘ CS’, ‘John’ ); 


SQL: 1999 中 使 用 - > 符号 对 引用 取 内 容 。 考 虑 前 面 定义 的 departments 表 ， 我 们 可 以 使 用 这 个 
查询 来 找 出 各 部 门 负责 人 的 名 字 和 地 址 : 


select head - > name, head — > address 
from departments ; 


“head — > name” 这样 的 表达 式 称 为 路 径 表 达 式 (path expression) 。 

由 于 head 是 对 people 表 中 一 个 元 组 的 引用 ， 上 述 查 询 中 的 name 属性 就 是 people 表 中 元 组 的 name 
属性 。 引 用 可 以 用 来 隐藏 连接 操作 ; 在 上 面 的 例子 中 ， 如 果 不 使 用 引用 ， 则 department 的 head 字段 
就 会 被 声明 为 people 表 的 一 个 外 码 。 要 找 出 一 个 部 门 负责 人 的 姓名 和 地 址 ， 我 们 就 需要 显 式 地 连接 
departments 关系 与 people 关系 。 使 用 引用 大 大 简化 了 查询 。 

我 们 可 以 使 用 deref 操作 来 返回 引用 所 指向 的 元 组 ， 并 接着 访问 它 的 属性 ， 如 下 所 示 : 


select deref( head). name 
from departments ; 


22.7 O-R 特性 的 实现 
WA - 关系 数据 库 系 统 基本 上 是 对 已 有 关系 数据 库 系 统 的 扩展 .在 数据 库 系 统 的 很 多 层次 上 都 
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明显 需要 改变 。 但 是 ， 为 了 使 对 存储 系统 的 代码 (关系 存储 、 索 引 等 ) 的 改动 最 小 化 ， 对 象 -关系 系 
统 支持 的 复杂 数据 类 型 可 以 转化 为 关系 数据 库 的 较 简单 的 类 型 系统 
为 了 理解 如 何 进行 转换 ， 我 们 只 需 查看 E-R 模型 的 某 些 特性 是 如 何 转换 成 关系 的 。 例 如 ，E-R 
模型 中 的 多 值 属性 对 应 于 对 象 - 关系 模型 中 的 以 多 重 集合 为 值 的 属性 。 复 合 属性 大 致 对 应 于 结构 类 
型 。E-R 模型 中 的 ISA 层次 对 应 于 对 象 - 关系 模型 中 的 表 继 承 。 
我 们 在 7. 6 节 中 看 到 的 将 E-R 模型 的 特性 转换 到 表 的 技术 ， 可 以 通过 某 些 扩 展 用 于 在 存储 层 将 
对 象 -关系 数据 转换 成 关系 型 的 数据 。 
子 表 可 以 在 无 需 复 制 所 有 继承 字段 的 情况 下 ， 以 如 下 两 种 方式 之 一 有 效 地 存储 : 
。 每 一 个 表 只 存储 主 码 ( 可 能 是 从 父 表 中 继承 下 来 的 ) 和 局 部 定义 的 属性 。 继 承 属 性 ( 主 码 以 外 
的 ) 不 需要 存储 ， 可 以 通过 基于 主 码 的 与 其 父 表 的 连接 得 到 ， 
。 每 一 个 表 存 储 所 有 继承 的 和 局 部 定义 的 属性 。 当 插入 一 个 元 组 时 ， 它 仅仅 存储 在 它 所 插入 的 
那个 表 中 ， 它 的 每 个 父 表 通过 推断 判断 它 的 存在 。 因 为 不 需要 连接 ， 所 以 可 以 更 快 地 访问 元 
组 的 所 有 属性 。 
但 是 , 一旦 类 型 系统 允许 一 个 实体 出 现在 两 个 子 表 中 而 不 出 现在 这 两 个 子 表 的 公共 子 表 
中 ， 这 种 表达 可 能 造成 信息 的 重复 。 更 进一步 ， 很 难 将 指向 父 表 的 外 码 转化 为 子 表 上 的 约 
R; 为 了 有 效 地 实现 这 种 外 码 ， 父 表 必 须 被 定义 为 视图 ， 且 数据 库 系统 必须 支持 视图 上 的 
外 码 。 
实现 时 可 以 选择 直接 表示 数组 和 多 重 集合 ， 或 者 选择 在 内 部 使 用 一 个 标准 化 表达 。 标 准 化 表达 
倾向 于 占用 更 多 的 空间 ， 且 需要 一 个 额外 的 连接 /分 组 代价 以 收集 数组 或 多 重 集合 中 的 数据 。 但 是 ， 
标准 化 表达 可 能 更 加 易于 实现 
ODBC 和 JDBC 应 用 程序 接口 已 被 扩展 以 获取 和 存储 结构 类 型 。JDBC 提供 一 个 getObject( ) 方法 ， 
它 类 似 于 getString( ) ， 但 是 它 返回 一 个 Java Struct 对 象 ， 从 中 可 以 抽取 出 结构 类 型 的 成 分 。 还 可 以 将 
一 个 Java 类 与 一 个 SQL 结构 类 型 关联 ， 然 后 JDBC 将 在 类 型 之 间 进 行 转换 。 详 细 信 息 见 ODBC 或 
JDBC 参考 手册 ， 


22.8 持久 化 程序 设计 语言 


不 同 于 传统 程序 设计 语言 ， 数 据 库 语言 直接 操纵 持久 的 数据 ， 即 使 创建 数据 的 程序 已 经 终止 ， 
这 些 数据 仍然 继续 存在 。 数 据 库 中 的 关系 和 关系 中 的 元 组 都 是 持久 数据 的 例子 。 相 比 之 下 ， 传 统 程 
序 设计 语言 所 直接 操纵 的 唯一 一 种 持久 数据 就 是 文件 。 

对 数据 库 的 访问 只 是 现实 世界 应 用 中 的 一 个 组 成 部 分 。 即 便 一 种 数据 操纵 语言 (比如 SQL) 访 问 
数据 是 相当 高 效 的 ， 仍 然 需要 一 种 程序 设计 语言 来 实现 应 用 中 的 其 他 组 成 部 分 ， 如 用 户 界面 或 与 其 
他 计算 机 的 通信 。 将 数据 库 语 言 连接 到 程序 设计 语言 上 的 传统 方法 是 在 程序 设计 语言 中 内 人 SQL. 

持久 化 程序 设计 语言 ( persistent programming language) 是 一 种 结构 扩充 了 的 用 于 人 处理 持久 数据 的 
程序 设计 语言 。 持 久 化 程序 设计 语言 与 租 入 SQL 的 语言 可 以 用 至 少 以 下 两 种 方法 进行 区 分 : 

L 带 有 垦 入 语言 的 宿主 语言 的 类 型 系统 通常 与 数据 操纵 语言 的 类 型 系统 有 所 不 同 。 宿 主语 言 和 
SQL 之 间 的 任何 类 型 转化 都 由 程序 员 负 责 。 要 求 程 序 员 来 执行 这 项 任务 有 若干 缺陷 : 

© 对 象 和 元 组 之 间 进 行 转换 的 代码 是 在 面向 对 象 类 型 系统 之 外 执行 的 ， 因 此 存在 没有 检测 到 的 

错误 的 几率 更 高 。 

o 数据 库 中 元 组 的 面向 对 象 格式 和 关系 格式 之 间 的 转换 需要 大 量 的 代码 。 格 式 转 换代 码 ， 以 及 

从 一 个 数据 库 中 装 入 和 和 狠 出 数据 的 代码 ， 可 能 构成 了 应 用 所 需 全 部 代码 的 相当 大 的 比例 。 

相 比 之 下 ， 在 持久 化 程序 设计 语言 中 ， 查 询 语言 被 完全 集成 到 宿主 语言 中 ， 共 用 相同 的 
类 型 系统 。 对 象 在 数据 库 中 的 创建 和 存储 可 以 不 需要 任何 显 式 的 类 型 或 格式 转换 ; 任何 所 需 
的 格式 转换 都 被 透明 地 执行 。 

2. 使 用 嵌入 式 查询 语言 的 程序 员 负 责编 写 从 数据 库 取出 数据 放 人 内 存 的 显 式 的 代码 。 一旦 执行 
了 任何 数据 更 新 ， 程 序 员 都 必须 显 式 地 编写 代码 将 更 新 后 的 数据 写 回 到 数据 库 中 。 
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相 比 之 下 ， 在 持久 化 程序 设计 语言 中 ， 程 序 员 可 以 操作 持久 数据 ， 而 无 需 显 式 地 编写 代码 将 数 
据 取 到 内 存 或 写 回 到 磁盘 。 

在 这 一 节 ， 我 们 描述 如 何 将 面向 对 象 程序 设计 语言 (例如 C++ 和 Java) 扩展 为 持久 化 程序 设计 语 
言 。 这 些 语言 特性 允许 程序 员 直 接 在 程序 设计 语言 中 操纵 数据 ， 而 不 必 通 过 一 个 像 SQL 那样 的 数据 
MOIRA. DH, EMBARK, MMA SQL， 提 供 程 序 设计 语言 与 数据 库 的 更 加 紧密 的 
集成 。 

不 过 ,持久 化 程序 设计 语言 也 有 一 定 的 不 足 之 处 ， 当 我 们 要 决定 是 否 使 用 它 时 必须 记 住 这 一 点 。 
由 于 程序 设计 语言 通常 很 强大 ， 因 此 发 生 破 坏 数 据 库 的 编程 错误 相对 容易 。 语 言 的 复杂 性 使 得 自动 
的 高 级 优化 (例如 减少 磁盘 LO ) 更 加 困难 。 对 于 许多 应 用 来 说 ， 支 持 声明 性 查询 是 很 重要 的 ， 但 是 
目前 持久 化 程序 设计 语言 并 不 能 很 好 地 支持 声明 性 查询 。 

在 这 一 节 ， 我 们 描述 对 已 有 的 程序 设计 语言 增加 持久 化 时 必须 解决 的 若干 概念 问题 。 我 们 首先 
解决 独立 于 语言 的 问题 ， 并 在 接 下 来 的 小 节 中 讨论 C++ 语言 和 Java 语言 的 特有 问题 。 但 是 ， 我 们 没 
ABAD RMA; 尽管 已 经 有 若干 标准 提出 ,但 没有 一 个 是 被 普遍 认可 的 。 请 参看 文献 注解 
中 的 参考 文献 以 了 解 更 多 具体 语言 扩展 和 进一步 的 实现 细节 
22.8.1 对 象 的 持久 化 

面向 对 象 程序 设计 语言 中 已 经 有 了 对 象 的 概念 、 用 于 定义 对 象 类 型 的 类 型 系统 以 及 用 于 创建 对 
象 的 结构 。 不 过 ， 这 些 对 象 是 瞬 态 的 一 一 程序 终止 时 随 之 消亡 ， 正 如 Java 或 C 程序 中 的 变量 在 程序 
结束 后 消亡 一 样 。 如 果 我 们 想 要 将 这 样 的 一 种 语言 变 成 数据 库 程 序 设 计 语言 ， 第 一 步 就 是 要 提供 一 
种 方法 使 对 象 持 久 化 。 人 们 已 经 提出 了 许多 方法 。 

。 按 类 持久 。 一 种 最 简单 但 最 不 方便 的 方法 是 声明 一 个 类 为 持久 的 。 那么 该 类 的 所 有 对 象 默 认 

情况 下 都 是 持久 对 象 ， 非 持久 类 的 对 象 都 是 瞬 态 的 。 

由 于 经 常 需要 在 单个 类 中 同时 有 了 瞬 态 对 象 和 持久 对 象 ， 因 此 这 种 方法 是 不 灵活 的 。 在 很 
多 面向 对 象 数据 库 系统 中 ， 声 明 一 个 类 是 持久 的 被 解释 为 该 类 中 的 对 象 可 以 被 持久 化 ， 而 不 
是 该 类 的 所 有 对 象 都 是 持久 的 。 这 些 类 或 许 更 适合 被 称 作 “ 可 持久 的 "类 .。 

。 按 创建 持久 。 这 种 方法 通过 扩展 创建 瞬 态 对 象 的 语法 ， 引 入 用 于 创建 持久 对 象 的 新 语法 。 因 
此 ， 一 个 对 象 是 持久 的 还 是 瞬 态 的 ， 取 决 于 它们 是 如 何 创 建 的 。 有 些 面向 对 象 数据 库 系统 采 
用 了 这 种 方法 。 

。 按 标志 持久 。 这 是 上 面 方法 的 一 个 变 体 ， 是 在 对 象 被 创建 后 将 它们 标志 为 持久 的 。 所 有 的 对 
象 都 被 创建 为 瞬 态 对 象 ， 但 是 ， 如 果 一 个 对 象 要 在 程序 结束 后 持久 存在 ,那么 必须 在 程序 终 
止 前 显 式 地 将 这 个 对 象 标 志 为 持久 的 。 与 前 一 种 方法 不 同 ， 这 种 方法 将 决定 对 象 是 持久 的 还 
是 瞬 态 的 推迟 到 对 象 创建 以 后 。 

。 按 可 达 性 持久 。 一 个 或 多 个 对 象 被 显 式 地 声明 为 ( 根 ) 持 久 对 象 。 对 于 所 有 其 他 对 象 来 说 ， 当 
( 且 仅 当 ) 它 们 从 根 结 点 通过 由 一 个 或 更 多 引用 构成 的 序列 可 达 时 ， 它 们 才 是 持久 的 。 

因此 ， 所 有 被 根 持 久 对 象 引 用 的 对 象 ( 即 其 对 象 标识 符 存储 在 根 持久 对 象 中 ) 是 持久 的 。 
同时 ， 所 有 被 这 些 对 象 引用 的 对 象 也 是 持久 的 ， 且 它们 所 引用 的 对 象 也 是 持久 的 ， 依 此 
类 推 。 
这 种 方案 有 一 个 好 处 是 可 以 很 容易 将 整个 数据 结构 变 成 持久 的 ， 只 需 声明 这 种 结构 的 根 
为 持久 的 就 可 以 了 。 然 而 ， 数 据 库 系 统 就 要 面临 需要 沿 着 引用 链 查 找 以 检测 对 象 是 否 持 入 的 
负担 ， 而 其 代价 可 能 是 很 高 的 。 
22.8.2 ”对象 标识 和 指针 

在 一 个 尚未 被 扩展 以 处 理 持久 化 的 程序 设计 语言 中 ， 当 创建 一 个 对 象 时 ， 系 统 返 回 一 个 瞬 态 对 
象 的 标识 符 。 瞬 态 对 象 标识 符 只 有 当 创 建 它 的 程序 正在 执行 时 才 是 有 效 的 ; 程序 结束 之 后 ， 对 象 就 
被 删除 了 ， 同 时 其 标识 符 也 就 没有 任何 意义 了 。 当 一 个 持久 对 象 被 创建 时 ， 它 被 赋予 一 个 持久 对 象 
标识 符 。 
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对 象 标识 的 概念 与 程序 设计 语言 中 的 指针 之 间 存 在 有 趣 的 关系 。 要 得 到 内 置 标识 ， 最 简单 的 方 
法 是 通过 指向 存储 空间 物理 位 置 的 指针 。 特 别 是 ， 在 许多 面向 对 象 语言 (例如 C++ ) 中 ， 瞬 态 对 象 标 
识 符 实际 上 就 是 一 个 内 存 指针 。 
然而 ， 一 个 对 象 与 存储 空间 物理 位 置 之 间 的 关联 可 能 随时 间 发 生 改 变 ， 标识 有 多 种 持久 程度 ; 
。 过 程 内 部 。 标 识 仅 在 单个 过 程 的 执行 期 间 保 持 。 过 程 内 部 标识 的 例子 是 过 程 内 的 局 部 变量 . 
。 程序 内 部 。 标 识 仅 在 单个 程序 或 查询 的 执行 期 间 保持 。 程 序 内 部 标识 的 例子 是 程序 设计 语言 
中 的 全 局 变量 。 主 存 或 虚拟 内 存 指针 只 提供 程序 内 部 标识 。 
。 程序 之 间 。 从 一 个 程序 执行 到 另 一 个 程序 执行 标识 都 会 保持 。 指 向 磁盘 上 的 文件 系统 数据 的 
指针 提供 了 程序 之 间 的 标识 ， 但 是 当 数据 在 文件 系统 中 的 存储 方式 发 生变 化 时 ， 它 们 有 可 能 
改变 。 
。 持久 的 。 标 识 的 保持 不 仅仅 跨越 了 各 个 程序 的 执行 ， 还 跨越 了 数据 的 结构 重组 。 这 种 持久 化 
正 是 面向 对 象 系统 所 要 求 的 。 
在 诸如 C++ 这 样 的 语言 的 持久 化 扩展 中 ， 持 久 对 象 的 对 象 标识 符 用 “持久 化 指针 ”来 实现 。 与 内 
存 指针 不 同 ， 持 久 化 指针 即使 在 程序 执行 结束 后 ， 并 且 跨 越 某 些 形式 的 数据 重组 ， 仍 然 是 有 效 的 
程序 员 可 以 像 使 用 程序 设计 语言 中 内 存 指 针 一 样 使 用 持久 化 指针 。 从 概念 上 ， 我们 可 以 将 持久 化 指 
针 看 作 指 向 数据 库 中 某 个 对 象 的 指针 。 
22. 8.3 持久 对 象 的 存储 和 访问 

在 数据 库 中 存储 一 个 对 象 的 含义 是 什么 ? 显然， 对 象 的 数据 部 分 必须 要 对 每 个 对 象 单独 进行 存 
储 。 在 逻辑 上 ， 实 现 类 的 方法 的 代码 应 该 与 类 的 类 型 定义 在 一 起 ， 作 为 数据 库 模 式 的 一 部 分 存储 在 [067 
数据 库 中 。 然 而 ， 许 多 实现 简单 地 将 代码 存储 在 数据 库 之 外 的 文件 中 ， 以 避免 将 如 编译 器 这 样 的 系 
统 软件 集成 到 数据 库 系统 中 。 

在 数据 库 中 寻找 对 象 的 方法 有 好 几 种 。 一 种 方法 是 为 对 象 命名 ， 正 如 我 们 为 文件 命名 一 样 。 这 
种 方法 适用 于 对 象 数 目 相 对 较 少 的 情况 ， 而 不 能 扩展 到 上 百 万 个 对 象 上 。 第 二 种 方法 是 将 对 象 标识 
符 或 指向 对 象 的 持久 化 指针 暴露 出 来 ， 使 它们 可 以 在 外 部 存储 。 与 名 称 不 同 ， 这 些 指针 不 必 是 易于 
记忆 的 ,它们 甚至 可 能 就 是 指向 数据 库 内 部 的 物理 指针 。 

第 三 种 方法 是 存储 对 象 的 集合 体 ， 并 人 允许 程序 在 集合 体 上 和 迭代 寻找 所 需 对 象 。 对 象 的 集合 体 本 

身 可 以 被 建 模 为 集合 体 类 型 的 对 象 。 集 合体 类 型 包括 集合 、 多 重 集合 ( 即 同一 个 值 可 能 出 现 多 次 的 集 
合 ) 、 列 表 等 。 集 合体 的 一 种 特殊 情形 是 类 区 间 ( class extent) ， 它 是 属于 该 类 的 所 有 对 象 的 集合 体 。 
当 一 个 类 存在 类 区 间 时 ， 那 么 该 类 的 一 个 对 象 一 旦 被 创建 ， 该 对 象 会 被 自动 插入 到 类 区 间 中 ， 并且 
一 旦 对 象 被 删除 ， 该 对 象 也 会 被 从 类 区 间 中 删除 。 由 于 我 们 能 检查 类 中 的 所 有 对 象 ， 正 如 我 们 可 以 
检查 一 个 关系 中 的 所 有 元 组 一 样 ， 类 区 间 允 许 像 关系 一 样 对 待 类 。 

多 数 面 向 对 象 数据 库 系统 都 支持 以 上 三 种 访问 持久 对 象 的 方法 。 它 们 将 标识 符 赋予 所 有 的 对 象 

一 般 只 对 类 区 间 和 其 他 集合 体 对 象 以 及 其 他 所 选择 的 对 象 赋予 名 字 ， 但 对 绝 大 多 数 对 象 并 没有 命名 
它们 通常 为 那些 可 以 有 持久 对 象 的 类 维护 类 区 间 ， 但 是 在 很 多 实现 中 ， 类 区 间 只 包括 类 的 持久 对 象 。 
22. 8.4 持久 化 C++ 系统 

已 经 有 一 些 基于 C++ 的 持久 化 扩展 的 面向 对 象 数据 库 ( 参 见 文献 注解 ) 。 它 们 在 系统 架构 上 有 一 

定 的 差异 ， 然 而 从 程序 设计 语言 的 角度 来 说 它们 有 很 多 公共 的 特性 。 
C++ 语言 的 一 些 面向 对 象 特性 为 持久 化 提供 支持 ， 而 无 需 改变 语言 本 身 。 例 如 ， 我 们 可 以 声明 一 个 
名 为 Persistent_Object 的 类 ， 它 具有 一 些 属性 和 方法 来 支持 持久 化 ; 其 他 任何 应 该 持久 的 类 可 以 成 为 这 个 
类 的 子 类 ， 从 而 继承 对 持久 化 的 支持 。C++ 语言 ( 像 其 他 现代 程序 设计 语言 一 样 ) 也 允许 我 们 根据 运算 对 
象 的 类 型 重新 定义 标准 函数 名 和 操作 符 ， 如 + 、- 、 指 针 内 容 操作 符 ( - > ) ， 等 等 。 这 种 能 力 被 称 为 重 
载 ; 它 用 于 重 定义 操作 符 ， 使 得 当 这 些 操作 符 在 持久 对 象 上 操作 时 能 够 按 所 需要 的 方式 工作 。 
通过 类 库 来 提供 持久 化 支持 具有 只 需 对 C++ 做 极 少 的 必要 修改 的 优点 ， 而 且 相 对 容易 实现 。 然 
而 ， 它 也 有 缺陷 ,程序 员 必须 要 花 更 多 的 时 间 书 写 处 理 持 久 对 象 的 程序 ， 并 且 很 难 在 模式 中 指定 完整 [968 | 
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性 约束 或 提供 对 声明 性 查询 的 支持 。 一 些 持久 化 C++ 的 实现 支持 对 C++ 语法 的 扩展 以 使 这 些 工作 更 
简单 一 些 。 

在 向 C++( 和 其 他 语言 ) 增 加 持久 化 支持 时 ， 需 要 注意 以 下 这 些 方面 : 

。 持久 指针 : 必须 定义 一 个 新 的 数据 类 型 以 表示 持久 指针 。 例 如 ，ODMCG C++ 标准 定义 了 一 个 模 

板 类 d_Ref <T> 以 表示 指向 类 7 的 持久 指针 。 在 这 个 类 上 的 取 值 操作 符 被 重 定义 为 从 磁盘 中 
(如 果 还 没有 存在 于 内 存 中 ) 获 取 对 象 ， 并 返回 一 个 指向 缓冲 区 的 内 存 指针 ， 该 缓冲 区 是 获取 对 
象 的 位 置 。 因 此 如 果 p 是 一 个 指向 类 了 的 持久 指针 ， 可 以 使 用 标准 语法 如 p - > A 或 者 p- > 
f(v) 来 访问 类 T 的 属性 A 或 者 调用 类 7 HITE fo 
ObjectStore 数据 库 系统 使 用 一 个 不 同 的 方法 来 实现 持久 指针 。 它 使 用 一 般 的 指针 类 型 来 存 
储 持久 化 指针 。 这 带 来 了 两 个 问题 (1) 内存 指针 大 小 可 能 只 有 4 字 节 ， 对 于 大 于 49G 的 数据 
库 而 言 太 小 了 ; (2) 当 一 个 对 象 在 磁盘 中 移动 ， 指 向 其 旧 物 理 位 置 的 内 存 指针 就 没有 意义 了 。 
ObjectStore 使 用 一 种 称 为 hardware swizzling” 的 技术 解决 这 两 个 问题 ; 它 从 数据 库 预 取 对 象 到 内 
存 中 ， 并 用 内 存 指针 替换 持久 指针 ， 当 数据 被 存储 回 磁 盘 时 ， 用 持久 指针 替换 内 存 指针 。 当 数 
据 在 磁盘 上 时 ， 存 储 在 内 存 指针 域 的 值 并 不 是 真正 的 持久 指针 ， 而 应 该 用 这 个 值 在 一 个 包含 完 
整 的 持久 指针 的 值 的 表 中 查找 。 
。 持久 对 象 的 创建 : C++ new 操作 符 用 于 通过 定义 一 个 “ 重 载 的 "版 本 的 操作 符 ( 用 额外 的 参数 
指定 它 应 该 被 创建 在 数据 库 中 ) 来 创建 持久 对 和 象 。 因 此 应 该 调用 new (db) T( ) 来 创建 一 个 持久 
对 象 ， 而 不 是 用 new T( ) ， 其 中 db 标识 数据 库 。 

。 类 区 间 : 每 个 类 的 类 区 间 是 自动 创建 和 维护 的 。0DMG C++ 标准 要 求 类 的 名 字 以 附加 参数 的 形 
式 传递 给 new 操作 。 这 还 允许 了 通过 传递 不 同 的 名 字 来 维护 类 的 多 个 区 间 。 

。 联系 : 类 之 间 的 联系 常常 通过 存储 每 个 对 象 指 向 其 相关 对 象 的 指针 来 实现 。 关 联 到 给 定 类 的 多 
个 对 象 的 对 象 将 存储 一 个 指针 的 集合 。 因 此 如 果 一 对 对 象 之 间 存 在 联系 ， 那 么 每 个 对 象 都 应 该 
存储 一 个 指向 另 一 个 对 象 的 指针 。 持 久 化 C++ 系统 提供 了 一 种 指定 这 种 完整 性 限制 ， 并 通过 
自动 创建 和 删除 指针 来 强制 这 种 完整 性 限制 的 方法 : 例如 ， 如 果 一 个 从 对 象 a 指 辐 对象 的 指 
针 被 创建 ， 则 自动 向 对 象 b 增加 一 个 指向 对 象 a 的 指针 。 

。 和 迭代 器 接口 : 由 于 程序 需要 在 类 成 员 上 和 迭代， 就 需要 一 个 接口 以 在 类 区 间 的 成 员 上 迭代。 和 迭代 
器 接口 还 允许 指定 选择 条 件 ， 从 而 只 有 满足 选择 谓词 的 对 象 才 需 要 被 获取 。 
事务 : 持久 化 C++ 系统 提供 对 启动 、 提 交 或 回 滚 一 个 事务 的 支持 。 

更 新 : 对 程序 设计 语言 提供 持久 化 支持 的 一 个 目标 是 允许 透明 的 持久 化 。 也 就 是 说 ， 一 个 操作 
在 对 象 上 的 函数 应 该 不 需要 知道 这 个 对 象 是 持久 的 ; 因此 ， 同样 的 函数 可 以 使 用 在 对 象 上 而 不 
需 考 虑 它们 是 否 是 持久 的 。 

但 是 存在 一 个 后 果 问 题 ， 那 就 是 很 难 探 知 对 象 在 何 时 完成 了 更 新 。 一 些 对 C++ 的 持久 化 
扩展 要 求 程序 员 通 过 调用 一 个 函数 mark_modified( ) 显示 指定 一 个 对 象 已 被 修改 了 。 除 了 增加 了 了 
程序 员 的 工作 ， 这 种 方法 还 增加 了 造成 数据 库 损坏 的 程序 错误 出 现 的 几率 。 如 果 一 个 程序 设计 
ARA T Xf mark_modified( ) 的 调用 ， 可 能 发 生 这 种 情况 : 某 个 事务 发 出 的 更 新 可 能 永远 不 会 
被 传送 给 数据 库 ， 而 同一 事务 的 另 一 个 更 新 被 传送 了 ， 这 将 破坏 事务 的 原子 性 。 

其 他 系统 ， 例 如 ObjectStore ， 使 用 操作 系统 /硬件 所 提供 的 对 内 存 保护 的 支持 来 检测 对 内 存 
块 的 写 操作 并 标记 这 个 块 为 一 个 脏 块 ， 脏 块 将 在 稍 后 被 写 到 磁盘 上 。 

。 查询 语言 : 迭代 器 对 简单 选择 查询 提供 支持 。 为 了 支持 更 加 复杂 的 查询 ， 持 久 化 C++ 系统 定 

义 了 一 个 查询 语言 。 

很 多 基于 C++ 的 面向 对 象 数据 库 系统 是 在 20 世纪 80 年 代 末 到 20 世纪 90 年 代 初 被 开发 出 来 的 。 
但 是 ， 这 种 数据 库 的 市 场 被 证 实 比 预期 的 小 很 多 ， 因 为 通过 如 ODBC 或 JDBC 的 接口 使 用 SQL 就 可 以 
充分 满足 大 多 数 的 应 用 需求 。 结 果 ， 那 个 时 期 开发 的 很 多 面向 对 象 数据 库 系 统 都 已 不 复 存在 了 。 对 象 
数据 管理 团体 (ODMG ) 在 20 世纪 90 年 代 定义 了 对 C++ 和 Java 增加 持久 化 的 标准 。 但 是 ， 这 个 团体 在 
2002 年 左右 停止 了 活动 。ObjectStore 和 Versant 是 最 初 的 面向 对 象 数据 库 系统 中 至 今 还 存在 的 。 


第 22 章 ”基于 对 象 的 数据 库 547 


尽管 面向 对 象 数据 库 系 统 没有 获得 人 们 所 希望 的 商业 上 的 成 功 ， 对 程序 设计 语言 增加 持久 化 的 动 
机 仍然 存在 。 很 多 有 高 性 能 需求 的 应 用 运行 在 面向 对 象 数据 库 系统 上 ; 使 用 SQL 会 对 很 多 这 种 系统 强 
加 过 高 的 性 能 代价 。 使 用 目前 提供 了 对 包括 引用 在 内 的 复杂 数据 类 型 的 支持 的 对 象 - 关系 数据 库 ， 在 
SQL 数据 库 中 存储 程序 设计 语言 对 象 变 得 更 加 容易 。 用 对 象 - 关系 数据 库 作 为 后 端的 新 一 代 的 面向 对 
象 数据 库 系统 可 能 会 出 现 。 
22.8.5 持久 化 Java 系统 
最 近 几 年 Java 语言 的 使 用 经 历 了 巨大 的 成 长 。 在 Java 程序 中 支持 数据 持久 化 的 需求 也 相应 地 增 
长 。 为 Java 中 的 持久 化 创建 一 个 标准 的 最 初 尝试 是 由 ODMG 协会 倡导 的 ; 随后 协会 终止 了 该 工作 ， 而 
是 将 其 设计 迁移 到 了 Java 数据 库 对 象 (Java Database Object, JDO) > Eo 该 项 研究 是 由 Sun 
Microsystems 协助 的 。 
用 于 Java 程序 对 象 持久 化 的 JDO 模型 不 同 于 用 于 C++ 程序 的 持久 化 支持 的 模型 。 其 特性 包括 : 
© 按 可 达 性 持久 : 对 象 并 不 是 在 数据 库 中 显 式 地 创建 的 。 显 式 地 注册 一 个 对 象 为 持久 的 (使 用 
PersistenceManager 类 的 makePersistent( ) 方 法) 使 得 这 个 对 象 是 持久 的 。 另 外 ， 任 何 从 一 个 持久 
对 象 可 达 的 对 象 都 是 持久 的 。 
© 字 节 代码 加 强 : 其 对 象 可 能 被 持久 化 的 类 在 一 个 配置 文件 ( 以 . jdo 为 后 级 ) 中 指定 ， 而 不 是 在 Java 
代码 中 声明 这 个 类 为 持久 的 。 执 行 一 个 依赖 于 实现 的 加 强 (enhancer) 程序 ， 该 程序 读 人 配置 文件 
并 完成 两 个 任务 。 第 一 ， 它 可 能 在 数据 库 中 创建 结构 以 存储 类 的 对 象 ; 第 二 ， 它 修改 字 节 代 码 
(通过 编译 Java 程序 而 生成 ) 以 处 理 与 持久 化 相关 的 任务 。 以 下 是 这 种 修改 的 一 些 例子 : 
口 任何 访问 对 象 的 代码 可 以 被 修改 为 首先 检查 对 象 是 否 在 内 存 中 ， 如 果 不 在 ， 则 执行 一 些 步 又 
将 其 读 入 内 存 中 。 
口 任何 修改 对 象 的 代码 被 修改 为 额外 地 记录 该 对 象 已 被 修改 。 这 些 代 码 还 可 能 被 修改 为 保存 一 
个 预 更 新 值 ， 以 防 这 个 更 新 需要 被 撤销 ( 即 如 果 事务 被 回 滚 ) - 
可 能 也 会 执行 对 字 节 代码 的 其 他 修改 。 这 种 字 节 代码 修改 是 可 能 的 ， 因 为 字 节 代码 是 跨 平 
台 的 标准 ， 且 比 编译 过 的 对 象 代 码 包 含 更 多 的 信息 。 
© 数据 库 映射 : JDO 没有 定义 数据 如 何 存储 在 后 端 数据 库 。 例 如 ， 一 个 普遍 的 场景 是 在 一 个 关系 
数据 库 中 存储 对 象 。 加 强 程序 可 能 在 数据 库 中 创建 一 个 合适 的 模式 以 存储 类 对 象 。 它 到 底 如 何 
做 到 这 一 点 是 依赖 于 实现 的 ， 且 不 是 由 JDO 定义 的 。 一 些 属性 可 能 被 映射 为 关系 属性 ， 而 其 他 
属性 可 能 以 序列 化 的 形式 存储 ， 被 数据 库 看 作 一 个 二 进 制 对 象 来 对 待 。JDO 实现 可 能 允许 通过 
定义 一 个 合适 的 映射 将 已 有 的 关系 数据 视 为 对 象 。 
类 区 间 : 每 个 声明 为 持久 的 类 的 类 区 间 是 自动 创建 和 维护 的 。 所 有 持久 对 象 被 自动 增加 到 对 应 
于 其 类 的 类 区 间 中 。JDO 程序 可 能 访问 一 个 类 区 间 ， 并 在 被 选择 的 成 员 上 和 迭代 。jJava 提供 的 
Iterator 接口 可 以 用 于 创建 类 区 间 上 的 迭代 器 ， 并 在 类 区 间 的 成 员 上 扫 过 。JDO 还 允许 当 在 一 个 
类 区 间 上 创建 迭代 器 时 指定 选择 条 件 ， 只 有 满足 选择 条 件 的 对 象 才 能 被 获取 。 
单个 引用 类 型 : 对 瞬 态 对 象 的 引用 和 对 持久 对 象 的 引用 之 间 在 类 型 上 没有 区 别 。 
一 种 实现 这 种 指针 类 型 的 统一 的 方法 是 将 整个 数据 库 载 人 到 内 存 ， 用 内 存 指针 代替 所 有 持 
久 指 针 。 更 新 完成 后 ， 执 行 相反 的 过 程 ， 将 已 更 新 的 对 象 写 回 到 磁盘 中 。 这 样 的 方法 对 于 大 型 
数据 库 将 是 非常 低 效 的 。 
我 们 现在 描述 另 一 种 可 选 的 方法 ， 它 允许 持久 对 象 在 需要 时 被 自动 取 到 内 存 中 ， 同 时 允许 
所 有 内 存 对 象 包含 的 引用 为 内 存 引 用 。 当 一 个 对 象 4 被 取 回 ， 为 其 引用 的 每 个 对 象 B, 创建 一 
个 空 对 象 (hollow object), A 的 内 存 副本 具有 对 每 个 B 对 应 的 空 对 象 的 引用 。 当 然 ， 系 统 必须 
保证 如 果 一 个 对 象 B; 已 经 被 取 回 ， 引 用 将 指向 这 个 已 经 取 回 的 对 象 而 不 是 创建 一 个 新 的 空 对 
象 。 类 似 地 ， 如 果 一 个 对 象 尚未 被 取 回 ,但 它 被 早先 已 经 取 回 的 另 一 个 对 象 引 用 ,那么 它 将 已 
经 有 了 一 个 为 它 创建 的 空 对 象 ; 对 已 有 空 对 象 的 引用 被 重用 ， 而 不 是 创建 一 个 新 的 空 对 象 
这 样 ， 对 于 每 个 已 经 取 回 的 对 象 0;,，0; 中 的 每 个 引用 或 者 指向 一 个 已 经 取 回 的 对 象 ， 或 
者 指向 一 个 空 对 象 。 空 对 象形 成 了 一 个 环绕 着 已 取 回 对 象 的 边缘 (fringe) 。 
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一 旦 程序 真正 去 访问 一 个 空 对 象 0， 加 强 的 字 节 代码 会 检测 到 它 ， 并 从 数据 库 中 取出 对 
象 。 当 这 个 对 象 被 取 回 ， 对 0 引用 的 所 有 对 象 执行 创建 空 对 象 的 相同 过 程 。 此 后 ， 对 该 对 象 的 
访问 允许 被 继续 。” 

需要 一 个 将 持久 指针 映射 到 内 存 引 用 的 内 存 索引 结构 来 实现 这 个 方案 。 在 把 对 象 写 回 到 磁 
盘 上 时 ， 需 要 使 用 这 个 索引 来 完成 在 要 写 回 磁盘 的 副本 中 用 持久 指针 代替 内 存 引 用 的 工作 。 


22.9 对 象 -关系 映射 


到 目前 为 止 , 我 们 已 经 看 到 了 两 种 将 面向 对 象 数 据 模 型 和 面向 对 象 编程 语言 整合 到 数据 库 系统 中 
的 方法 。 对 象 -关系 映射 ( object-relational mapping) 系统 提供 了 把 面向 对 象 编程 语言 和 数据 库 整 合 起 来 
的 第 三 种 方法 。 

对 象 -关系 映射 系统 建立 于 传统 关系 数据 库 之 上 。 它 允许 程序 员 定义 数据 库 关 系 中 的 元 组 与 程序 
设计 语言 中 的 对 象 之 间 的 映射 。 不 同 于 持久 化 程序 设计 语言 ， 对 象 是 瞬 态 的 ， 并 且 没有 持久 的 对 象 
标识 。 

可 以 基于 属性 上 的 选择 条 件 来 获取 一 个 对 象 或 对 象 的 集合 ; 按照 选择 条 件 从 底层 数据 库 中 将 相关 
数据 取出 ， 然 后 ， 基 于 预先 指定 的 对 象 和 关系 之 间 的 映射 ， 由 获取 的 数据 创建 出 一 个 或 多 个 对 象 。 程 
序 可 以 选择 性 地 更 新 这 样 的 对 象 、 创 建新 对 象 或 者 指定 某 个 对 象 将 被 删除 ， 随 后 发 出 一 个 执行 存储 的 
命令 ; 从 对 象 到 关系 的 映射 将 被 用 于 在 数据 库 中 相应 地 更 新 、 插 入 或 者 删除 元 组 。 

9.4.2 节 对 对 象 - 关系 映射 系统 做 了 宏观 的 描述 ， 并 特别 介绍 了 已 被 广泛 使 用 的 Hibernate 系统 ， 
EA Java 提供 了 对 象 -关系 映射 。 

对 象 -关系 映射 系统 的 首要 目标 是 通过 向 程序 员 提 供 对 象 模型 来 减轻 他 们 建造 应 用 的 工作 ， 同 时 
保持 了 在 底层 使 用 一 个 健壮 的 关系 数据 库 所 带 来 的 好 处 。 另 一 个 额外 的 好 处 是 ， 在 操纵 缓存 于 内 存 中 
的 对 象 时 ， 相 比 直接 访问 下 层 数 据 库 ， 对 象 -关系 系统 可 以 带 来 巨大 的 性 能 提升 。 

对 象 - 关系 映射 系统 也 提供 查询 语言 。 程 序 员 可 以 利用 查询 语言 直接 写 出 对 对 象 模型 的 查询 请 求 
这 种 查询 被 翻译 为 下 层 关系 数据 库 上 的 SQL 查询 ， 结 果 对 象 也 是 从 SQL 查询 结果 转换 而 来 的 。 

一 个 负面 影响 是 ， 对 象 -关系 映射 系统 可 能 会 面临 大 规模 数据 更 新 所 带 来 的 巨大 的 开销 ， 而 且 可 
能 仅 提 供 有 限 的 查询 能 力 。 不 过 ， 绕 过 对 象 - 关系 映射 系统 而 直接 更 新 数据 库 ， 以 及 直接 用 SQL 书写 
复杂 的 查询 也 都 是 可 行 的 。 对 于 大 多 数 应 用 ， 对 象 -关系 映射 系统 利 大 于 次 。 最 近 几 年 内 ， 对 象 - 关 
系 映射 系统 已 被 广泛 采用 。 


22.10 ”面向 对 象 与 对 象 - 关系 


我 们 现在 已 经 研究 了 对 象 -关系 数据 库 ， 它 是 建立 在 关系 模型 之 上 的 面向 对 象 数据 库 ; 也 研究 了 
面向 对 象 数据 库 ， 它 是 建立 在 持久 化 程序 设计 语言 基础 上 的 ; 还 研究 了 对 象 - 关系 映射 系统 ， 它 在 传 
统 关系 数据 库 之 上 构造 了 一 个 对 象 层 。 

以 上 每 种 方法 都 定位 于 不 同 的 市 场 。SQL 语言 的 声明 性 本 质 和 有 限 的 能 力 (与 程序 设计 语言 相 比 ) 
为 防止 程序 设计 错误 对 数据 造成 破坏 提供 了 很 好 的 保护 ， 同 时 使 得 一 些 高 级 优化 (例如 减少 1O) 相对 
容易 。( 我 们 已 在 第 13 章 曾 述 了 关系 表达 式 的 优化 。) 对 象 -关系 系统 的 目标 在 于 通过 使 用 复杂 数据 类 
型 使 得 数据 建 模 和 查询 更 加 容易 。 典 型 的 应 用 包括 复杂 数据 (包括 多 媒体 数据 ) 的 存储 和 查询 。 

然而 ， 对 于 那些 主要 在 主 存 中 运行 以 及 对 数据 库 进行 大 量 访 问 的 特定 类 型 的 应 用 来 说 ， 声 明 性 语 
言 ( 如 SQL) 会 带 来 显著 的 性 能 损失 。 持 久 化 程序 设计 语言 定位 于 那些 有 高 性 能 要 求 的 应 用 。 它 们 提供 
了 对 持久 数据 的 低 开销 存 取 ， 并 且 消 除了 数据 转换 的 需求 (如 果 这 些 数据 将 要 用 程序 设计 语言 来 进行 





昌 上 面 介绍 的 使 用 空 对 象 的 技术 与 hardware swizzling 技术 (在 前 面 的 22. 8. 4 节 提 到 过 ) 紧密 相关 。 一 些 持久 化 C++ 
实现 使 用 hardware swizzling 以 为 持久 指针 和 内 存 指针 提供 一 个 单 指针 类 型 。hardware swizzling 使 用 操作 系统 提供 
的 虚拟 内 存 保护 技术 来 检测 对 页 的 访问 ， 并 在 需要 时 从 数据 库 中 获取 页 。 相 反 ，jJava 版 本 修改 字 节 代码 来 检查 空 
对 象 ， 而 不 是 使 用 内 存 保 护 ， 且 在 需要 时 获取 对 象 而 不 是 从 数据 库 中 获取 整个 页 。 
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操纵 的 话 ) 。 但 是 ， 它 们 更 易于 导致 由 程序 错误 而 引起 的 数据 损坏 ， 并 且 通 常 缺乏 强大 的 查询 能 力 。 典 
型 的 应 用 包括 CAD 数据 库 。 
对 象 -关系 映射 系统 允许 程序 员 用 对 象 模型 来 生成 应 用 程序 ， 同 时 使 用 传统 数据 库 系 统 来 存储 数 
据 。 从 而 ， 它 们 结合 了 被 广泛 使 用 的 关系 数据 库 系 统 的 健壮 性 和 用 对 象 模 型 编写 应 用 的 威力 。 不 过 ， 
它们 需要 承受 在 对 象 模型 和 用 于 存储 数据 的 关系 模型 之 间 进行 数据 转换 所 带 来 的 运算 开销 
我 们 可 以 这 样 总 结 各 种 数据 库 系统 的 能 力 : 
。 关系 系统 : 简单 数据 类 型 ， 功 能 强大 的 查询 语言 ， 高 保护 性 。 
。 基于 持久 化 程序 设计 语言 的 面向 对 象 数据 库 : 复杂 的 数据 类 型 ， 与 程序 设计 语言 集成 ， 高 
性 能 。 

。 对 象 -关系 系统 : 复杂 数据 类 型 ， 强 大 的 查询 语言 ， 高 保护 性 。 

。 对 象 - 关系 映射 系统 : 集成 于 程序 设计 语言 中 的 复杂 数据 类 型 ， 设 计 为 位 于 关系 数据 库 系统 之 
上 的 一 层 。 

这 些 描述 一 般 来 说 是 成 立 的 ， 但 是 请 记 住 对 有 些 数据 库 系 统 来 说 这 里 的 分 界线 是 模糊 的 。 例 如 ， 
以 持久 化 程序 设计 语言 为 基础 而 建立 的 面向 对 象 数 据 库 系统 可 以 在 一 个 关系 数据 库 系统 或 对 象 -关系 
数据 库 系 统 之 上 实现 。 这 样 的 系统 的 性 能 可 能 低 于 那些 直接 建立 在 存储 系统 上 的 面向 对 象 数据 库 系统 ， 
但 它 提供 了 关系 系统 具有 的 一 些 更 强 的 保护 性 保证 。 [974 


22.11 总 结 


。 对 象 -关系 数据 模型 通过 提供 一 个 更 丰富 的 类 型 系统 ( 包括 集合 体 类 型 和 面向 对 和 象 ) 来 扩展 关系 数据 

模型 。 

集合 体 类 型 包括 抠 套 关系 、 集 合 、 多 重 集合 和 数组 ， 对 象 -关系 模型 允许 表 的 属性 为 集合 体 

面向 对 象 提供 了 子 类 型 和 子 表 的 继承 ， 以 及 对 象 (元 组 ) 引 用 。 

SQL 标准 包括 SQL 数据 定义 与 查询 语言 的 扩展 以 处 理 新 的 数据 类 型 和 面向 对 象 。 其 中 包括 对 以 集合 

体 为 值 的 属性 、 继 承 以 及 元 组 引用 的 支持 。 这 种 扩展 试图 在 扩展 建 模 能 力 的 同时 保持 关系 的 基础 ， 

尤其 是 对 数据 的 声明 性 的 访问 。 

。 对 象 -关系 数据 库 系统 ( 即 基于 对 象 -关系 模型 的 数据 库 系统 ) 为 希望 使 用 面向 对 象 特性 的 关系 数据 
库 用 户 提供 了 方便 的 移植 途径 。 

© C++ Ail Java 的 持久 化 扩展 无 缝 且 正 交 地 将 持久 化 整合 到 了 已 有 的 程序 设计 语言 结构 中 ， 因 而 易于 

使 用 。 

ODMG 标准 为 在 C++ 中 创建 和 访问 持久 对 象 定义 了 类 和 其 他 结构 ， 而 JDO 标准 为 Java 提供 了 相同 的 

功能 。 

© 对 象 - 关系 映射 系统 为 存储 在 关系 数据 库 中 的 数据 提供 了 对 象 访问 方式 。 对 象 是 瞬 态 的 ， 并 无 持久 

对 象 标识 的 概念 。 对 象 是 由 关系 数据 按 需 创建 的 ， 而 且 对 对 象 的 更 新 是 通过 更 新 关系 数据 来 实现 的 ， 

对 象 -关系 映射 系统 已 被 广泛 采用 。 相 比 之 下 ， 持 久 化 程序 设计 语言 的 应 用 要 少见 一 些 。 

我 们 讨论 了 持久 化 程序 设计 语言 和 对 象 -关系 系统 的 区 别 ， 并 且 提 到 了 二 者 的 选择 标准 。 








术语 回顾 

。 KBKA 。 结构 类 型 。 最 明确 类 型 
。 REKREA 。 方法 。 RHK 

。 复杂 类 型 o 行 类 型 ° Tk 

。 集合 体 类 型 。 构造 器 。 重合 的 子 表 
© 大 对 象 类 型 。 继承 。 引用 类 型 
。 集合 O 单 继承 。 引用 的 范围 
。 数组 口 多 重 继承 。 自 引 用 属性 
。 多 重 集合 。 类 型 继承 © 路 径 表 达 式 
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eae 口 按 创 建 e JDO 
© SQL 函数 和 过 程 口 按 标记 O 按 可 达 性 持久 
© 持久 化 程序 设计 语言 口 按 可 达 性 口 根 
。 持久 化 © ODMG C++ 绑 定 口 空 对 象 
口 按 类 ® ObjectStore © WR - 关系 映射 
实践 习题 
22. 1 一 个 汽车 租赁 公司 为 其 当前 车 队 中 的 所 有 车 辆 维护 着 一 个 数据 库 。 对 于 所 有 的 车 辆 ， 数 据 库 中 包括 的 


信息 有 车 辆 识别 号 、 牌 照 号 、 制 造 商 、 型 号 、 购 买 日 期 以 及 颜色 ， 对 于 某 些 类 型 的 车 辆 还 包含 特殊 的 
数据 : 
。 RE: 载 货 容量 。 
。 跑车 : 马力 、 对 租用 者 的 年 龄 限制 。 
。 ARKE: 载 客 数目 。 
。 越野 车 : 离 地 距离 、 驱 动 系统 (四 轮 或 两 轮 驱 动 ) 。 
为 这 个 数据 库 构 造 SQL 模式 定义 ， 在 适当 的 地 方 使 用 继承 。 
考虑 这 样 一 个 数据 库 模 式 ， 关 系 Emp 的 属性 如 下 所 示 ， 其 类 型 被 指定 为 多 值 属性 。 
Emp = (ename, ChildrenSet multiset( Children) , SkillSet multiset( Skills) ) 
Children = (name, birthday) 
Skills = (type, ExamSet setof( Exams ) ) 
Exams = (year, city) 
a. 用 SQL 定义 上 面 的 模式 ， 为 每 个 属性 使 用 适当 的 类 型 。 
b. 使 用 上 面 的 模式 ， 用 SQL 写 出 下 面 的 查询 。 
i 找 出 所 有 符合 条 件 的 职员 的 名 字 : 其 孩子 出 生 在 2000 年 1 月 1 日 以 后 (包括 2000 年 1 月 1 
A): 
ii. 找到 那些 在 “Dayton "城市 参加 过 技能 类 型 为 "typing "的 考试 的 职员 
ii. 列 出 关系 Emp 中 所 有 的 技能 类 型 。 
考虑 图 22-5 中 的 包含 成 分 属性 、 多 值 属 性 和 衍生 属性 的 E-R 图 。 


instructor 


ID 

name 
first_name 
middle_inital 
last_name 

address 
street 


street_number 

street_name 

apt_number 
city 


state 


zip 
{phone_number} 
date_of_birth 
age () 


图 22-5 包含 成 分 属性 、 多 值 属性 和 衍生 属性 的 E-R 图 


a 给 出 对 应 于 这 个 E-R 图 的 SQL 模式 定义 。 
b. 给 出 上 面 定义 的 每 一 个 结构 类 型 的 构造 器 。 





22.4 考虑 图 22-6 中 的 关系 模式 。 





employee (person_name, street, city) 


company (company_name, city) 


manages (person_name, manager_name) 


works (person_name, company-_name, salary) 





图 22-6 ”实践 习题 22. 4 的 关系 数据 库 


$228 基于 对 象 的 数据 库 


a. 给 出 对 应 于 该 关系 模式 的 SQL 中 的 一 个 模式 定义 ,但 是 要 使 用 引用 来 表达 外 码 关 系 。 


b. 基于 上 面 的 模式 使 用 SQL 书写 习题 6. 13 中 给 出 的 每 个 查询 。 

22.5 假设 你 受聘 为 顾问 ， 要 为 客户 的 应 用 选择 一 个 数据 库 系统 。 对 于 下 面 这 些 应 用 中 的 每 一 种 ， 
推荐 哪 种 类 型 的 数据 库 系 统 (关系 数据 库 、 基 于 持久 化 程序 设计 语言 的 面向 对 象 数据 库 、 对 象 - 关系 
数据 库 ; 无 需 指定 某 个 商业 产品 ) ， 并 且 解 释 你 的 推荐 的 正确 性 。 


a. 
b. 


c. 


为 飞机 制造 商 开 发 的 计算 机 辅助 设计 系统 。 
为 政府 机 关 设 计 的 对 候选 人 的 捐款 进行 追踪 的 系统 。 
支持 电影 制作 的 信息 系统 。 


22.6 面向 对 象 模型 中 对 象 的 概念 与 实体 - 联系 模型 中 的 实体 的 概念 有 什么 不 同 ? 


习题 


说 明 你 将 
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22.7 重新 设计 实践 习题 22. 2 中 的 数据 库 使 之 满足 第 一 范式 和 第 四 范式 。 列 出 你 所 设想 的 任何 函数 依赖 和 
多 值 依赖 。 同 时 列 出 在 第 一 范式 和 第 四 范式 的 模式 中 应 该 存在 的 所 有 的 参照 完整 性 约束 。 
22.8 考虑 实践 习题 22. 2 中 的 模式 。 


a. 


g 


d. 


给 出 SQL DDL 语句 来 创建 关系 Emp4， 它 与 关系 Emp 具有 
相同 的 信息 ,但 是 以 多 重 集 合 为 值 的 属性 ChildrenSet、 
SkillsSet 和 ExamsSet 被 替换 为 以 数组 为 值 的 属性 
ChildrenArray , SkillsArray 和 ExamsArray . 


. 写 出 一 个 查询 将 数据 从 Emp 的 模式 转化 为 Emp4 的 模式 ， 


其 中 children 数组 根据 出 生日 期 排序 ，skills 数组 根据 技能 
类 型 排序 ，exams 数组 根据 年 排序 。 


. Bit SQL 语句 对 Emp 关系 做 如 下 更 新 : 为 名 为 George 的 


职员 增加 一 个 出 生 于 2001 年 2 月 5 日 的 孩子 Jeb。 
写 出 SQL 语句 实现 与 上 面相 同 的 更 新 ,但 是 作用 在 EmpA 
关系 上 。 要 保证 children 数组 仍然 根据 出 生日 期 排序 。 


22.9 考虑 22.4 节 中 的 表 people， 以 及 继承 自 表 people 的 表 students 
和 teachers 的 模式 。 给 出 一 个 表示 相同 信息 的 满足 第 三 范式 
的 关系 模式 。 请 回想 子 表 上 的 约束 ， 给 出 为 使 得 关系 模式 的 每 个 数据 库 实例 也 可 以 用 一 个 带 有 继承 的 
模式 实例 所 表示 ， 所 必须 施加 在 该 关系 模式 上 的 所 有 约束 。 
22. 10 ”解释 类 型 x 与 引用 类 型 ref(x) 之 间 的 区 别 。 什 么 情况 下 你 会 选择 使 用 引用 类 型 ? 
考虑 图 22-7 中 的 E-R 图 。 其 中 包含 了 子 类 型 和 子 表 方式 的 特殊 化 结构 。 


22.11 


a0 Tp 


22 12 


工具 


. 给 出 该 E-R 图 的 一 个 SQL 模式 定义 。 
. 给 出 一 个 SQL 查询 ， 找 出 所 有 不 是 秘书 的 人 员 的 名 字 。 


可 能 创建 。 


. 给 出 一 个 SQL 查询 ， 打 印 既 不 是 职员 又 不 是 学 生 的 人 员 的 姓名 。 
. 能 否 在 你 创建 的 模式 中 创建 一 个 人 ,使 其 既是 职员 又 是 学 生 ? 解释 如 何 创建 ， 否 则 说 明 为 什么 不 





图 22-7 特殊 化 和 一 般 化 


设想 一 个 IDO 数据 库 有 一 个 对 象 4，4 引用 对 象 ，B 又 引用 对 象 C。 假 设 所 有 对 象 初始 时 都 在 磁盘 


Eo 设想 一 个 程序 首先 解除 引用 4， 然后 沿 着 4 的 引用 解除 引用 8B， 最 后 解除 引用 C。 给 出 每 次 解除 [977 
引用 后 表示 在 内 存 中 的 对 象 ， 以 及 它们 的 状态 ( 空 或 有 值 ， 以 及 它们 的 引用 字段 的 值 ) 。 


979 


在 对 对 象 -关系 特性 的 支持 上 ， 不 同 的 数据 库 产品 之 间 有 巨大 的 差异 。Oracle 大 概 是 主要 数据 库 厂商 中 
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具有 最 多 扩展 支持 的 。Informix 数据 库 系 统 提供 对 很 多 对 象 - 关系 特性 的 支持 。Oracle 和 Informix 都 是 在 
SQL: 1999 完成 之 前 提供 对 象 - 关系 特性 的 ， 它 们 还 具有 一 些 不 属于 SQL: 1999 的 特性 。 

关于 ObjectStore 和 Versant 的 信息 ， 包 括 试 用 版 本 的 下 载 ， 可 以 从 它们 各 自 的 Web 站 点 (objectstore. com 
和 versant. com) 上 获得 。Apache DB 项 目 (db. apache. org) 提供 了 一 个 Java 的 对 象 - 关系 映射 工具 ， 它 同时 支 
fF ODMG Java 和 JDO API, JDO 的 一 个 参考 实现 可 以 从 sun. com 获得 ; 请 使 用 搜索 引擎 查询 完整 的 URL. 


文献 注解 


有 很 多 SQL 的 面向 对 象 扩展 已 经 被 提出 。POSTGRES ( Stonebraker 和 Rowe [ 1986 ] 以 及 Stonebraker 
[1986 ] ) 是 对 象 -关系 系统 的 一 个 早期 实现 。 其 他 早期 对 象 -关系 系统 包括 0, 的 SQL 扩展 ( Bancilhon 等 
[1989] ) 和 UniSQL( UniSQL[1991]), SQL: 1999 是 一 个 扩展 的 (而 且 延 期 很 久 的 ) 标准 化 研究 的 成 果 ， 最 初 
由 向 SQL 中 加 入 面向 对 象 特性 开始 ， 而 最 终 添 加 了 很 多 其 他 的 特性 ， 例 如 我 们 前 面 看 到 的 程序 化 结构 。 对 
多 重 集合 类 型 的 支持 被 增加 为 SQL: 2003 的 一 部 分 。 

Melton[ 2002 ] 集中 讲述 了 SQL: 1999 的 对 象 - 关系 特性 。Eisenberg 4 [2004 ] 给 出 了 对 SQL: 2003 的 一 
个 概览 ， 包 括 它 对 多 重 集合 的 支持 。 

许多 面向 对 象 数 据 库 系统 是 在 20 世纪 80 年 代 末 到 20 世纪 90 年 代 初 开发 的 ， 其 中 比较 有 名 的 商业 系统 
有 ObjectStore( Lamb 等 [1991 ] ) 、0,( Lecluse 等 [1988] ) 和 Versant。Cattell[ 2000 ] 详细 地 介绍 了 对 象 数 据 库 

标准 ODMG。Roos[ 2002 ] Tyagi 等 [2003 ] 以 及 Jordan 和 Russell[ 2003 ] 介绍 了 JDO, 
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XML 


可 扩展 标记 语言 ( Extensible Markup Language, XML) 并 不 是 为 数据 库 应 用 而 设计 的 。 事 实 上 ， 就 像 
万 维 网 以 超 文本 标记 语言 (HTML ) 为 基础 一 样 ，XML 的 根源 为 文档 管理 ， 并 从 一 种 用 来 构造 大 型 文档 
的 语言 ( 称 为 标准 通用 标记 语言 (SGML) ) 派 生 而 来 。 但 是 ， 不 同 于 SGML 和 HTML, XML 是 用 来 表示 
数据 的 。 当 一 个 应 用 程序 必须 与 另 一 个 应 用 程序 进行 通信 或 是 从 一 些 其 他 的 应 用 程序 中 整合 信息 的 时 
候 ，XML 作为 一 种 数据 格式 特别 有 用 。 当 XML 在 这 些 场合 中 使 用 时 ， 会 出 现 许 多 数据 库 问 题 ， 包 括 
如 何 组 织 、 操 纵 和 查询 XML 数据 。 这 一 章 我 们 介绍 XML， 同 时 讨论 使 用 数据 库 技 术 的 XML 数据 管理 
和 XML 文档 格式 数据 的 交换 。 


23. 1 动机 


要 理解 XML， 理 解 其 根源 是 作为 文档 标记 语言 是 很 重要 的 。 标 记 ( markup) 这 个 术语 意 指 文档 中 任 
何不 想 用 于 打印 输出 的 部 分 。 例 如 ， 一 个 作者 创建 了 一 份 最 终 将 要 在 杂志 上 出 版 的 文档 ， 他 可 能 想 要 
做 一 些 关 于 如 何 排 版 的 注解 。 采 用 一 种 书写 这 些 注解 的 方式 来 将 注解 和 实际 内 容 区 分 开 是 很 重要 的 ， 
有 了 这 种 方式 ， 像 “这 个 词 用 大 号 字体 ， 粗 体 显示 "或 “这 里 插入 换行 "这 样 的 注解 就 不 会 被 印刷 在 杂志 
上 。 这 样 的 注解 传达 了 关于 文档 的 额外 信息 。 在 电子 文档 处 理 中 ， 标 记 语 言 ( markup language) 就 是 对 
文档 的 哪 部 分 是 内 容 、 哪 部 分 是 标记 以 及 标记 含义 的 形式 化 描述 。 

正如 数据 库 系 统 从 物理 文件 处 理 中 演化 发 展 为 提供 独立 的 逻辑 视图 ,标记 语言 从 说 明 如 何 打印 文 
档 各 部 分 的 指令 演化 发 展 为 指定 内 容 的 功能 。 比 如 ， 通 过 功能 化 标记 ， 表 示 章 节 标 题 的 文本 ( 对 于 本 节 
而 言 ， 是 “动机 "这 个 词 ) 就 被 标记 为 章节 的 标题 ， 而 不 是 以 大 号 、 粗 体 字 打印 的 文本 。 从 排版 角度 来 
看 ， 这 种 功能 化 标记 允许 文档 在 不 同情 况 下 有 不 同 的 格式 。 功 能 化 标记 还 有 助 于 一 个 大 文档 的 不 同 部 [981 | 
分 或 是 一 个 大 网 站 的 不 同 页 面 以 统一 的 方式 格式 化 。 更 重要 的 是 ， 功 能 化 标记 帮助 记录 文档 每 个 部 分 
在 语义 上 分 别 代表 什么 内 容 ， 并 相应 地 帮助 自动 提取 文档 的 关键 部 分 。 

对 于 包括 HTML, SGML 以 及 XML 在 内 的 标记 语言 家 族 ， 标 记 采 用 的 形式 是 封闭 在 尖 括 号 ( < > ) 内 
的 标签 (tag) 。 标 签 都 是 成 对 使 用 的 ， 以 < tag > 和 < /tag > 来 界定 该 标签 所 指 的 那 部 分 文档 的 开始 和 结 
束 。 例 如 ， 文 档 的 标题 可 以 如 下 标记 : 


<title > Database System Concepts < /title > 


Al HTML 不同 ，XML 没有 指定 的 标签 集 ， 每 个 应 用 可 以 选择 自己 需要 的 标签 集 。 这 项 特性 是 XML 
主要 用 于 数据 表示 和 交换 而 HTML 主要 用 于 文档 格式 化 的 关键 所 在 。 

例如 ， 在 我 们 采用 的 大 学 应 用 中 ， 系 、 课 程 以 及 教师 信息 可 以 表示 为 XML 文档 的 一 部 分 ， 如 图 
23-1 和 图 23-2 所 示 。 注 意 如 department, course, instructor 和 teaches 这 样 的 标签 的 使 用 。 为 了 使 例子 简 
单 ， 我 们 使 用 忽略 了 课程 段 信息 的 大 学 模式 简化 版 。 我 们 还 使 用 ID 标签 来 表示 教师 的 标识 符 。 稍 后 
我 们 将 分 析 其 原因 。 

这 些 标签 为 每 个 值 提供 了 上 下 文 环境 ,并 且 人 允许 识别 值 的 语义 。 对 于 这 个 例子 ，XML 数据 表示 并 不 
提供 任何 比 传统 关系 数据 表示 更 明显 的 优势 ; 但 是 由 于 它 简 洁 ， 所 以 我 们 使 用 这 个 例子 作为 讲解 实例 ， 

图 23-3 显示 了 关于 购物 订单 的 信息 如 何在 XML 中 进行 表示 ， 它 是 对 XML 的 一 个 更 加 现实 的 使 用 。 
典型 地 ， 购 物 订单 由 一 个 机 构 生 成 并 发 送 给 另 一 个 机 构 。 在 传统 方式 下 ， 这 些 订单 由 购买 者 打印 在 纸 上 
并 发 送 给 供应 商 ; 供应 商 手工 地 将 数据 重新 输入 计算 机 系统 。 这 个 缓慢 的 过 程 可 以 通过 在 购买 者 和 供应 
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商 之 间 电 子 化 传送 信息 而 大 幅 提 高 速度 。 骨 套 的 表示 方式 允许 购物 订单 里 的 所 有 信息 被 自然 地 表示 在 单 
个 文档 中 。( 真 实 的 购物 订单 比 这 个 简化 例子 中 描述 的 订单 具有 更 为 丰富 的 信息 。)XML 提供 了 给 数据 加 
标签 的 标准 方式 ; 当然 这 两 个 机 构 必 须 在 购物 订单 中 出 现 什 么 标签 以 及 这 些 标 签 的 含义 上 达成 一 致 





<university> 

<department> 
<dept_name> Comp. Sci. </dept_name> 
<building> Taylor </building> 
<budget> 100000 </budget> 

</department> 

<department> 
<dept_name> Biology </dept_name> 
<building> Watson </building> 
<budget> 90000 </budget> 

</department> 

<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> 
<dept_name> Comp. Sci </dept_name> 
<credits> 4 </credits> 

</course> 

<course> 
<course_id> BIO-301 </course id> 
<title> Genetics </title> 
<dept_name> Biology </dept_name> 
<credits> 4 </credits> 








<instructor> 
<IID> 10101 </IID> 
<name> Srinivasan </name> 
<dept_name> Comp. Sci. </dept-_name> 
<salary> 65000 </salary> 
</instructor> 
<instructor> 
<IID> 83821 </IID> 
<name> Brandt </name> 
| <dept name> Comp. Sci. </dept name> 
| <salary> 92000 </salary> 
| </instructor> 
<instructor> 
<IID> 76766 </IID> 
<name> Crick </name> 
| <dept-name> Biology </dept-name> 
| <salary> 72000 </salary> 
| </instructor> 
| <teaches> 
<IID> 10101 </IID> 
<course_id> CS-101 </course_id> 
</teaches > 
<teaches> 
<IID> 83821 </IID> 
<course_id> CS-101 </course_id> 
</teaches> 
<teaches> 
<IID> 76766 </IID> 





</course> <course_id> BIO-301 </course_id> 
</teaches> 
后 部 见 图 23-2 </university> 
图 23-1 (部 分 ) 大 学 信息 的 XML 表示 图 23-2 续 图 23-1 





<purchase_order> 


<purchaser> 


</purchaser> 
<supplier> 


</supplier> 
<itemlist> 
<item> 


</item> 
<item> 


</item> 
</itemlist> 


</purchaseorder> 





<identifier> P-101 </identifier> 


<identifier> SG2 </identifier> 
<description> Superb glue </description> 
<quantity> 1 </quantity> 
<unit-of-measure> liter </unit-of-measure> 
<price> 29.95 </price> 


| 
<name> Cray Z. Coyote </name> | 
<address> Mesa Flats, Route 66, Arizona 12345, USA </address> | 


<name> Acme Supplies </name> | 
<address> 1 Broadway, New York, NY, USA </address> 


<identifier> RS1 </identifier> 

<description> Atom powered rocket sled </description> 
<quantity> 2 </quantity> 

<price> 199.95 </price> | 


<total_cost> 429.85 </total_cost> 
<payment_terms> Cash-on-delivery </payment_terms> 
<shipping-mode> 1-second-delivery </shipping-mode> 





23-3 


一 份 购物 订单 的 XML 表示 
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与 关系 数据 库 中 的 数据 存储 相 比 ，XML 表示 方式 可 能 效率 不 高 ， 因 为 标签 名 称 在 整个 文档 中 被 反 
复 使 用 。 尽 管 有 这 些 不 利之 处 ， 但 XML 表示 方式 在 用 于 机 构 间 的 数据 交换 ， 以 及 在 文件 中 存储 复杂 结 
构 信 息 时 有 相当 大 的 优势 : 

。 首先 ， 标 签 的 存在 使 得 消息 是 自 描述 的 ( self-documenting) ; 也 就 是 说 ， 不 需要 参考 模式 就 可 以 

理解 文本 的 含义 ”比如 我 们 可 以 很 容易 地 阅读 上 述 段落 。 

。 其 次 ,文档 的 格式 不 严格 。 例 如 ， 如 果 某 些 发 送 者 增加 了 一 些 附加 信息 ， 如 记录 访问 某 账户 最 
后 日 期 的 标签 last_accessed，XML 数据 接收 者 可 以 简单 地 忽略 这 个 标签 。 图 23-3 给 出 了 另 一 个 
例子 ， 其 中 标识 符 为 SC2 的 物品 有 一 个 被 称 为 unit-of-measure 的 指定 标签 ， 而 第 一 件 物品 并 没 
有 这 个 标签 。 当 物品 根据 重量 或 体积 排序 时 需要 使 用 这 个 标签 ， 而 当 物 品 只 是 简单 地 根据 数量 
排序 时 ， 则 可 以 省 略 这 个 标签 。 

这 种 识别 和 忽略 未 预料 到 的 标签 的 能 力 使 得 数据 格式 可 以 随时 间 不 断 演化 ， 而 不 需要 舍弃 
现 有 的 应 用 程序 。 类 似 地 ， 同 样 的 标签 可 以 多 次 出 现 的 能 力 使 得 可 以 容易 地 表示 多 值 属性 。 

。 再 次 ，XML AREH, K 23-3 中 所 示 的 购物 订单 显示 了 拥有 缸 套 结构 的 好 处 。 每 份 购物 
订单 都 有 一 个 购买 者 和 一 个 物品 清单 作为 它 的 两 个 租 套 结构 。 而 每 件 物品 中 都 罕 套 地 包含 物品 
标识 符 、 说 明和 价格 ， 而 购买 者 垦 套 地 包含 姓名 和 地 址 。 

这 样 的 信息 在 关系 模式 中 将 被 拆 分 成 多 个 关系 。 物 品 信息 将 存储 在 一 个 关系 中 ， 购 买 者 信 
息 存储 在 第 二 个 关系 中 ， 购 物 订单 存储 在 第 三 个 关系 中 ， 而 购物 订单 、 购 买 者 和 物品 之 间 的 联 
系 将 存储 在 第 四 个 关系 中 。 

关系 化 表示 有 助 于 避免 元 余 。 例 如 ， 在 规范 化 关系 模式 中 ， 对 于 每 个 物品 标识 符 的 物品 说 
明 只 存储 一 次 。 但 在 XML 购物 订单 中 ， 如 果 多 个 购物 订单 订购 了 相同 的 物品 ， 物 品 说 明 可 能 
会 重复 出 现 。 尽 管 如 此 ， 当 需要 与 外 部 团体 进行 信息 交换 时 ， 即 使 要 付出 元 余 的 代价 ， 能 够 将 
与 一 份 购物 订单 相关 的 所 有 信息 集中 到 一 个 单一 的 垦 套 结构 中 ,仍然 是 有 吸引 力 的 。 

。 最 后 ， 由 于 XML 格式 被 广泛 接受 ， 所 以 有 各 种 各 样 的 工具 可 用 来 辅助 对 它 的 处 理 ， 包 括 创建 
和 读 取 XML 数据 的 程序 设计 语言 API、 浏 览 器 软件 和 数据 库 工具 。 

我 们 在 后 面 的 23.7 节 介 绍 XML 数据 的 几 个 应 用 。 正 如 SQL 是 查询 关系 数据 的 主导 语言 ，XML 已 

经 成 为 数据 交换 的 主导 格式 。 


23.2 XML 数据 结构 


XML 文档 中 基本 的 结构 是 元 素 (element) 。 一 个 元 素 就 是 一 对 互相 匹配 的 开始 和 结束 标签 ， 以 及 它 
们 之 间 出 现 的 所 有 文本 。 

XML 文档 必须 有 一 个 独立 的 根 (root ) 元 素来 包含 文档 里 的 所 有 其 他 元 素 。 在 图 23- 1 的 例子 中 ， 
< university > 元 素 构成 了 根 元 素 。 此 外 ，XML OM PM TCR YATE RE (nest), ean: 


< course > … <title> … </title > --- </course > 


是 正确 的 嵌 套 ， 而 
< course > … <title> … </course > … </title > 

就 不 是 正确 的 拱 套 。 

尽管 正确 的 符 套 是 一 种 直觉 特性 ， 我 们 仍 可 以 更 形式 化 地 定义 它 。 如 果 文 本 在 某 元 素 的 开始 标签 
和 结束 标签 之 间 出 现 ， 那 么 称 该 文本 出 现在 该 元 素 的 上 下 文中 (in the context of) 。 如 果 每 个 开始 标签 都 
在 同一 个 父 元 素 的 上 下 文中 有 唯一 的 结束 标签 与 之 匹配 ， 那 么 该 标签 就 是 正确 侍 套 的 。 

注意 文本 可 能 会 和 一 个 元 素 的 子 元 素 混合 在 一 起 ， 如 图 23-4 所 示 。 和 一 些 XML 的 其 他 特性 一 样 ， 
这 种 自由 在 文档 处 理 环 境 中 比 在 数据 处 理 环 境 中 更 有 意义 ， 而 且 对 表示 结构 化 程度 更 高 的 数据 如 XML 
中 的 数据 库 内 容 并 不 是 特别 有 用 。 

这 种 在 其 他 元 素 内 嵌 套 元 素 的 能 力 为 信息 表示 提供 了 一 种 可 选 的 途径 。 图 23-5 展示 了 图 23-1 中 部 
分 大 学 信息 的 表示 ， 但 course TRREL department 元 素 中 。 这 种 垦 套 表示 能 容易 地 找 出 一 个 系 所 开 
设 的 所 有 课程 。 类 似 地 ,教师 所 讲授 课程 的 标识 符 被 钳 套 在 instructor 元 素 中 。 如 果 某 位 教师 讲授 多 门 
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课程 ， 那 么 对 应 的 instructor 元 素 中 将 会 有 多 个 course_id 元 素 。 限 于 篇 幅 ， 23-5 中 省 略 了 教师 Brandt 
和 Crick 的 详细 信息 ， 但 它们 与 教师 Srinivasan 的 结构 相似 。 





<course> 
This course is being offered for the first time in 2009. 
<course_id> BIO-399 </course_id> 
<title> Computational Biology </title> 
<dept.name> Biology </dept-name> 
<credits> 3 </credits> 

</course> 





23-4 ”文本 与 子 元 素 的 混合 





<university-1> 
<department> 
<deptname> Comp. Sci. </dept-name> 
<building> Taylor </building> 
<budget> 100000 </budget> 
<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> 
<credits> 4 </credits> 
</course> 
<course> 
<course_id> CS-347 </course_id> 
<title> Database System Concepts </title> | 
<credits> 3 </credits> 
</course> 
</department> 
<department> 
<dept_name> Biology </dept_name> 
<building> Watson </building> 
<budget> 90000 </budget> 
<course> 
<course_id> BIO-301 </course_id> 
<title> Genetics </title> 
<credits> 4 </credits> 
</course> 
</department> 
<instructor> 
<IID> 10101 </IID> 
<name> Srinivasan </name> 
<dept_name> Comp. Sci. </dept_name> 
<salary> 65000. </salary> 
<course_id> CS-101 </course_id> 
| </instructor> 
| </university-1> 











图 23-5 KAR BARE XML 表示 


尽管 XML 中 的 嵌 套 表示 是 自然 的 ， 但 是 ， 这 会 导致 数据 存储 的 元 余 。 例 如 ， 如 图 23-6 所 示 ， 候 
设 某 位 教师 讲授 的 课程 的 细节 被 嵌 套 存储 于 instructor 元 素 中 ， 如 果 某 门 课程 被 多 位 教师 讲授 ,课程 信 
息 (如 题目 、 院 系 及 学 分 ) 会 元 余地 存储 在 每 位 与 该 课程 相关 联 的 教师 中 。 
586| ”为 了 避免 连接 ， 嵌 套 表示 在 XML 数据 交换 应 用 中 广 为 使 用 。 例 如 ， 一 次 订购 会 在 多 份 购物 订单 上 
987 | 宛 余 地 存储 发 送 者 和 接收 者 的 完整 地 址 ， 而 规范 化 表示 可 能 需要 将 购物 订单 记录 与 关系 company_ 
address 进行 连接 以 获得 地 址 信息 。 
除了 元 素 以 外 ，XML 还 定义 了 属性 ( attribute) 的 概念 。 例 如 ， 课 程 的 标识 符 可 以 表示 为 课程 的 一 
个 属性 ， 如 图 23-7 所 示 。 一 个 元 素 的 属性 作为 在 标签 的 结束 符 ” > "之 前 的 name = value 对 出 现 。 属 性 
是 字符 串 ， 不 包含 标记 。 此 外 ， 属 性 在 给 定 标签 中 只 可 以 出 现 一 次 ， 不 像 子 元 素 那样 可 以 重复 。 
注意 在 文档 构造 环境 中 ， 子 元 素 和 属性 之 间 的 区 别 很 重要 一 一 属性 是 隐 式 的 、 不 出 现在 打印 或 显 
示 文 档 中 的 文本 。 但 是 在 数据 库 和 XML 的 数据 交换 应 用 中 ， 这 种 区 别 不 那么 重要 ， 选 择 将 数据 表示 为 
属性 还 是 子 元 素 常常 是 随意 的 。 总 之 ， 仅 将 属性 用 于 表示 标识 符 ， 而 将 所 有 其 他 数据 存放 于 子 元 素 中 
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是 明智 的 。 





| <university-2> 
<instructor> 
<ID> 10101 </ID> 
<name> Srinivasan </name> 
<dept.name> Comp. Sci.</dept_name> 
<salary> 65000 </salary> 
<teaches> 
<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> 
<dept_name> Comp. Sci. </dept_name> 
<credits> 4 </credits> 
</course> 
</teaches> 
</instructor> 


<instructor> 
<ID> 83821 </ID> 
<name> Brandt </name> 
<dept name> Comp. Sci. </dept_name> 
<salary> 92000 </salary> 
<teaches> 
<course> 
<course_id> CS-101 </course_id> 
<title> Intro. to Computer Science </title> 
<dept_name> Comp. Sci. </dept name> 
| <credits> 4 </credits> 
</course> 
| </teaches> 
</instructor> 
</university-2 > 











图 23-6 WE XML 表示 中 的 元 余 





<course course_id= “CS-101"> 
<title> Intro. to Computer Science </title> 
| <dept_name> Comp. Sci. </dept_name> 
| <credits> 4 </credits> 
</course> 





图 23-7 属性 的 使 用 


最 后 一 个 有 关 句 法 的 注意 事项 是 ， 有 一 种 形 为 < element > < /element > 的 元 素 ， 它 不 包含 任何 子 元 
素 或 文本 ， 可 以 缩写 为 <element > ; 但 是 缩写 的 元 素 可 以 包含 属性 。 

由 于 设计 XML 文档 是 为 了 应 用 程序 之 间 的 交换 ， 为 了 人 允许 组 织 机 构 指定 全 球 唯一 的 名 字 作 为 文档 
中 的 元 素 标签 使 用 ， 所 以 就 引入 了 名 字 空 间 ( namespace ) 机制。 名 字 空 间 的 思想 就 是 在 每 个 标签 或 属性 
的 前 面 加 上 通用 资源 标识 符 ( 比如 网 址 ) 。 举 例 来 说 ， 如 果 耶 鲁 大 学 想 确保 创建 的 XML 文档 中 的 标签 不 
会 与 任何 商业 伙伴 的 XML 文档 中 的 标签 重复 ， 可 以 在 每 个 标签 名 称 前 面 加 上 一 个 唯一 标识 符 ， 并 用 冒 
号 相隔 。 该 大 学 可 能 使 用 如 下 Web URL: 

http: //www. yale. edu 


作为 唯一 标识 符 。 在 每 个 标签 中 都 使 用 长 唯一 标识 符 很 不 方便 ， 所 以 名 字 空 间 标准 提供 了 一 种 定义 标 
识 符 缩 写 的 方法 。 

在 图 23-8 H, RICK (university) 有 个 属性 xmins; yale， 它 声明 yale 被 定义 为 上 述 给 定 URL 的 缩 
写 。 这 个 缩写 随后 可 用 于 各 种 元 素 标签 中 ， 如 图 23-8 中 所 示 。 

一 份 文档 可 以 有 不 止 一 个 名 字 空 间 ， 它 们 声明 为 根 元 素 的 一 部 分 。 不 同 元 素 可 以 与 不 同名 字 空 间 
相关 联 。 可 以 通过 在 根 元 素 中 使 用 属性 xmlns 代替 xmlns: yale 来 定义 默认 名 字 空 间 ( default 
namespace), WA BAF HARM ICR MI FRU FS ial. 
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<university xmins:yale=“http://www.yale.edu'> 


<yale:course> 
<yale:course_id> CS-101 </yale:course_id> 
<yale:title> Intro. to Computer Science</yale:title > 
| <yale:dept_name> Comp. Sci. </yale:dept_name> 
| <yale:credits> 4 </yale:credits> 
</yale:course> 


| </university> 
图 23-8 通过 使 用 名 字 空 间 来 指定 唯一 标签 名 


有 时 我 们 需要 存储 包含 标签 的 值 而 又 不 想 将 其 中 的 标签 解释 为 XML 的 标签 。 为 了 能 这 样 做 ，XML 
允许 这 样 的 结构 : 





< ! [CDATAL <course>…</course > ] ] > 


因为 文本 < course > 包含 在 CDATA 中 ,所 以 它 被 作为 正常 的 文本 数据 ， 而 不 是 当 作 标签 。 术 语 
CDATA 代表 字符 数据 。 


23.3 XML 文档 模式 


数据 库 有 模式 ， 用 来 限制 什么 信息 可 以 存储 在 数据 库 中 并 限制 存储 信息 的 数据 类 型 。 与 此 相反 ， 
在 默认 情况 下 XML 文档 可 以 不 需 任 何 相关 模式 而 被 创建 : 这 样 ， 一 个 元 素 可 以 有 任意 的 子 元 素 或 属 
性 。 虽 然 在 XML 文档 给 定 了 数据 格式 的 自 描述 特性 的 情况 下 ， 这 样 的 自由 有 时 是 可 以 接受 的 , 但 是 当 
XML 文档 必须 作为 应 用 程序 的 一 部 分 进行 自动 处 理 时 ， 甚 至 当 大 量 的 相关 数据 需要 在 XML 中 进行 格 
式 化 时 ， 这 种 自由 通常 是 没有 用 处 的 。 

在 此 ， 我 们 介绍 作为 XML 标准 组 成 部 分 的 第 一 种 模式 定义 语言 一 一 文档 类 型 定义 ,以 及 新 近 被 定 
义 的 其 替代 者 一 一 XML 模式 (XML schema) 。 另 外 一 个 也 被 使 用 的 XML 模式 定义 语言 称 作 Relax NG, 
但 是 我 们 在 这 里 并 不 介绍 它 ; 关于 Relax NG 的 更 多 信息 ， 请 参阅 文献 注解 部 分 的 参考 文献 。 
23.3.1 文档 类 型 定义 

文档 类 型 定义 ( Document Type Definition, DTD) 是 XML 文档 的 一 个 可 选 部 分 。DTD 的 主要 目的 与 
模式 很 像 : 对 文档 中 出 现 的 信息 进行 约束 和 类 型 限定 。 但 是 事实 上 DTD 并 不 限制 基本 类 型 ( 如 整数 和 
字符 串 ) 意义 上 的 类 型 ， 它 只 限制 元 素 中 子 元 素 和 属性 的 出 现 。DTD 主要 是 有 关 一 个 元 素 中 可 以 出 现 
何 种 模式 的 子 元 素 的 一 系列 规则 。 图 23-9 展示 了 一 个 大 学 信息 文档 的 DTD 实例 的 一 部 分 .图 23-1 中 
的 XML 文档 就 遵循 该 DTD。 


<!DOCTYPE university [ 
<!ELEMENT university ( (department|course|instructor|teaches)+)> 
<!ELEMENT department ( dept_name, building, budget)> 
<!ELEMENT course ( course id, title, dept.name, credits)> 
<!ELEMENT instructor (IID, name, dept_name, salary)> 
<!ELEMENT teaches (IID, course_id)> 
<!ELEMENT dept_name( #PCDATA )> 
<!ELEMENT building( #PCDATA )> 
<!ELEMENT budget( #PCDATA )> 
<!ELEMENT course_id ( #PCDATA )> 
<!ELEMENT title ( #PCDATA )> 
<!ELEMENT credits( #PCDATA )> 
<!ELEMENT IID( #PCDATA )> 
<!ELEMENT name( #PCDATA )> 
<!ELEMENT salary( #PCDATA )> 











图 23-9 一 个 DTD 示例 

每 个 声明 都 以 一 个 元 素 的 子 元 素 的 正则 表达 式 形式 出 现 。 这 样 ， 在 图 23-9 的 DTD 中 , 一 个 
university 元 素 包 含 一 个 或 多 个 course, department 或 instructor 元 素 ;“ | ”操作 符 意 指 “或 "， 而 “+" 操 
作 符 意 指 “ 一 个 或 多 个 "。 还 有 两 个 操作 符 在 这 里 没有 出 现 :“ * ”操作 符 用 来 表示 “ 零 个 或 多 个 ”， 而 
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“7” 操 作 符 用 来 指定 一 个 可 选 的 元 素 ( 即 “ 零 个 或 一 个 ” )。 

course 元 素 包 含 子 元 素 course_id、title、dept_name 和 credits ( 按 此 顺序 )。 类 似 地 ， 在 DTD 中 ， 
department 和 instructor 将 它们 的 关系 模式 属性 定义 为 子 元 素 。 

最 后 ， 元 素 course_id title, dept_name , credits, building, budget, IID, name 和 salary 都 被 声明 为 
#PCDATA 类 型 。 关 键 字 #PCDATA 表示 文本 数据 ; 它 的 名 字 在 历史 上 来 源 于 “被 解析 的 字符 数据 ” 
(parsed character data) 。 另 外 两 种 专门 的 类 型 声明 是 empty( 是 说 这 个 元 素 没有 内 容 ) 和 any( 是 说 对 这 个 
元 素 的 子 元 素 没 有 限制 ; 也 就 是 说 ， 任 何 元 素 甚 至 没有 在 DID 中 提 到 的 元 素 都 可 以 作为 该 元 素 的 子 元 
素 出 现 ) 。 一 个 元 素 没有 声明 等 同 于 将 其 显 式 地 声明 为 any 类 型 。 

每 个 元 素 所 允许 的 属性 也 在 DTD 中 声明 。 与 子 元 素 不 同 ， 属 性 没有 顺序 之 分 。 属 性 可 以 指定 为 
CDATA, ID, IDREF 或 IDREFS 类 型 。CDATA 类 型 只 是 说 这 个 属性 包含 字符 数据 ， 而 另外 三 个 就 没有 
这 么 简单 ， 一 会 儿 将 对 它们 进行 详细 解释 。 例 如 ， 下 面 是 来 自 DTD 中 的 一 行 ， 它 指定 course 元 素 有 个 
类 型 为 course_id 的 属性 ， 并 且 该 属性 必须 有 值 。 

<! ATTILIST course course_id CDATA #REQUIRED > 


属性 必须 有 一 个 类 型 声明 和 一 个 默认 声明 。 默 认 声 明 可 以 包含 该 属性 的 一 个 默认 值 ， 也 可 以 包含 # 
REQUIRED ( 意思 是 每 个 元 素 在 该 属性 上 必须 指定 一 个 值 ) 或 上 MPLIED( 意思 是 指 没有 提供 默认 值 ， 文 
档 可 以 忽略 这 个 属性 ) 。 如 果 一 个 属性 有 默认 值 ， 那 么 对 每 个 没有 为 该 属性 指定 值 的 元 素 ， 这 个 默认 值 
在 读 取 XML 文档 时 被 自动 填 进 去 。 

类 型 为 ID 的 属性 提供 该 元 素 的 唯一 标识 符 ; 出 现在 一 个 元 素 的 ID 属性 中 的 值 一 定 不 能 在 同一 文 
档 中 的 任何 其 他 元 素 中 出 现 。 一 个 元 素 最 多 只 有 一 个 属性 允许 为 了 D 类 型 。( 在 XML 表示 中 ， 为 了 避免 
与 ID 类 型 的 冲突 ， 我们 将 instructor 关系 的 ID 属性 更 名 为 ID。) 

类 型 为 IDREF 的 属性 是 对 一 个 元 素 的 引用 ， 这 个 属性 必须 包含 出 现在 文档 中 某 个 元 素 的 ID 属性 
上 的 值 。IDREFS 类 型 允许 以 空格 分 开 的 一 个 引用 列表 。 

图 23-10 展示 了 一 个 DTD 示例 ， 其 中 课程 、 系 和 教师 的 标识 用 ID 属性 来 表示 ， 而 它们 之 间 的 联系 
用 IDREF 和 IDREFS 属性 来 表示 。course 元 素 使 用 course_id 作为 它们 的 标识 符 属性 。 为 了 做 到 这 一 点 ， 
course_id 被 设置 为 course 的 一 个 属性 而 不 是 子 元 素 。 此 外 ， 每 个 course 元 素 还 包含 一 个 与 该 course 对 
应 的 department 的 IDREF 属性 ， 以 及 一 个 IDREFS 属性 instructors， 它 表示 讲授 该 课程 的 那些 教师 。 
department 元 素 具有 一 个 称 作 dept_name 的 标识 符 属 性 instructor 元 素 具 有 一 个 称 作 ID 的 标识 符 属 性 ， 
以 及 一 个 IDREF 属性 dept_name， 表 示 该 教师 所 在 的 系 。 


| <IDOCTYPE university-3 [ | 
| <!ELEMENT university ( (department|course|instructor)+)> | 
<!ELEMENT department ( building, budget )> 
<!ATTLIST department 
dept_name ID #REQUIRED > 
<!ELEMENT course (title, credits )> 
<!ATTLIST course 
course_id ID #REQUIRED 
| dept-name IDREF #REQUIRED 
| instructors IDREFS #IMPLIED > 
<!ELEMENT instructor ( name, salary )> 
<!ATTLIST instructor 
IID ID #REQUIRED 
dept_name IDREF #REQUIRED > 
--- declarations for title, credits, building, 
budget, name and salary -- - 


] > 
图 23-10 具有 ID 和 IDREFS 属性 类 型 的 DTD 


图 23-11 展示 了 一 个 基于 图 23-10 中 DTD 的 XML 文档 示例 。 
ID 和 IDREF 属性 在 面向 对 象 和 对 象 - 关系 数据 库 中 扮演 着 同样 的 引用 机 制 的 角色 ， 人 允许 构造 复杂 
数据 关系 。 
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| <university-3> 
<department dept_name="Comp. Sci.” > 
<building> Taylor </building> 
<budget> 100000 </budget> 
</department> 
<department dept_name="Biology”> 
<building> Watson </building> 
<budget> 90000 </budget> 
</department> 
<course course_id="CS-101" dept-name="Comp. Sci” 
instructors="10101 83821” > 
<title> Intro. to Computer Science </title> 
<credits> 4 </credits> 
</course> 
- <course course_id="BIO-301”" dept_name=“Biology™ 
instructors="76766" > 
<title> Genetics </title> 
<credits> 4 </credits> 
</course> 
<instructor IID="10101" dept_name="Comp. Sci.” > 
<name> Srinivasan </name> 
<salary> 65000 </salary> 
</instructor> 
<instructor IID="83821" dept-name="Comp. Sci.” > 
<name> Brandt </name> 
<salary> 72000 </salary> 
</instructor> 
<instructor IID="76766" dept_name="Biology”> 
<name> Crick </name> 
<salary> 72000 </salary> 
</instructor> 
</university-3> 














K 23-11 具有 ID 和 IDREF 属性 的 XML 数据 


文档 类 型 定义 与 XML 的 文档 格式 继承 有 很 强 的 联系 。 由 于 这 个 原因 ， 将 文档 类 型 定义 作为 数据 处 
理应 用 中 的 XML 类 型 结构 在 很 多 方面 是 不 合适 的 。 尽 管 如 此 ， 大 量 的 数据 交换 格式 是 以 DTD 来 定义 


992 的 ， 因 为 它们 是 最 初 标准 的 一 部 分 。 下 面 是 一 些 以 DTD 作为 模式 机 制 的 局 限 性 : 
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。 单个 文本 元 素 和 属性 不 能 更 进一步 限定 类 型 。 比 如 ，balance 元 素 不 能 被 限制 为 一 个 正 数 。 缺 乏 
这 样 的 约束 在 数据 处 理 和 交换 应 用 中 是 有 问题 的 ， 这 就 必须 包含 一 些 代码 来 验证 元 素 和 属性 的 
类 型 。 

© 很 难 用 DTD 机 制 来 指定 子 元 素 的 无 序 集合 。 顺 序 在 数据 交换 中 很 少 有 重要 用 处 (不 像 文档 排版 
那样 严格 ) 。 虽 然 图 23-9 中 或 操作 符 ( | 操作 符 ) 和 * 或 + 操作 符 的 组 合 允 许 指定 标签 的 无 序 集 
合 ， 可 是 很 难 指定 每 个 标签 只 可 以 出 现 一 次 。 

e ID 和 IDREF 中 缺乏 类 型 限定 。 这 样 就 没有 办 法 来 指定 IDREF 或 IDREFS 属性 应 该 引用 的 元 素 
类 型 。 于 是 ， 图 23-10 中 的 DTD 不 能 阻止 一 个 course 元 素 的 “dept_name” 属性 引用 其 他 course 
的 现象 ， 尽 管 这样 做 毫 无 意义 。 

23. 3.2 XML Schema 


为 了 弥补 DTD 机 制 的 缺陷 ， 发 展 出 了 一 种 更 完善 的 模式 语言 一 -XML Schema。 我 们 给 出 XML 
Schema 的 概览 ， 然 后 列 出 它 对 DTD 改进 的 一 些 方面 。 

XML Schema 定义 了 很 多 内 置 类 型 ， 例 如 string, integer, decimal, date 和 boolean。 此 外 ， 它 允许 用 
户 自 定义 类 型 ， 这 些 用 户 自 定义 类 型 可 能 是 增加 了 限制 的 简单 类 型 ， 或 是 使 用 诸如 complexType 和 
sequence 那样 的 构造 符 构造 出 的 复杂 类 型 。 

图 23-12 和 图 23-13 显示 了 图 23-9 中 的 DTD 是 如 何 用 XML Schema 来 表示 的 。 下 面 我 们 介绍 图 中 
示例 的 XML Schema 特性 。 
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<xs; Schema xmins; xs = “http: //www. w3. org/2001/XMLSchema” > 
<xs; element name = “university” type = “universityType” / > 
<xs: element name =“ department” > 
<xs: complexType > 
<xS; sequence > 
<xs: element name =“dept_ name” type =“xs: string”/ > 
<xs; element name =“ building” type =“xs: string”/ > 
<xs; element name = “budget” type =“xs: decimal”/ > 
</xS; sequence > 
</xs; complexType > 
</xs; element > 
<xs:; element name =“ course” > 
<xS; complexType > 
<xS: sequence > 
<xs; element name =“course_ id” type =“xs: string”/ > 
<xs; element name = “title” type =“xs; string”/ > 
<xs; element name =“dept_ name” type =“xs: string”/ > 
<xs; element name = “credits” type =“xs: decimal”/ > 
</xS; sequence > 
</xs: complexType > 
</xs; element > 
<xs; element name = “instructor” > 
<xs: complexType > 
< XS: Sequence > 
<xs; element name = “IID” type =“xs; string”/ > 
<xs; element name =“name” type =“xs; string”/ > 
<xs; element name =“dept_ name” type =“xs: string”/ > 
<xs; element name = “salary” type =“xs: decimal”/ > 
</xS; sequence > 
</xs; complexType > 
</xs: element > 








后 部 见 图 23-13 
图 23-12 图 23-9 中 DTD 的 XML Schema 版 本 








<xs:element name="teaches”> 
<xs:complexType> 
<xs:sequence> 
<xs:element name="“IID” type="xs:string’/> 
<xs:element name=“course_id” type="xs:string”/> 
</xs:sequence> 
</xs:complexType> 
</xs:element> 
<xs:complexType name=“UniversityType”> 
<xs:sequence> 
<xs:element ref="department” minOccurs=“0” 
maxOccurs=“unbounded’/> 
<xs:element ref=“course” minOccurs="0" 
maxOccurs=“unbounded”/> 
<xs:element ref="instructor” minOccurs="0” 
maxOccurs=“unbounded"/> 
<xs:element ref=“teaches” minOccurs="0" 
maxOccurs=“unbounded"’/> 
</xs:sequence> 
</xs:complexType> 
L </xs:schema> 











K| 23-13 续 图 23-12 


第 一 个 要 注意 的 问题 是 XML Schema 中 的 模式 定义 本 身 是 利用 XML Schema 定义 的 各 种 标签 用 XML 
语法 指定 的 。 为 了 避免 与 用 户 定 义 标签 发 生 冲 突 ， 我 们 在 XML Schema 标签 上 增加 名 字 空 间 的 前 绥 
“xs:”， 这 个 前 级 通过 根 元 素 的 xmlns: xs 声明 与 XML Schema 名 字 空 间 相 关联 : 

<xs; schema xmlns: xs = “http: //www. w3. org/2001/XMLSchema” > 
注意 任何 名 字 空 间 前 缀 都 可 用 来 替换 xs; 因此 我 们 可 以 用 "xsd: ”替换 模 式 定义 中 的 所 有 ”xs:”， 而 不 需 
改变 模式 定义 的 含义 。XML Schema 定义 的 所 有 类 型 必须 加 上 这 个 名 字 空 间 前 级 。 

第 一 个 元 素 是 根 元 素 university ， 它 的 类 型 被 指定 为 后 面 声 明 的 UniversityType， 接 着 这 个 例子 定义 
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了 元 素 department course, instructor 和 teaches 的 类 型 。 注 意 每 个 元 素 都 用 带 xs: element 标签 的 元 素 指 
定 ， 其 内 容 包 含 类 型 的 定义 。 

department 类 型 被 定义 为 复杂 类 型 ， 并 进而 被 指定 为 一 个 由 元 素 dept_name building 和 budget 构成 
的 序列 。 任 何 具 有 属性 或 艇 套子 元 素 的 类 型 必须 被 指定 为 复杂 类 型 。 

或 者 ， 元 素 的 类 型 可 以 通过 属性 type 被 指定 为 一 个 预定 义 类 型 ; 观察 XML Schema 类 型 xs: string 
和 xs; decimal 是 如 何 被 用 于 限制 数据 元 素 ( 如 dept_name 和 credits) 的 类 型 的 

最 后 ， 这 个 例子 定义 了 UniversityType 类 型 ， 它 包括 每 个 department 、course 、instructor 和 teaches 的 
零 个 或 多 个 出 现 。 注 意 用 ref 指明 前 面 定 义 元 素 的 出 现 。XML Schema 可 以 用 minOccurs 和 maxOccurs 来 
定义 子 元 素 出 现 的 最 少 次 数 和 最 多 次 数 。 最 少 次 数 和 最 多 次 数 的 默认 值 都 为 1， 因 此 必须 显 式 指定 这 
两 个 值 以 允许 出 现 零 个 或 多 个 department 、course 、instructor 和 teaches 元 素 。 

属性 用 xs: attribute 标签 来 指定 。 例 如 ， 我 们 可 以 通过 在 department 元 素 的 声明 中 增加 : 


<xs; attribute name = “dept_name”/ > 


来 把 dept_name 定义 为 属性 。 在 上 述 属 性 声明 中 增加 属性 use = “required” 表示 该 属性 必须 被 指定 ， 而 
use 的 默认 值 为 optional。 属 性 声明 应 直接 出 现在 包含 它 的 complexType SWÈ F, BUET ERE TIY 
列 声明 中 的 。 

我 们 可 以 使 用 xs:complexType 元 素来 创建 命名 的 复杂 类 型 ; 除了 要 为 xs:complexType 元 素 增加 
name = typeName ( 其 中 typeName 是 我 们 要 赋 给 类 型 的 名 字 ) 属性 外 ,语法 与 图 23-12 中 用 于 
xs:complexType 元 素 的 语法 相同 。 然 后 我 们 就 可 以 通过 使 用 type 属性 用 这 个 已 命名 的 类 型 来 指定 元 素 
的 类 型 ， 就 如 我 们 在 例子 中 使 用 xs:decimal 和 xs: string 一 样 。 

除了 定义 类 型 ， 关 系 模 式 还 允许 指定 约束 。XML Schema 允许 指定 键 和 键 引用 ， 对 应 于 SQL 中 的 主 
码 和 外 码 定义 。 在 SQL 中 ， 主 码 约束 或 唯一 性 约束 保证 关系 中 的 属性 值 不 会 重复 出 现 。 在 XML 的 上 下 
文 环境 中 ， 我 们 需要 指定 一 个 范围 ， 在 这 个 范围 内 值 是 唯一 的 并 形成 键 。selector 是 定义 约束 范围 的 路 
径 表 达 式 ，field 声明 指定 形成 键 的 元 素 或 属性 。“ 要 指定 dept_name 构成 根 元素 university 下 的 
department 元 素 的 键 ， 我 们 在 模式 定义 中 增加 下 面 的 约束 声明 : 


<xs; key name =“deptkey”> 
<xs; selector xpath = “/university/department” / > 
<xs: field xpath = “dept_name”/ > 


</xs; key > 
相应 地 ， 从 course 到 department 的 外 码 约 束 可 以 定义 如 下 : 
<xS; name = “courseDeptFKey” refer = “deptKey” > 


<xs; selector xpath = “/university/course”/ > 
<xs; field xpath = “dept_name”/ > 
</xs; keyref > 
注意 refer 属性 指定 被 引用 的 键 声明 的 名 字 ， 而 field 声明 指明 引用 属性 。 
XML Schema 有 很 多 优 于 DTD 之 处 ， 目 前 正 被 广泛 应 用 。 我 们 从 上 述 例 子 中 所 看 到 的 优点 有 : 
© 它 允 许 把 元 素 中 出 现 的 文本 限制 为 专门 的 类 型 (如 特定 格式 的 数字 类 型 ) 或 复杂 类 型 ( 如 其 他 类 
型 元 素 的 序列 ) 。 

e 它 人 允许 创建 用 户 定义 类 型 。 
© 它 人 允许 唯一 性 和 外 键 约束 。 
© 它 与 名 字 空 间 结合 以 允许 文档 的 不 同 部 分 遵循 不 同 的 模式 。 
除 我 们 已 经 看 到 的 特性 外 ，XML Schema 还 支持 若干 DTD 不 支持 的 其 他 特性 ， 如 : 
© 它 人 允许 为 创 建 专门 的 类 型 而 对 类 型 进行 限制 ， 如 指定 最 小 和 最 大 值 。 
© 它 人 允许 以 使 用 继承 的 形式 来 扩展 复杂 类 型 。 





o 这 里 我 们 使 用 熟悉 的 语法 来 书写 简单 路 径 表 达 式 。XML 拥有 丰富 的 路 径 表 达 式 语法 ， 称 作 XPath， 我 们 将 在 
23. 4. 2 节 中 加 以 介绍 。 
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我 们 对 XML Schema 只 进行 了 概括 性 的 介绍 ， 要 了 解 更 多 有 关 XML Schema 的 信息 ， 请 参看 文献 注 [997 
解 中 的 参考 文献 。 


23.4 查询 和 转换 


考虑 到 越 来 越 多 的 应 用 使 用 XML 来 交换 数据 、 作 为 数据 中 介 并 存储 数据 ， 有 效 管理 XML 数据 的 
工具 就 变 得 越 来 越 重 要 了 。XML 数据 的 查询 和 转换 工具 对 于 从 体积 庞大 的 XML 数据 中 提取 信息 以 及 
在 XML 的 不 同 表示 (模式 ) 之 间 转 换 数据 来 说 尤为 重要 。 就 像 关 系 查 询 的 输出 是 关系 一 样 ，XML 查询 
的 输出 可 以 是 XML 文档 。 因 此 查询 和 转换 可 以 结合 在 一 个 工具 中 。 

在 本 节 我 们 介绍 XPath 和 XQuery 语言 : 

e XPath 是 一 种 用 于 路 径 表 达 式 的 语言 ， 事 实 上 也 是 XQuery 的 基石 。 

© XQuery 是 查询 XML 数据 的 标准 语言 。 它 的 模型 是 仿照 SQL WY, (8h FE Bb RE XML 数 

据 ， 因 此 与 SQL 有 明显 的 差异 。XQuery 也 结合 了 XPath 表达 式 。 

XSLT 语言 是 为 XML 转换 而 设计 的 另 一 种 语言 。 不 过 ， 它 主要 用 于 文档 格式 化 而 非 数 据 管理 应 用 
中 。 因 此 本 书 将 不 对 此 进行 讨论 。 

本 章 末 尾 的 “工具 "部 分 提供 了 对 几 种 软件 的 引用 ， 这 些 软件 可 用 于 执行 由 XPath 和 XQuery 书写 的 
查询 。 

23. 4. 1 XML 树 模 型 

这 些 语言 都 使 用 了 XML 数据 的 树 模型 (tree model) 。 一 份 XML 文档 被 建 模 为 一 棵 树 (tree) ， 其 结 点 
(node) 对 应 于 元 素 和 属性 。 元 素 结 点 可 以 有 子 结 点 ， 子 结 点 可 以 是 该 元 素 的 子 元 素 或 属性 。 相 应 地 ， 除 
根 元 素 外 的 每 个 结 点 (不 管 是 属性 还 是 元 素 ) 都 有 一 个 元 素 是 其 父 结 点 。XML 文档 中 元 素 和 属性 的 顺序 根 
据 树 的 子 结 点 的 顺序 建 模 。XML 数据 的 树 模型 中 使 用 了 父亲 、 孩 子 、 祖 先 、 后 代 以 及 兄弟 等 术语 。 

元 素 的 文本 内 容 可 以 建 模 为 该 元 素 的 文本 子 结 点 。 包 含 由 于 子 元 素 的 插入 而 导致 间断 的 文本 的 元 
素 可 以 有 多 个 文本 子 结 点 。 例 如 ， 包 含 “this is a <bold > wonderful </bold > book” 的 元 素 将 有 一 个 子 
元 素 孩 子 对 应 于 bold 元 素 以 及 两 个 文本 子 结 点 对 应 于 “this is a” 和 “book”。 由 于 这 种 结构 在 数据 表示 中 
并 不 常用 ， 我 们 将 假设 元 素 不 会 既 包 含 文本 又 包含 子 元 素 。 [998 | 
23.4.2 XPath 

XPath 通过 路 径 表达 式 指向 XML 文档 的 部 分 内 容 。 这 种 语言 可 以 看 作 是 面向 对 象 和 对 象 - 关系 数 
据 库 ( 见 22.6 节 ) 中 简单 路 径 表 达 式 的 扩展 。XPath 标准 的 当前 版 本 是 XPath 2. 0， 我 们 的 介绍 就 基于 这 
个 版 本 的 。 

XPath 中 的 路 径 表 达 式 (path expression) 是 由 "/”( 替 代 了 SQL 中 用 于 分 隔 定 位 步骤 的 "操作 符 ) 隔 开 的 
定位 步骤 的 一 个 序列 。 路 径 表达 式 的 结果 是 一 个 结 点 的 集合 。 例 如 ， 在 图 23-11 的 文档 中 ，XPath 表达 式 


/university - 3/instructor/name 




















会 返回 这 些 元 素 : 
<name > Srinivasan </name > 
<name > Brandt </name > 


表达 式 
/university —3/instructor/name/text( ) 

会 返回 相同 的 名 字 ， 但 是 没有 外 围 标签 。 

路 径 表 达 式 是 从 左 到 右 执 行 计算 的 。 像 目录 层次 结构 一 样 ， 初 始 的 “人 表示 文档 的 根 。 注 意 ， 这 
是 一 个 在 作为 文档 标签 的 < university -3 >“ 之 上 "的 抽象 的 根 。 

当 计 算 路 径 表达 式 时 ， 任意 时 刻 路 径 的 结果 由 文档 中 某 些 结 点 的 一 个 有 序 集合 构成 。 初 始 时 ” 当 
前 ”元素 集合 只 包含 一 个 结 点 ， 即 抽象 的 根 。 当 路 径 表 达 式 的 下 一 步骤 是 一 个 元 素 名 ， 如 instructor 时 ， 
此 步骤 的 结果 由 当前 元 素 集中 元 素 的 子 元 素 中 具有 该 指定 名 字 的 元 素 所 对 应 的 结 点 构成 。 这 些 结 点 随 
之 成 为 路 径 表 达 式 计算 的 下 个 步骤 所 使 用 的 当前 元 素 集 。 因 此 ， 表 达 式 : 
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/university -3 

返回 对 应 于 标签 : 
< university —3 > 
的 单个 结 点 。 而 : 
/university ~ 3/instructor 
返回 对 应 于 
instructor 

的 两 个 结 点 ， 它 们 是 结 点 : 

university -3 


的 子 结 点 。 

路 径 表 达 式 的 结果 是 经 过 最 后 一 步 路 径 表 达 式 计算 后 所 得 到 的 结 点 集合 。 每 个 步骤 返回 结 点 的 顺 
序 与 它们 在 文档 中 出 现 的 顺序 一 致 。 

由 于 多 个 孩子 可 以 有 同样 的 名 字 ， 所 以 结 点 集中 结 点 的 数量 可 能 在 每 个 操作 步骤 中 增加 或 减少 ， 
还 可 以 使 用 "@ "符号 访问 属性 值 ， 例 如 ，/university -3/course/@ course_id 返回 course 元 素 的 course_id 
属性 的 所 有 值 的 集合 。 默 认 情 况 下 ， 并 不 考虑 IDREF 链接 ; 我 们 将 在 稍 后 看 到 如 何 处 理 IDREF。 

XPath 支持 许多 其 他 特性 : 

。 可 以 在 路 径 的 每 个 操作 步骤 中 使 用 选择 谓词 ， 选 择 谓词 包含 在 方 括号 中 ， 例 如， 

/university ~ 3/course[ credits >=4] 
返回 学 分 大 于 或 等 于 4 的 course 元 素 ， 而 : 
/university -3/coursel credits >=4 | /@ course_id 

返回 这 些 课程 的 课程 标识 。 

我 们 可 以 通过 列 出 一 个 子 元素 而 不 使 用 任何 比较 运算 的 方式 来 测试 该 子 元 素 是 否 存 在 。 例 如 ， 如 
果 我 们 只 是 将 上 面 的 ” >=4” 去 掉 ， 这 个 表达 式 就 会 返回 具有 学 分 子 元 素 的 所 有 课程 的 标识 ， 而 不 考虑 
学 分 的 值 。 

e XPath 提供 了 一 些 可 以 作为 谓词 的 一 部 分 使 用 的 函数 ， 包 括 测 试 当前 结 点 在 兄弟 顺序 当中 的 位 

置 以 及 聚集 函数 count( ) ， 它 计算 与 函数 所 作用 的 表达 式 相 匹配 的 结 点 数量 。 例 如 ， 在 图 23-6 
中 的 XML 表示 中 ， 路 径 表 达 式 : 

/university —2/instructor{ count(. /teaches/course) > 2] 
返回 讲授 两 门 以 上 课程 的 教师 。 布 尔 连接 and 和 or 可 以 在 谓词 中 使 用 ， 而 函数 not(…) 可 用 于 
否定 。 

© PRR id( “foo”) 返 回 属性 的 类 型 为 ID 且 值 为 “foo ”的 结 点 (如 果 存 在 的 话 ) 。 函 数 id 甚至 可 以 应 

用 于 引用 的 集合 ， 或 者 包含 用 空格 隔 开 的 多 个 引用 的 字符 串 ， 如 IDREFS。 例 如 ， 路 径 : 
/university ~ 3/course/id( @ dept_name) 
返回 被 course 元 素 的 dept_name 属性 引用 的 所 有 系 元 素 。 而 : 
/university - 3/course/id( @ instructors ) 
返回 被 course 元 素 的 instructors 属性 所 引用 的 教师 元 素 。 
© 操作 符 | 允许 对 表达 式 结果 进行 合并 。 例 如 ， 给 定 图 23-11 中 所 示 的 模式 下 的 数据 ， 我 们 可 以 
使 用 表达 式 : 
/university ~ 3/course[ @ dept_name = “Comp. Sci” | | 
/university - 3/course[ @ dept_name = “ Biology” | 
来 查找 Computer Science 和 Biology 所 开设 课程 的 并 集 。 但 是 | ERAR AERE EE MER EE 
中 。 还 有 一 点 值得 注意 ,“ 并 ”中 的 结 点 依照 它们 在 文档 中 出 现 的 顺序 被 返回 。 
e XPath 表达 式 可 以 使 用 “//” 来 跳 过 多 层 结 点 。 举 例 来 说 ， 表 达 式 /university - 3//name 找 出 / 
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university -3 元 素 下 的 任意 位 置 上 的 所 有 name 元 素 ， 而 不 管 它 们 被 包含 在 哪个 元 素 中 ， 也 不 管 
在 university -3 和 name 元 素 之 间 存 在 多 少 个 层次 的 元 素 。 这 个 例子 演示 了 在 没有 关于 模式 全 部 
知识 的 情况 下 查找 所 需 数据 的 能 力 。 
© 路 径 中 的 操作 步骤 不 需要 只 是 在 当前 结 点 集 的 子 结 点 中 进行 选择 。 事 实 上 ， 这 只 是 路 径 中 一 个 
步骤 可 能 执行 的 若干 方向 (如 父亲 、 兄 弟 、 祖 先 和 后 代 ) 中 的 一 个 。 我 们 在 这 里 省 略 详细 描述 ， 
但 是 请 注意 ， 上 面 描述 的 “//”" 是 用 于 指定 “所 有 后 代 " 的 一 种 缩写 形式 ， 而 ”. . "指定 父亲 。 
。 内 置 函数 doc(name) 返 回 一 个 已 命名 文档 的 根 ; 这 个 名 字 可 以 是 文件 名 或 是 URL。 该 函数 返回 
的 根 可 用 于 路 径 表 达 式 中 以 访问 文档 的 内 容 。 因 此 ， 路 径 表 达 式 可 以 应 用 在 特定 文档 上 ， 而 不 
是 当前 默认 文档 上 。 
例如 ， 如 果 我 们 的 大 学 例子 中 的 大 学 数据 包含 在 文件 "university. xml” 中 ， 下 述 路 径 表 达 式 
将 返回 大 学 中 的 所 有 系 : 
doc( “university. xml” ) /university/department [1001 | 
函数 collection( name) 与 doc 相似 ， 但 返回 以 name 标识 的 文档 集合 。 例 如 ，collection 函数 可 用 
于 打开 一 个 被 视 为 文档 集合 的 XML 数据 库 。XPath 表达 式 中 随后 的 元 素 可 以 从 集合 中 选择 出 适 
当 的 文档 。 
在 大 多 数 例子 中 ， 我 们 假设 表达 式 是 在 数据 库 上 下 文中 计算 的 ， 该 数据 库 隐 式 地 提供 了 一 
个 “文档 ”的 集合 ，XPath 表达 式 就 在 这 个 集合 上 进行 计算 。 在 这 种 情况 下 ， 我 们 不 需要 使 用 
doc PAŽI collection 函数 。 
23.4.3 XQuery 
万 维 网 联盟 (World Wide Web Consortium, W3C)F#& S XQuery, EX XML 标准 的 查询 语言 。 我 们 
的 讨论 是 基于 2007 年 1 月 23 日 发 布 的 W3C 推荐 版 本 XQuery 1.0. 
23.4.3.1 FLWOR 表达 式 
XQuery 查询 模仿 SQL 查询 ， 但 是 与 SQL 有 明显 的 差异 。 它 包含 五 个 部 分 : for, let, where, 
order by 和 return。 它 们 被 称 为 “FYLWOR”( 读 作 “flower” ) 表 达 式 ，FLWOR 中 的 字母 代表 这 五 个 部 分 。 
如 下 所 示 是 一 个 简单 的 FLWOR 表达 式 ， 它 基于 图 23-11 中 使 用 了 ID 和 IDREFS 的 XML 文档 ， 返 
回 学 分 大 于 3 的 课程 标识 。 
for $ x in /university —-3/course 
let $ courseld : = $ x/@course_id 


where $ x/credits >3 
return <course_id> | $ courseld | </course_id > 


for 子 句 就 像 SQL 中 的 from 子 句 ， 指 定 在 XPath 表达 式 结果 范围 内 变动 的 变量 。 当 指定 的 变量 多 
于 一 个 时 ， 结 果 包 含 这 些 变量 所 有 可 能 值 的 笛 卡 儿 积 ， 就 像 SQL 的 from 子 句 所 做 的 一 样 。 
let 子 句 允许 将 XPath 表达 式 结果 赋值 给 变量 名 以 简化 表达 。where FAJE] SQL 的 where 子 句 一 样 ， 
对 来 自 for 子 句 的 连接 元 组 执行 附加 测试 。order by 子 句 与 SQL 的 order by 子 句 一 样 ， 人 允许 对 输出 排 
序 。 最 后 ，return 子 句 允许 构造 XML 形式 的 结果 。 
FLWOR 查询 不 需要 包含 所 有 子 句 ; 例如 一 个 查询 可 能 只 包含 for 和 return 子 句 ， 而 省 略 let、 
where 和 order by 子 句 。 前 面 的 XQuery 查询 中 就 没有 包含 order by 子 句 。 事 实 上 ， 由 于 这 个 查询 很 简 
单 ， 我 们 可 以 容易 地 去 掉 let 子 句 ， 并 把 return 子 句 中 的 gourseId 变量 蔡 换 为 $x/@ course_id。 进 而 言 
Z, HF for 子 句 使 用 了 XPath 表达 式 ， 选 择 可 以 发 生 在 XPath 表达 式 内 部 。 这 样 ， 可 以 只 用 for 和 [1002] 
return 子 句 构造 一 个 等 价 的 查询 : 


for $x in /university —3/course| credits > 3 | 
return <course_id > | $x/@ course_id| </course_id > 


然而 ，let 子 句 有 助 于 简化 复杂 查询 。 还 要 注意 如 果 右 侧 的 路 径 表 达 式 返回 一 个 由 多 个 元 素 或 值 构成 的 
序列 ， 那 么 由 let 子 句 赋值 的 变量 可 能 包含 由 多 个 元 素 或 值 所 构成 的 序列 。 
观察 在 return 子 句 中 对 大 括号 (“| 1”) 的 使 用 。 当 XQuery 找到 一 个 表达 式 开 头 的 元 素 时 ， 如 
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< course_id > ， 它 将 这 个 元 素 的 内 容 看 作 普 通 的 XML 文本 ， 只 有 大 括号 内 部 的 内 容 会 被 当 作 表达 式 计 
算 。 因 此 ， 如 果 我 们 省 略 掉 上 述 return 子 句 中 的 大 括号 ， 结 果 将 包含 字符 串 ”$x/@ course_id "的 多 个 
拷贝 ， 其 中 每 个 都 包含 在 一 个 course_id 标签 中 。 而 大 括号 中 的 内 容 是 被 当 作 表 达 式 计算 的 。 注 意 即使 
当 大 括号 出 现在 引号 中 时 ， 这 个 规定 也 是 成 立 的 。 因 此 ， 我 们 可 以 通过 用 下 述 return FARM ER 
return 子 句 来 修改 上 述 查询 ， 使 其 返回 一 个 带 course 标签 并 以 课程 标识 作为 属性 的 元 素 。 


return < course course_id = “ | $x⁄/@ course_id! ” / > 


XQuery 提供 了 使 用 element 和 attribute 构造 器 来 构造 元 素 的 另 一 种 方法 。 例 如 ， 如 果 前 面 查询 中 
的 return 子 句 用 下 面 的 return 子 名 替换 ， 查 询 将 返回 具有 course_id 和 dept_name 属性 且 包 含 title 和 
credits 子 元 素 的 元 素 。 


return element Course | 
attribute course_id | $x/@ course_id , 
attribute dept_name | $x/dept_name| , 
element title | sx/title! , 
element credits | $x/credits | 
| 
注意 同 前 面 一 样 ， 需 要 使 用 大 括号 以 使 一 个 字符 串 被 当 作 表达 式 计算 - 
23.4.3.2 连接 
在 XQuery 中 指定 连接 与 在 SQL 中 指定 连接 很 相似 。 图 23-1 中 course, instructor 和 teaches 元 素 的 
连接 可 以 这 样 用 XQuery 来 写 : 
for $c in /university/course, 
$i in /university/instructor, 
$t in /university/teaches 
where $C/course_id= $t/course_id 
and st/lID = si/iID 
return <course_instructor> | $c $i | </course_instructor > 


可 以 用 XPath 的 选择 操作 表达 同样 的 查询 : 
for $c in /university/course, 
$i in /university/instructor , 
$t in /university/teaches[ $c/course_id= $t/course_id 
and st/IID = $iVIID] 
return <course_instructor> | $c $i | </course_instructor > 

XQuery 中 的 路 径 表 达 式 与 XPath 2.0 中 的 路 径 表 达 式 相同 。 路 径 表 达 式 可 以 返回 单个 值 或 元 素 ， 
或 返回 一 个 值 或 元 素 的 序列 。 如 果 没 有 模式 信息 ， 就 可 能 无 法 确定 一 个 路 径 表 达 式 是 返回 单个 值 还 是 
一 个 值 的 序列 。 这 样 的 路 径 表 达 式 可 以 出 现在 比较 运算 如 = 、< 和 > = 中 

XQuery 对 序列 上 的 比较 运算 有 一 个 有 趣 的 定义 。 例 如 ， 如 果 Sx/credits 的 结果 是 单个 值 ， 表 达 式 
$x/credits >3 可 能 具有 通常 的 含义 ; 但 如 果 其 结果 是 一 个 包含 多 个 值 的 序列 ， 那 么 表达 式 在 至 少 有 一 
个 值 大 于 3 时 为 真 。 类 似 地 ， 表 达 式 $x/credits = $y/credits 的 值 在 第 一 个 表达 式 返 回 值 中 的 任意 一 个 
与 第 二 个 表达 式 返回 值 中 的 任意 一 个 相等 时 为 真 。 如 果 这 种 操作 不 合适 ， 可 以 使 用 操作 符 eq, ne, It, 
gt、le 、ge 来 代替 。 这 些 操作 符 在 它们 的 任意 一 个 输入 是 一 个 多 个 值 的 序列 时 就 会 报错 。 

23.4.3.3 KEG 

XQuery FLWOR KAAT UREE return FAP, WAR A HRERS. fen, 
图 23-5 "PRR AS HY LHR TE Bt AIC AY BRB RA XML 结构 ， 可 以 从 图 23-1 中 的 结构 用 图 23-14 
所 示 的 查询 来 生成 。 

这 个 查询 还 引入 了 $d/° 句法 ， 它 是 指 绑 定 到 变量 Sd 的 结 点 (或 结 点 序列 ) 的 所 有 孩子 。 类 似 地 ， 
$d/text( ) 给 出 一 个 元 素 的 不 带 标签 的 文本 内 容 。 

XQuery 提供 很 多 可 以 应 用 在 元 素 或 值 的 序列 上 的 聚集 函数 ， 如 sum( ) 和 count( ) 。 应 用 在 序列 上 
的 distinct-values( ) 函数 返回 不 含 重复 值 的 序列 。 由 路 径 表 达 式 返回 的 值 的 序列 (集合 体 ) 中 可 能 有 些 值 

是 重复 的 ， 因 为 它们 在 文档 中 是 重复 的 ， 尽 管 文 档 中 的 每 个 结 点 至 多 可 以 在 XPath 表达 式 结果 中 出 现 
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一 次 。XQuery 还 支持 很 多 其 他 函数 ， 更 多 信息 请 参见 文献 注解 中 的 参考 文献 。 这 些 函 数 实际 上 在 
XPath 2. 0 和 XQuery 中 是 通用 的 ， 而 且 可 以 使 用 在 任何 XPath 路 径 表 达 式 中 。 


= = =] 





<university-1 > 


for $d in /university/department 
| return 
<department> 
| { $d/* } 
{ for $c in /university/course[dept_name = $d/dept_name] 
return $c } 
</department> 


for $i in /university/instructor 
return 
<instructor> 
{ $i/* } 
{ for $c in /university/teaches[IID = $i/IID] 
return $c/course_id } 
</instructor> 


} 
| </university-1> 








23-14 用 XQuery JÆ REH 
为 了 避免 名 字 空 间 冲 突 ， 函 数 与 如 下 名 字 空 间 相 关 : 


http: //www. w3. org/2005/xpath - functions 
该 名 字 空 间 有 一 个 默认 名 字 空 间 前 级 fn, Alt, HE PRAT LAVA fn: sum BẸ fn; count 的 形式 被 无 歧义 地 
调用 o 
由 于 XQuery 不 提供 group by 构造 ， 聚 集 查询 可 以 用 路 径 或 FLOWR KERKEE return 子 句 中 
的 ) 上 的 聚集 函数 来 书写 。 例 如 ， 以 下 在 university XML schema 上 的 查询 找 出 每 个 系 所 有 教师 的 总 
薪酬 : 
for $d in /university/department 
return 
< department-total-salary > 
<dept_name > | $d/dept_name| </dept_name > 
<total_salary > | fn: sum( 
for $i in /university/instructor[ dept_name = $d/dept_name | 
return $i/salary 


) | </total_salary > 
</department-total-salary > 


23.4.3.4 结果 的 排序 1005 
在 XQuery 中 可 以 用 order by 子 句 对 结果 排序 。 例 如 ， 这 个 查询 输出 根据 name 子 元 素 排 序 的 所 有 
教师 元 素 : 
for $i in /university/instructor 
order by $i/name 
return < instructor > | $i/* | </instructor > 
可 以 使 用 order by $i/name descending 使 结果 按 降序 排列 。 
可 以 在 组 套 的 多 个 层次 上 进行 排序 。 例 如 ， 我 们 通过 下 面 的 查询 ， 可 以 获得 根据 系 名 排序 的 大 学 
信息 的 和 嵌 套 表示 ， 其 中 每 门 课 程 按 课程 标识 排序 : 


<university -1> | 
for $d in /university/department 
order by $d/dept_name 
return 
< department > 
| $d/* | 
| for $c in /university/course[ dept_name = $d/dept_name | 
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order by $C/course_id 
return < course > | $c/*| </course> | 
</department > 
| </university - 1 > 
23.4.3.5 函数 和 类 型 
XQuery 提供 很 多 内 置 函 数 ， 如 数字 型 函数 和 字符 串 匹 配 与 操作 函数 。 除 此 以 外 ，XQuery 支持 用 户 
自 定义 函数 。 下 面 的 用 户 自 定义 函数 以 教师 标识 为 输入 ， 返 回 该 教师 所 属 院 系 开 设 的 所 有 课程 的 列表 : 


declare function local; dept_courses( $iid as xs; string) as element( course) ° | 
for $i in /university/instructor[ IID = giid] , 
$c in /university/courses{ dept_name = $i/dept_name | 

return $C 

| 


在 上 例 中 用 到 的 名 字 空 间 前 级 xs: 是 XQuery 预定 义 的 ， 表 示 与 XML Schema 名 字 空 间 相 关联 。 而 名 字 
空间 local; 也 是 预定 义 的 ， 表 示 与 XQuery 本 地 函数 相关 联 。 
函数 参数 和 返回 值 的 类 型 声明 是 可 选 的 ， 可 以 省 略 。XQuery 使 用 XML Schema 的 类 型 系统 。 
element 类 型 允许 元 素 带 有 任何 标签 ， 而 element( course) 允许 元 素 带 有 course 标签 。 类 型 可 以 带 有 后 级 
* 以 表示 该 具有 类 型 值 的 一 个 序列 。 例 如 ， 函 数 dept_courses 的 定义 指定 其 返回 值 为 course 元 素 的 一 个 
序列 。 
下 面 的 查询 展示 了 函数 调用 ， 它 打印 名 为 Srinivasan 的 那些 教师 所 在 院 系 开设 的 课程 : 


for $i in /university/instructor[ name = “Srinivasan” | , 
return local; dept_courses( $i/IID) 


当 需 要 时 ，XQuery 进行 自动 的 类 型 转换 。 例 如 ， 如 果 用 一 个 由 字符 串 表示 的 数值 型 的 值 与 一 个 数 
值 类 型 进行 比较 ,将 自动 进行 从 字符 串 到 数值 类 型 的 类 型 转换 。 当 一 个 元 素 被 传 给 以 字符 串 值 为 参数 
的 函数 时 ， 通 过 拼接 包含 ( 肉 套 ) 在 元 素 内 的 所 有 文本 值 的 方式 进行 类 型 转换 。 因 此 ， 对 于 检测 字符 串 
a 是 否 包含 字符 串 b 的 函数 contains(a，b) ， 在 其 第 一 个 参数 被 设置 为 一 个 元 素 时 ， 可 以 用 于 检测 元 素 
a Fe RS EH A KBE fo SB AF Bb, XQuery 还 提供 在 类 型 之 间 进 行 转换 的 函数 。 例 如 ， 
number(x) 将 一 个 字符 串 转换 为 一 个 数 。 
23.4.3.6 其 他 特性 
XQuery 提供 大 量 其 他 特性 ， 例 如 if-then-else 结构 ， 它 可 以 用 在 return 子 句 中 ; 以 及 存在 量词 与 全 
称 量词 ， 它 们 可 以 应 用 于 where 子 句 的 谓词 中 。 例 如 ， 存 在 量词 可 以 在 where 子 句 中 通过 使 用 : 
some $e in path satisfies P 
来 表达 ， 这 里 path 是 一 个 路 径 表 达 式 ，P 是 一 个 可 以 使 用 $e 的 谓词 。 全 称 量 词 可 以 通过 使 用 every 代 
$ some 来 表达 。 
例如 ， 欲 查找 所 有 教师 的 薪酬 都 高 于 50 000 美元 的 系 ， 我们 可 以 使 用 下 面 的 查询 : 
for $d in /university/department 
where every $i in /university/instructor[ dept_name = $d/dept_name | 
satisfies $i/salary > 50000 
return $d 


但 是 请 注意 ， 如 果 某 个 系 没有 教师 ， 那 么 该 系 也 显然 满足 上 述 条 件 。 可 以 用 一 个 额外 的 子 句 : 
and fn; exists(/university/instructor[ dept_name = $d/dept_name] ) 
RIERA FELE —% A. FA HERK A PRK exists( ) 在 输入 参数 不 为 空 的 情况 下 返回 true, 


XQJ 标准 提供 了 向 XML 数据 库 提 交 XQuery 查询 和 取 回 XML 结果 的 API。 其 功能 类 似 于 
JDBC API, 


23.5 XML 应 用 程序 接口 


随 着 人 们 对 XML 作为 一 种 数据 表示 与 交换 格式 的 广泛 认可 ， 用 于 操纵 XML 数据 的 软件 工具 也 大 
量 出 现 。 有 两 种 程序 化 操纵 XML 的 标准 模型 ， 每 种 都 适用 于 多 种 流行 的 程序 设计 语言 。 这 两 种 API 都 
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可 以 用 于 解析 一 份 XML 文档 并 创建 该 文档 的 内 存 表 示 。 它 们 用 于 处 理 单个 XML 文档 的 应 用 。 但 是 注 
意 ， 它 们 不 适合 查询 大 的 XML 数据 的 集合 ， 描 述 性 查询 机 制 如 XPath 和 XQuery 更 适合 于 这 项 任务 。 

其 中 一 种 操纵 XML 的 标准 API 基于 文档 对 象 模 型 ( Document Object Model，DOM) ， 它 把 XML 内 容 
看 作 树 ， 其 每 个 元 素 用 结 点 表示 ， 称 为 DOMNode。 程 序 可 以 从 根 结 点 开始 ， 以 一 种 导航 的 方式 来 访问 
文档 的 组 成 部 分 。 

DOM 库 可 用 于 大 多 数 常用 的 编程 语言 ， 甚 至 也 出 现在 Web 浏览 器 中 ， 用 于 操纵 显示 给 用 户 的 文 
档 。 为 了 对 DOM 有 一 个 初步 了 解 ， 我 们 在 此 概述 一 些 用 于 DOM 的 Java API 中 的 接口 和 方法 。 

è Java DOM API 提供 了 一 个 称 为 Node 的 接口 ， 以 及 从 Node 接口 继承 下 来 的 Element 和 Attribute 

接口 。 

© Node 接口 提供 诸如 getParentNode( ) getFirstChild ( ) 和 getNextSibling ( ) 这 样 的 方法 ， 用 于 从 根 
结 点 开始 遍历 DOM 树 。 

。 元 素 的 子 元 素 可 以 按 名 字 通 过 getElementsByTagName( name) 来 访问 ， 该 函数 返回 一 个 具有 指定 
标签 名 的 所 有 子 元 素 的 列表 ; 该 列表 中 的 单个 成 员 可 以 通过 item(i) 方 法 来 访问 ， 此 方法 返回 
列表 中 的 第 i 个 元 素 。 

。 元 素 的 属性 值 可 以 通过 名 字 访 问 ， 所 采用 的 方法 是 getAttribute( name) 。 

。 元 素 的 文本 值 被 建 模 为 Text 结 点 ， 它 是 该 元 素 结 点 的 一 个 子 结 点 ; 没有 子 元 素 的 元 素 结 点 只 有 
一 个 这 样 的 子 结 点 。 作 用 在 Text 结 点 上 的 getData( ) 方 法 返回 其 文本 内 容 。 

DOM 还 提供 各 种 用 于 更 新 文档 的 函数 ， 如 增加 和 删除 一 个 结 点 的 属性 及 元 素 子 结 点 ， 设 置 结 点 

值 ， 等 等 。 

书写 实际 的 DOM 程序 还 需要 更 多 的 细节 ， 详 情 请 参见 文献 注解 中 的 文献 。 

DOM 可 用 于 访问 存储 在 数据 库 中 的 XML 数据 ， 可 以 构建 一 个 以 DOM 作为 其 访问 和 修改 数据 的 主 
要 接口 的 XML 数据 库 。 然 而 ，DOM 接口 不 支持 任何 形式 的 描述 性 查询 。 

第 二 种 通用 的 编程 接口 是 Simple API for XML(SAX) ， 它 是 一 种 事件 (event) 模 型 ， 被 设计 成 提供 在 
语法 分 析 器 和 应 用 程序 之 间 的 通用 接口 。 这 种 API 基于 事件 句柄 (event handler) 的 概念 而 构建 ， 是 由 与 
语法 分 析 事 件 相 关联 的 用 户 指定 函数 构成 的 。 语 法 分 析 事 件 对 应 于 文档 组 成 部 分 的 识别 。 例 如 ， 当 找 
到 一 个 元 素 的 开始 标签 时 就 产生 一 个 事件 ， 而 当 找 到 结束 标签 时 产生 另 一 个 事件 。 一 个 文档 的 不 同 片 
段 总 是 可 以 按 从 开始 到 结束 的 顺序 找 出 。 

SAX 应 用 开发 者 为 每 个 事件 创建 句柄 函数 ， 并 注册 它们 。 当 一 份 文 档 被 SAX 语法 分 析 器 读 人 时 ， 
随 着 每 个 事件 的 产生 ， 用 事件 描述 (如 元 素 标签 或 文本 内 容 ) 作为 参数 来 调用 句柄 函数 。 然 后 句柄 函数 
执行 它们 的 任务 。 例 如 ， 为 了 构建 一 棵 表示 XML 数据 的 树 ， 用 于 属性 或 元 素 开 始 事件 的 句柄 函数 可 以 
在 一 棵 部 分 构建 好 的 树 上 增加 一 个 (或 多 个 ) 结 点 。 开 始 标签 和 结束 标签 的 事件 句柄 也 必须 追踪 树 中 的 
当前 结 点 ， 新 结 点 必须 接 到 这 个 结 点 上 ; 元 素 开 始 事件 将 新 元 素 设置 为 当前 结 点 ， 以 使 后 续 子 结 点 必 
须 连 接 到 该 结 点 。 对 应 的 元 素 结束 事件 将 设置 该 结 点 的 父 结 点 为 当前 结 点 ， 后 续 子 结 点 将 必须 连接 到 
当前 结 点 上 。 

SAX 通常 比 DOM 需要 更 多 的 程序 设计 工作 ， 但 是 当 应 用 程序 需要 创建 自己 的 数据 表示 时 ， 它 有 助 
于 避免 创建 DOM 树 的 开销 。 如 果 将 DOM 用 于 这 样 的 应 用 ， 创 建 DOM 树 将 会 产生 不 必要 的 空间 和 时 间 
开销 。 


23.6 XML 数据 存储 


很 多 应 用 都 要 求 存储 XML 数据 。 存 储 XML 数据 的 一 种 方式 是 将 其 以 文档 形式 存储 在 文件 系统 中 ， 
而 第 二 种 方式 是 构建 专用 的 数据 库 来 存储 XML 数据 。 还 有 一 种 方法 是 把 XML 数据 转换 为 关系 表示 ， 
并 将 其 存储 到 关系 数据 库 中 。 本 节 简 要 概括 了 几 种 存储 XML 数据 的 可 选 方法 。 
23.6.1 非 关 系 的 数据 存储 

有 几 种 可 选 的 方法 可 以 在 非 关系 的 数据 存储 系统 中 存储 XML 数据 : 

。 存储 在 平面 文件 中 (store in flat file), REZ XML 首先 是 一 种 文件 格式 ， 一 种 自然 的 存储 机 制 就 
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是 将 其 存储 到 平面 文件 中 。 第 1 章 中 概述 了 这 种 使 用 文件 系统 作为 数据 库 应 用 基础 的 方法 的 许 
多 缺点 ， 尤 其 是 它 缺 少数 据 隔离 、 原 子 性 、 并 发 访问 以 及 安全 性 。 然 而 ， 作 用 在 文件 数据 上 的 
XML 工具 的 广泛 使 用 使 得 访问 和 查询 存储 在 文件 中 的 XML 数据 相对 容易 一 些 ， 因 此 ， 这 种 存 
储 形式 可 能 对 某 些 应 用 而 言 是 足够 的 。 
© 创建 XML 数据 库 ( create an XML database). XML 数据 库 是 指使 用 XML 作为 其 基本 数据 模型 的 
数据 库 。 早 期 的 XML 数据 库 在 基于 C++ 的 面向 对 象 数 据 库 上 实现 了 文档 对 象 模型 ， 这 使 得 许 
多 面向 对 象 数 据 库 基础 架构 得 以 重用 ， 同 时 还 提供 了 标准 的 XML 接口 。XQuery 或 其 他 XML 查 
询 语言 的 加 入 提供 了 描述 性 查询 。 其 他 实现 在 提供 事务 支持 的 存储 管理 器 之 上 建立 了 整个 XML 
存储 和 查询 的 基础 架构 。 

尽管 有 几 个 专门 为 存储 XML 数据 而 设计 的 数据 库 已 经 建立 ， 但 从 底层 向 上 构建 起 一 个 拥有 完全 特 
征 的 数据 库 系 统 是 一 项 非常 复杂 的 任务 。 这 样 的 数据 库 不 但 必须 支持 XML 数据 存储 和 查询 ， 还 要 支持 
其 他 数据 库 特 性 ， 如 事务 、 安 全 性 、 客 户 端 数据 访问 以 及 各 种 管理 工具 。 这 使 得 使 用 一 个 现 有 的 数据 
库 系统 来 提供 这 些 工 具 ， 并 将 XML 数据 存储 和 查询 实现 在 关系 抽象 之 上 ， 或 者 实现 为 与 关系 抽象 相 平 
行 的 层次 较为 合理 。 我 们 在 23. 6. 2 节 学 习 这 些 方法 。 

23. 6.2 关系 数据 库 

由 于 关系 数据 库 被 广泛 应 用 于 现 有 应 用 程序 中 ,将 XML 数据 存储 于 关系 数据 库 中 使 数据 可 以 被 现 
有 应 用 程序 所 访问 会 带 来 很 大 的 益处 。 

如 果 数 据 一 开始 就 是 由 关系 模式 生成 的 ， 且 XML 仅仅 是 作为 关系 数据 的 一 种 数据 交换 形式 来 使 
用 ,那么 将 XML 数据 转换 成 关系 形式 通常 是 直截了当 的 。 然 而 ， 在 很 多 应 用 中 , XML 数据 并 不 是 由 关 
系 模式 生成 的 ， 将 这 些 数据 转换 为 关系 形式 进行 存储 可 能 就 不 那么 直接 了 。 特 别 地 ， 嵌 套 元 素 以 及 重 
复出 现 的 元 素 (对 应 于 集合 值 属 性 ) 使 XML 数据 的 关系 形式 存储 复杂 化 。 下 面 我 们 介绍 几 种 可 选 的 存储 
方法 。 

23. 6.2.1 存储 为 字符 串 

小 的 XML 文档 可 以 存储 为 关系 数据 库 元 组 中 的 字符 串 (elob ) 值 。 对 于 大 的 XML 文档 ， 其 顶层 元 
素 有 很 多 子 元 素 ， 可 以 通过 将 每 个 子 元 素 作为 字符 串 存储 到 一 个 单独 的 元 组 中 来 处 理 。 例 如 ， 图 23-1 
中 的 XML 数据 可 以 存储 为 elements( data) 关 系 中 的 一 个 元 组 集合 ， 其 中 每 个 元 组 的 data 属性 以 字符 串 
形式 存储 一 个 XML 元 素 ( department course, instructor 或 teaches) 。 

尽管 上 述 表示 方法 容易 使 用 ， 但 数据 库 系 统 并 不 知道 所 存储 元 素 的 模式 。 其 结果 是 不 能 直接 查询 
数据 。 事 实 上 ， 如 果 不 扫描 关系 中 的 所 有 元 组 并 检验 每 个 元 组 中 存储 的 字符 串 的 内 容 ， 即 使 是 简单 的 
选择 ， 诸 如 查找 所 有 的 department 元 素 ， 或 是 查找 系 名 为 “Comp. Sci.” HJ department 元 素 ， 也 是 不 可 能 
实现 的 。 

关于 这 个 问题 的 一 个 部 分 解决 方案 是 把 不 同类 型 的 元 素 存 储 在 不 同 的 关系 中 ， 并 将 一 些 关键 元 素 
的 值 存储 为 关系 的 属性 以 便 索 引 。 比 如 ， 在 我 们 的 例子 中 ， 关 系 将 会 是 department_elements、course_ 
elements 、instructor_elements 以 及 teaches_elements， 每 个 都 有 一 个 data 属性 。 每 个 关系 可 以 有 额外 的 属性 
来 存储 一 些 子 元 素 的 值 ， 例 如 dept_name、course_id 或 者 name。 因 此 ， 采 用 这 种 表示 方式 可 以 有 效 地 回 
答 想 得 到 具有 指定 系 名 的 department 元 素 的 查询 。 这 种 方案 依赖 于 XML 数据 的 类 型 信息 ， 比 如 该 数据 
fy DTD, 

某 些 数 据 库 系统 ， 例 如 Oracle， 支 持 函 数 索 引 ( function index) ， 它 有 助 于 避免 XML 字符 串 和 关系 
属性 之 间 的 属性 重复 。 不 同 于 一 般 的 在 属性 值 上 的 索引 ， 函 数 索引 能 够 根据 用 户 自 定义 郴 数 作用 于 元 
组 上 的 结果 来 构建 。 例 如 ， 可 以 根据 这 样 一 个 用 户 自 定义 函数 来 构建 函数 索引 ， 该 函数 返回 一 个 元 组 
中 XML 字符 串 的 dept_name 子 元 素 的 值 。 然 后 该 索引 能 像 dept_name 属性 上 的 索引 一 样 被 使 用 。 

上 述 方法 的 缺点 在 于 ， 很 大 一 部 分 XML 信息 存储 在 字符 串 中 。 而 将 所 有 信息 保存 在 关系 中 也 是 可 
行 的 ， 接 下 来 我 们 将 介绍 几 种 这 样 的 方法 。 

23.6.2.2 WATE 

任意 的 XML 数据 可 以 被 模式 化 为 树 ， 并 用 一 个 关系 来 保存 : 
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nodes(id, parent_id, type, label, value) 
XML 数据 中 的 每 个 元 素 和 属性 都 被 赋予 一 个 唯一 标识 符 。 对 于 每 个 元 素 和 属性 ， 都 有 一 个 元 组 被 插入 
到 nodes 关系 中 。 该 元 组 的 标识 是 过 ， 其 父 结 点 标识 是 parent_id， 结 点 类 型 是 属性 或 元 素 、 元 素 或 属性 
的 名 称 是 label， 并 且 元 素 或 属性 的 文本 值 是 value。 

如 果 必 须 保存 元 素 和 属性 的 次 序 信 息 ， 可 以 给 nodes 关系 增加 一 个 额外 的 属性 position"， 用 来 指明 
该 子 结 点 在 其 父 结 点 的 所 有 子 结 点 中 的 相对 位 置 。 作 为 一 个 习题 ， 读 者 可 以 用 这 种 技术 来 表示 图 23-1 
中 的 XML 数据 。 

这 种 表示 法 的 优点 在 于 ， 所 有 的 XML 信息 可 以 直接 用 关系 形式 表示 出 来 ， 而 且 许多 XML 查询 可 
以 翻译 为 关系 查询 并 在 数据 库 系统 内 部 执行 。 然 而 ， 它 也 有 缺点 ， 即 每 个 元 素 都 被 分 解 成 很 多 部 分 ， 
而 且 将 子 元 素 重 组 为 元 素 需 要 大 量 的 连接 运算 。 

23. 6.2.3 映射 到 关系 

在 此 方法 中 ,已 知 模式 的 XML 元 素 被 映射 为 关系 和 属性 。 未 知 模式 的 元 素 按 字符 串 存 储 或 按 树 
存储 。 

对 于 每 个 模式 已 知 并 且 其 类 型 为 复杂 类 型 ( 即 包含 属性 或 子 元 素 ) 的 元 素 类 型 (包括 子 元 素 ) 都 创建 
一 个 关系 。 如 果 文 档 的 根 元 素 没有 任何 属性 ， 那 么 可 以 在 该 步 中 忽略 根 元 素 。 关 系 的 属性 定义 如 下 : 

© 这 些 元 素 的 所 有 属性 都 存储 为 该 关系 的 以 字符 串 为 值 的 属性 。 

。 如 果 元 素 的 一 个 子 元 素 是 简单 类 型 (也 就 是 说 ， 不 能 有 属性 或 子 元 素 ) ， 就 向 关系 中 增加 一 个 属 

性 来 表示 该 子 元 素 。 这 个 关系 属性 的 类 型 在 默认 情况 下 为 一 个 字符 串 值 ， 但 是 如 果子 元 素 有 
XML Schema 类 型 ， 可 以 使 用 与 之 对 应 的 SQL 类 型 。 

例如 ， 当 应 用 到 图 23- 1 的 数据 模式 (DTD 或 者 XML Schema ) 中 的 department 元 素 时 ， 
department 元 素 的 子 元 素 dept_name , building 以 及 budget 都 变 为 department 关系 的 属性 。 将 该 过 
程 应 用 于 剩余 元 素 ， 我 们 重新 得 到 在 前 几 章 中 使 用 过 的 原始 关系 模式 。 

。 否则 ,创建 一 个 对 应 于 子 元 素 的 关系 (在 它 的 子 元 素 上 递归 地 使 用 相同 的 规则 ) ， 并 且 : 

O 在 代表 元 素 的 关系 中 增加 一 个 标识 属性 。 (即使 元 素 有 多 个 子 元 素 , 标识 属性 也 只 增加 
=a) 
O 在 代表 子 元 素 的 关系 中 增加 parent_id 属性 ， 用 于 存储 其 父 元 素 的 标识 。 
O 如 果 必 须 保 持 顺 序 ， 那么 在 代表 子 元 素 的 关系 中 增加 position 属性 。 
例如 ， 如 果 将 上 述 过 程 应 用 于 图 23-5 中 数据 对 应 的 模式 上 ， 我 们 得 到 如 下 关系 : 
department( id, dept_name, building, budget) 














course( parent_id, course_id, dept_name, title, credits) 

这 个 方法 还 可 以 发 生变 化 。 例 如 ， 可 以 将 最 多 出 现 一 次 的 子 元 素 所 对 应 的 关系 “平面 化 "到 其 父 关 
系 中 ,方法 是 把 它 的 所 有 属性 移 到 其 父 关 系 中 。 文 献 注解 中 给 出 了 将 XML 数据 表示 为 关系 的 其 他 方法 
的 参考 文献 。 

23.6.2.4 发 布 和 分 解 XML 数据 

当 XML 用 于 在 商业 应 用 之 间 交 换 数据 时 ， 绝 大 多 数 数据 来 源 于 关系 数据 库 。 关 系数 据 库 中 的 数据 
必须 被 发 布 (publish) ( 即 转换 为 XML 格式 ) 以 导出 给 其 他 应 用 。 导 入 的 数据 必须 被 分 解 (shred) BIA 
XML 转换 回 规范 化 关系 形式 并 存储 在 关系 数据 库 中 。 尽 管 应 用 代码 可 以 执行 发 布 和 分 解 操 作 ， 但 如 此 
通用 的 操作 应 该 能 够 在 任何 可 能 的 地 方 自动 执行 转换 而 无 需 书写 应 用 代码 。 数 据 库 厂商 花费 了 巨大 的 
努力 以 使 他 们 的 数据 库 产品 支持 XML, 

一 个 支持 XML 的 数据 库 支 持 把 关系 数据 发 布 为 XML 的 自动 机 制 。 用 于 发 布 数据 的 映射 或 简单 或 
复杂 。 一 个 简单 的 、 从 关系 到 XML 的 映射 可 能 为 表 的 每 一 行 创建 一 个 XML 元 素 ， 并 使 该 行 的 每 一 列 
成 为 XML 元 素 的 一 个 子 元 素 。 图 23-1 中 的 XML Schema 可 以 通过 使 用 这 种 映射 从 大 学 信息 的 关系 表示 
创建 出 来 。 这 种 映射 可 以 直接 自动 生成 。 这 种 关系 数据 的 XML 视图 可 被 视 为 虚拟 的 XML 文档 ， 并 且 
XML 查询 可 以 在 虚拟 XML 文档 上 执行 。 

更 复杂 的 映射 允许 创建 嵌 套 结构 。 人 们 已 经 开发 出 了 在 select 子 句 中 进行 垦 套 查询 的 SQL 扩展 ， 
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以 允许 简单 地 创建 嵌 套 的 XML 输出 ， 我 们 在 23. 6. 3 节 概 述 这 些 扩展 ， 

将 XML 数据 分 解 为 关系 表示 的 映射 也 必须 被 定义 。 对 于 由 关系 表示 创建 的 XML 数据 ， 用 于 分 解 
数据 的 映射 就 是 发 布 这 些 数据 所 用 映射 的 逆 过 程 。 对 于 一 般 情况 ， 可 以 根据 23. 6. 2. 3 节 所 介绍 的 方法 
来 生成 映射 。 

23.6.2.5 在 关系 数据 库 中 的 本 地 存储 

一 些 关 系数 据 库 支持 XML 的 本 地 存储 (native storage) 。 这 类 系统 将 XML 数据 存储 为 字符 串 或 更 有 
效 的 二 进 制 表 示 ， 而 不 需要 将 数据 转换 为 关系 形式 。 尽 管 CLOB 和 BLOB 数据 类 型 可 以 提供 底层 存储 
机 制 ， 系 统 还 是 引入 了 新 的 数据 类 型 xml 来 表示 XML 数据 。 诸 如 XPath 和 XQuery 这 样 的 XML 查询 语 
言 被 提供 用 来 查询 XML 数据 。 

一 个 带 有 xml 类 型 的 属性 的 关系 可 用 于 存储 XML 文档 的 集合 ; 每 个 文档 作为 一 个 类 型 为 xml 的 值 
存储 在 一 个 单独 的 元 组 中 。 创 建 特殊 用 途 的 索引 来 索引 XML 数据 。 

一 些 数据 库 系统 提供 对 XML 数据 的 本 地 支持 。 它 们 提供 xml 数据 类 型 并 允许 在 SQL Ai PRE 
XQuery 查询 。XQuery 查询 可 以 在 单个 XML 文档 上 执行 ， 并 能 舱 入 到 SQL 查询 中 以 允许 它 在 一 个 文档 
集中 的 每 份 文 档 ( 其 中 每 份 文档 存储 在 一 个 单独 的 元 组 中 ) 上 执行 。 例 如 ， 为 了 获得 关于 Microsoft SQL 





Server 2005 对 XML 本 地 支持 的 更 多 细节 ， 请 参见 30. 11 节 。 
23.6.3 SQL/XML <university> 
<department> 

虽然 XML 被 广泛 用 于 数据 交换 : 结构 化 数据 ae name> Comp. Sci. </dept.name=> 
仍然 广泛 存储 在 关系 数据 库 中 。 将 关系 数据 转换 为 | <building> Taylor building Wn 
XML 表示 的 需求 也 很 常见 。 BT EEA, | ae 100000 </budget> 
S AN X 一 个 标 i <row> 

aiki 标准 定义 A joir 的 os 标准 扩展 3 允许 a Biology </dept name> 

BEA A XML 输出 。 这 个 标准 有 几 个 部 分 ， 包 | <building> Watson </building> 
括 将 SQL 类 型 映射 到 XML Schema 类 型 的 标准 方 Pr a un 90000 </budget> 
法 ,将 关系 模式 映射 到 XML 模式 的 标准 方法 ， 以 </department> 
及 SQL 查询 语言 扩展 。 we ia 

例如 ，department 关系 的 SQL/XML 表示 将 有 一 OO 
个 XML Schema, HRS EIA A department, A asart a Sci </dept_name> 
元 组 映射 为 一 个 XML 元 素 row， 且 每 个 关系 属性 映 wae ETE 
射 为 一 个 同名 (通过 一 些 转换 解决 与 名 字 中 特殊 字 1 
符 的 不 相 容 问题 ) 的 XML 元 素 。 一 个 完整 的 、 有 多 <title> Genetics </title> 
个 关系 的 SQL 模式 也 可 以 用 类 似 的 方式 映射 为 n= ERE 
XML, K| 23-15 给 出 了 包含 department 和 course 关系 Sot 
的 图 23-1 P (XBA) university 数据 的 SQL/XML 表示 。 </university> 








SQL/XML 向 SQL 中 增加 了 一 些 操作 符 和 聚集 ian a 
运算 以 允许 从 扩展 SQL 中 直接 创建 XML 输出 。 ”图 23-15 《部 分 ) 大 学 信息 的 SQL/XML 表示 
xmlelement 函数 可 用 于 创建 XML 元 素 ， 而 xmlattributes 可 用 于 创建 属性 ， 如 下 面 的 查询 所 示 


select xmlelement( name “course” , 
xmiattributes( course_id as course_id, dept_name as dept_name) , 
xmlelement( name “title” , title), 
xmlelement( name “credits”, credits) ) 

from course 


上 述 查 询 为 每 门 课程 创建 一 个 XML 元 素 ， 其 中 课程 标识 符 和 系 名 用 属性 来 表示 ， 课 程 名 和 学 分 用 
子 元 素 表示 。 查 询 结果 看 起 来 像 是 图 23-11 中 的 course 元 素 ， 但 是 没有 instructor 属性 。xmlattributes 
操作 符 用 SQL 属性 名 生成 XML 属性 名 ， 也 可 以 像 上 述 查 询 那样 替换 为 使 用 as 子 句 。 

xmiforest 操作 符 简化 了 XML 结构 的 构造 。 它 的 语法 和 行为 与 xmlattributes 类 似 ， 只 不 过 它 创建 
的 是 一 个 子 元 素 的 森林 (集合 ) ， 而 不 是 属性 的 列表 。 该 操作 符 有 多 个 变 元 ， 它 为 每 个 变 元 创建 一 个 元 
素 ， 使 用 属性 的 SQL 名 作为 XML CHA. xmlconcat 操作 符 可 用 于 将 由 子 表达 式 创建 的 元 素 连接 成 一 
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片 森 林 。 

当 用 于 构建 属性 的 SQL 值 为 空 时 ， 忽 略 该 属性 。 在 构建 元 素 主 体 时 ， 忽 略 空 值 。 

SQL/XML 还 提供 一 个 聚集 函数 xmlagg， 它 根据 所 操作 的 值 集合 创建 一 个 XML 元 素 的 森林 ( HE 
合 ) 。 下 述 查 询 为 每 个 开设 了 课程 的 系 创建 一 个 元 素 ， 该 系 所 开设 的 所 有 课程 作为 其 子 元 素 。 由 于 查询 
中 有 group by dept_name 子 句 ， 聚 集 函 数 将 作用 在 每 个 系 开 设 的 所 有 课程 上 ， 创 建 出 course_id 元 素 的 
一 个 序列 。 


select xmlelement( name “department” , 
dept_name , 
xmlagg( xmlforest( course_id) 
order by course_id) ) 
from course 
group by dept_name 
如 上 述 查询 所 示 ，SQLAXML 允许 对 xmlagg 创建 的 序列 排序 。 在 文献 注解 部 分 给 出 的 参考 文献 中 
可 以 找到 关于 SQL/XML 的 更 多 信息 。 


23.7 XML 应 用 


我 们 现在 概括 介绍 XML 在 存储 和 传递 (交换 ) 数 据 以 及 访问 Web 服务 (信息 资源 ) 方 面 的 一 些 应 用 。 
23.7.1 存储 复杂 结构 数据 

很 多 应 用 需要 存储 结构 化 的 但 不 易 建 模 为 关系 的 数据 。 例 如 考虑 一 个 应 用 (如 浏览 器 ) 必须 要 存储 
用 户 的 使 用 偏好 设置 。 通 常 有 大 量 的 域 必须 被 记录 ， 如 主页 、 安 全 设置 、 语 言 设 置 和 显示 设置 。 一 些 
域 是 多 值 的 ， 如 一 个 信任 站 点 的 列表 ， 或 是 如 书签 列表 那样 的 可 能 有 序 的 列表 。 传 统 上 ， 应 用 程序 使 
用 某 种 文本 表示 类 型 来 存储 这 些 数 据 。 今 天 ， 大 多 数 这 种 应 用 更 愿意 以 XML 格式 来 存储 这 些 配 置信 
息 。 早 先 使 用 的 即席 文本 表示 需要 做 很 多 工作 来 进行 设计 ， 以 及 创建 词法 分 析 器 以 读 取 文件 并 将 数据 
转化 为 程序 可 以 使 用 的 形式 ， 而 XML 表示 避免 这些 步 又 。. 

基于 XML 的 表示 现在 已 被 广泛 用 作 存 储 文档 、 电 子 表单 数据 以 及 作为 办 公 应 用 软件 包 的 一 部 分 的 
其 他 数据 。Open Office 软件 包 以 及 其 他 办 公 软 件 包 所 支持 的 开放 文档 格式 (ODF ) 以 及 微软 办 公 软 件 包 
所 支持 的 Office Open XML( OOXML) 格 式 都 是 基于 XML 的 文档 表示 标准 。 它 们 是 两 种 使 用 最 广泛 的 可 
编辑 文档 表示 形式 。 

XML 还 用 于 表示 必须 在 一 个 应 用 的 不 同 部 分 之 间 进 行 交 换 且 具有 复杂 结构 的 数据 。 例 如 ， 数 据 库 
系统 可 能 使 用 XML 来 表示 查询 执行 计划 (一 个 关系 代数 表达 式 ， 带 有 额外 的 关于 如 何 执行 操作 的 信 
息 ) 。 这 人 允许 在 没有 共享 数据 结构 的 情况 下 ， 系 统 的 一 部 分 生成 查询 执行 计划 而 另 一 部 分 显示 它 。 例 
如 ， 数 据 可 能 由 服务 器 系统 生成 ， 并 发 送 到 显示 数据 的 客户 端 系统 。 

23.7.2 标准 化 数据 交换 格式 

用 于 各 种 特殊 应 用 的 、 基 于 XML 的 数据 表示 标准 已 经 开发 出 来 了 ， 其 应 用 范围 很 广 ， 从 商业 应 用 
(比如 银行 业 和 运输 业 ) 到 科学 应 用 ( 比如 化 学 和 分 子 生 物 学 ) 。 下 面 是 一 些 例子 : 

。 化 学 工业 需要 有 关 化 学 制品 的 信息 ， 例 如 它们 的 分 子 结构 及 其 各 种 重要 属性 ， 如 沸点 和 熔点 、 

热 值 、 在 不 同 溶剂 中 的 溶解 性 。ChemML 就 是 表示 此 类 信息 的 一 个 标准 。 

。 在 运输 业 中 ， 货 物 的 承运 者 、 客 户 以 及 税务 官员 需要 货物 的 运输 记录 ， 其 中 包括 关于 所 运输 的 

货物 、 由 何人 发 往 何 地 、 送 达 给 何人 以 及 送 达 何 地 、 货 物 的 货币 价值 等 详细 信息 。 

。 一 个 能 够 进行 商品 买卖 的 在 线 商 场 (所 谓 的 B2B 市 场 ) 需 要 的 信息 如 商品 目录 (包括 详细 的 商品 

描述 和 价格 信息 ) 、 存 货 清单 、 建 议 售 价 和 购物 订单 。 例 如 ， 用 于 电子 商务 应 用 的 RosettaNet 标 
准 为 数据 表示 定义 了 XML 模式 和 语义 ， 并 为 信息 交换 定义 了 标准 。 

用 规范 化 关系 模式 对 这 种 复杂 的 数据 需求 进行 建 模 将 会 产生 出 大 量 的 关系 ， 这 些 关 系 并 不 直接 对 
应 于 被 建 模 的 对 象 。 这 样 的 关系 通常 会 有 大 量 属性 ; 在 XML 中 显 式 地 将 属性 /元 素 的 名 字 与 值 表示 在 
一 起 有 助 于 避免 属性 间 的 混淆 。 姑 套 元 素 表 示 有 助 于 在 宛 余 代价 可 以 接受 的 条 件 下 ， 减 少 必 须 被 表示 
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的 关系 的 数量 ， 以 及 为 获得 必要 信息 所 需要 的 连接 次 数 。 举 例 来 说 ， 在 我 们 的 大 学 的 例子 中 ， 如 图 23- 
5 那样 列 出 在 department TLR PARKA T course 元 素 的 系 而 生成 的 格式 对 某 些 应 用 而 言 比 图 23-1 中 的 规 
范 化 表示 更 加 自然 ， 特 别 是 在 供 人 阅读 方面 。 

23.7.3 Web 服务 


应 用 常常 需要 从 组 织 外 部 获取 数据 ,或 从 同一 组 织 中 使 用 不 同 数据 库 的 其 他 部 门 获取 数据 。 在 很 
多 这 样 的 情况 下 ， 外 部 组 织 或 部 门 并 不 希望 用 SQL 直接 访问 它 的 数据 库 , 但 是 愿意 通过 预定 义 接口 提 
供 受 限 形式 的 信息 。 

当 信息 直接 由 人 使 用 时 ， 组 织 机 构 提 供 基 于 Web 的 形式 ， 用 户 可 以 输入 值 并 获得 HTML 形式 的 所 
需 信 息 。 但 是 在 很 多 应 用 中 ， 这 样 的 信息 需要 被 软件 程序 访问 ， 而 不 是 由 终端 用 户 访 问 。 提 供 XML 形 
式 的 查询 结果 是 一 种 明确 的 需求 。 除 此 以 外 ， 用 XML 格式 为 查询 指定 输入 值 也 是 有 意义 的 。 

KEE, 信息 提供 者 定义 过 程 ， 这些 过 程 的 输入 和 输出 都 是 XML 格式 的 。 由 于 HTTP 协议 被 广泛 
应 用 且 可 以 穿越 机 构 为 防止 来 自 互 联网 的 、 不 需要 的 通信 而 使 用 的 防火 墙 ， 因 此 它 被 用 来 传输 输入 和 
输出 信息 。 

简单 对 象 访问 协议 ( Simple Object Access Protocol, SOAP) 为 过 程 调用 定义 了 一 个 标准 ， 它 使 用 XML 
来 表示 过 程 的 输入 和 输出 。SOAP 为 表示 过 程 名 和 结果 状态 指示 符 ( 如 失败 /错误 指示 符 ) 定 义 了 标准 的 
XML schema。 过 程 的 参数 和 结果 是 戏 人 在 SOAP XML 标题 中 的 、 依 赖 于 应 用 的 XML 数据 。 

典型 情况 下 ,使 用 HTTP 作为 SOAP 的 传输 协议 , 但 是 也 可 能 使 用 一 个 基于 消息 的 协议 (例如 
SMTP 协议 上 的 电子 邮件 ) 。 目 前 SOAP 标准 被 广泛 使 用 。 例 如 ，Amazon 和 Google 提供 基于 SOAP 的 过 
程 以 执行 搜索 和 其 他 活动 ， 这 些 过 程 可 以 被 为 用 户 提供 高 层 服 务 的 其 他 应 用 调用 。SOAP 标准 独立 于 下 
层 的 程序 设计 语言 ， 一 个 运行 某 种 语言 (如 C#) 的 站 点 调用 运行 在 一 个 不 同 语言 (如 Java) 上 的 服务 是 可 
能 的 。 

提供 这 样 一 个 SOAP 过 程 集合 的 站 点 被 称 作 Web 服务 (Web service) 。 目 前 已 经 定义 了 一 些 标准 以 
支持 Web 服务 。Web 服务 描述 语言 ( Web Services Description Language, WSDL) EH THRE Web 服务 能 
力 的 语言 。WSDL 提供 传统 程序 设计 语言 中 接口 定义 (或 函数 定义 ) 所 提供 的 工具 ， 指 定 什么 函数 是 可 
用 的 ， 以 及 它们 的 输入 和 输出 类 型 。 除 此 以 外 ，WSDL 允许 在 调用 Web 服务 时 指定 URL 和 所 使 用 的 网 
络 端口 号 。 还 有 一 个 标准 称 为 通用 描述 、 发 现 和 集成 ( Universal Description, Discovery, and Integration, 
UDDI) ， 它 定义 了 如 何 创 建 一 个 可 用 Web 服务 的 目录 ， 以 及 程序 如 何在 目录 中 搜索 以 找到 满足 其 需求 
的 Web 服务 。 

下 面 的 例子 展示 了 Web 服务 的 价值 。 一 家 航空 公司 可 能 定义 了 一 个 Web 服务 ， 提 供 一 组 可 以 被 
旅行 网 站 调用 的 过 程 ， 这 其 中 可 能 包括 用 于 查找 航班 计划 和 价格 信息 的 过 程 ， 以 及 用 于 预订 航班 的 
过 程 。 旅 行 网 站 可 能 与 由 不 同 航空 公司 、 酒 店 和 其 他 公司 提供 的 多 个 Web 服务 交互 ， 以 向 顾客 提供 
旅行 信息 并 进行 旅程 预定 。 通 过 支持 Web 服务 ， 每 家 公司 允许 在 顶层 构建 一 个 有 用 的 服务 ， 它 整合 
了 各 个 独立 的 服务 。 用 户 只 需 与 这 一 个 网 站 交互 就 可 以 进行 旅程 预定 ， 而 不 需要 联系 多 个 独立 的 
网 站 。 

要 调用 一 个 Web 服务 ， 客 户 端 必须 准备 适当 的 SOAP XML 消息 ， 并 将 它 发 送 给 服务 ; 当 接 收 到 以 
XML 编码 的 结果 时 ， 客 户 端 必须 从 XML 结果 中 提取 信息 。 在 诸如 Java 和 C# 那 样 的 程序 设计 语言 中 有 
标准 的 API， 用 于 从 SOAP 消息 中 创建 和 提取 信息 。 

在 文献 注解 部 分 的 参考 文献 中 可 以 找到 关于 Web 服务 的 更 多 信息 。 

23.7.4 数据 中 介 

比较 购物 是 数据 中 介 的 一 个 实例 ， 其 中 关于 商品 、 库 存 、 价 格 以 及 运送 费用 的 数据 是 从 销售 特 
定 商品 的 各 种 不 同 网 站 中 提取 出 来 的 。 聚 集 起 来 的 结果 信息 要 比 单个 站 点 提供 的 单独 信息 有 价值 
得 多 。 

个 人 财务 管理 程序 是 在 银行 业务 环境 中 的 类 似 应 用 。 考 虑 一 个 消费 者 ， 他 有 很 多 不 同 的 账户 要 管 
理 ， 比 如 银行 账户 、 信 用 卡 账户 ， 以 及 退休 金 账户 。 假 设 这 些 账 户 由 不 同 机 构 所 持 有 。 提 供 对 客户 所 
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有 账户 的 集中 式 管理 是 我 们 要 面临 的 一 个 主要 的 挑战 。 基 于 XML 的 中 介 对 该 问题 的 处 理 是 通过 从 持 有 
客户 账户 的 各 个 金融 机 构 各 自 的 网 站 上 提取 账户 信息 的 XML 表示 未 解决 的 。 如 果 机 构 将 这 些 信息 以 标 
HE XML 格式 (如 Web 服务 ) 导 出 ， 这 些 信息 就 可 以 很 容易 地 提取 出 来 。 对 于 不 提供 标准 XML 格式 导出 
信息 的 机 构 ， 可 以 使 用 包装 器 (wrapper) 软件 来 根据 网 站 返回 的 HTML 网 页 生成 XML 数据。 包装 器 应 
用 需要 经 常 维护 ， 因 为 它们 依赖 于 Web 页 面 的 格式 细节 ， 而 这 些 细节 是 经 常 变 化 的 。 尽 管 如 此 ， 中 介 
带 来 的 价值 常常 证 实 为 开发 和 维护 包装 器 所 付出 的 努力 是 值得 的 。 

一 旦 有 了 能 够 从 各 数据 源 提取 信息 的 基础 工具 ， 就 可 以 使 用 中 介 ( mediator) 应 用 在 一 个 单一 的 模式 
下 将 提取 到 的 信息 整合 起 来 。 这 可 能 需要 对 来 自 各 个 站 点 的 XML 数据 作 进 一 步 的 转换 ， 因 为 不 同 的 站 
点 可 能 用 不 同 的 方式 构造 相同 的 信息 。 它 们 还 可 能 用 不 同 的 名 字 为 同样 的 信息 命名 ( 如 acct_number 和 
account_id) ， 或 者 甚至 可 能 使 用 相同 的 名 字 表 示 不 同 的 信息 。 中 介 必 须 决 定 一 种 单一 的 模式 来 表示 所 
有 必要 信息 ， 同 时 必须 提供 在 不 同 表示 形式 之 间 进 行 数据 转换 的 代码 。 在 19. 8 节 介 绍 分 布 式 数据 库 时 
对 这 样 的 问题 进行 了 更 详细 的 讨论 。XML 查询 语言 ， 如 XSLT 和 XQuery， 在 不 同 XML 表示 之 间 进 行 转 
换 这 一 任务 上 发 挥 了 重要 作用 。 


23.8 总 结 


如 同 Web 所 基于 的 超 文本 标记 语言 (HTML) 一 样 ， 可 扩展 标记 语言 (XML) 也 是 源 自 标准 通用 标记 语 
A (SGML), XML 原本 是 为 了 给 Web 文档 提供 功能 标记 ,但 如 今 它 已 经 成 为 应 用 间 数 据 交换 格式 的 
事实 标准 。 

XML 文档 包含 元 素 ， 元 素 的 开头 和 结尾 用 相 匹 配 的 开始 和 结束 标签 来 标记 。 元 素 可 以 包含 任意 多 层 
嵌 套 的 子 元 素 。 元 素 还 可 以 有 属性 。 在 数据 表示 中 ,通常 可 以 任意 选择 用 属性 或 是 子 元 素来 表示 
信息 。 

元 素 可 以 有 一 个 类 型 为 ID 的 属性 ， 用 于 存储 该 元 素 的 唯一 标识 符 。 通 过 使 用 类 型 为 IDREF 的 属性 ， 
元 素 还 可 以 存储 指向 其 他 元 素 的 引用 。 类 型 为 IDREFS 的 属性 可 以 存储 一 个 引用 列表 。 

文档 可 以 选择 通过 文档 类 型 定义 (DTD) 来 指定 其 模式 。 文 档 的 DTD 指定 什么 元 素 可 以 出 现 ， 它 们 如 
何 嵌 套 ， 以 及 每 个 元 素 可 以 有 什么 属性 。 尽 管 DID 被 广泛 使 用 ,但 它 有 一 些 局 限 。 例 如 ， 它 们 不 能 
提供 类 型 系统 。 

XML Schema 是 目前 指定 XML 文档 模式 的 标准 机 制 。 它 提供 大 量 的 基本 类 型 ， 以 及 用 于 创建 复杂 类 
型 和 声明 完整 性 约束 (包括 键 约束 和 外 键 ( keyref) AR) 的 结构 。 

XML 数据 可 以 用 树 结构 表示 ， 树 结 点 对 应 于 元 素 和 属性 。 元 素 的 嵌 套 由 树 表示 中 的 父 - 子 结构 来 
反映 。 

路 径 表 达 式 可 用 于 遍历 XML 树 结构 和 定位 数据 。XPath 是 路 径 表 达 式 的 一 种 标准 语言 ， 它 允许 用 类 
似 于 文件 系统 路 径 的 方式 来 指定 所 需 元 素 ， 另 外 它 还 支持 选择 和 其 他 特性 。XPath 还 构成 了 其 他 
XML 查询 语言 的 一 部 分 。 

XQuery 语言 是 查询 XML 数据 的 标准 语言 。 它 有 与 SQL 相似 的 结构 ， 包 括 for, let, where, order by 
和 return 子 句 。 然 而 它 支持 很 多 用 于 处 理 XML 树 特 性 的 扩展 ， 并 且 人 允许 将 XML 文档 转换 为 男 一 种 
具有 明显 不 同 结构 的 文档 。XPath 路 径 表 达 式 构成 了 XQuery 的 一 部 分 。XQuery VFR A A AA 
自 定义 函数 。 

DOM 和 SAX API 广泛 应 用 于 对 XML 数据 的 程序 式 访问 。 在 很 多 程序 设计 语言 中 这 些 API 都 是 可 
用 的 。 

可 以 选择 几 种 不 同 的 方法 来 存储 XML 数据 。XML 数据 还 可 以 存储 在 文件 系统 中 ， 或 存储 在 使 用 
XML 作为 其 内 部 表示 的 XML 数据 库 中 。 

XML 数据 可 以 存储 为 关系 数据 库 中 的 字符 串 。 或 者 ， 用 一 些 关系 将 XML 数据 表示 为 树 。 作 为 男 一 种 
选择 ， 可 以 按照 将 E-R 图 映射 为 关系 模式 的 同样 方式 将 XML 数据 映射 为 关系 。 通 过 在 SQL 中 增加 
xml 数据 类 型 使 得 关系 数据 库 中 的 XML 本 地 存储 更 加 容易 。 

XML 被 使 用 在 各 种 应 用 中 ， 如 存储 复杂 数据 、 在 组 织 之 间 以 一 种 标准 化 形式 交换 数据 、 数 据 中 介 以 
及 Web 服务 。Web 服务 使 用 以 XML 作为 编码 参数 和 结果 的 机 制 ， 提 供 远程 过 程 调用 接口 。 
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术语 回顾 


。 可 扩展 标记 语言 (XML) 
© 超 文本 标记 语言 (HTML) 
。 标准 通用 标记 语言 
。 标记 语言 
。 标签 
。 自 描 述 
。 元 素 
HOCK 
KELK 
属性 
名 字 空 间 
默认 名 字 空 间 
模式 定义 
文档 类 型 定义 
口 ID 
口 IDREF 和 IDREFS 
® XML Schema 
口 简单 和 复杂 类 型 
口 序列 类 型 


实践 习题 


23: 1 


O key 和 keyref o 文档 对 象 模 型 (DOM ) 





























口 出 现 次 数 约束 。 XML 简单 API( SAX ) 
© XML 数据 的 树 模型 © XML 数据 存储 
. 结 点 口 非 关 系数 据 存储 
。 查询 和 转换 关系 数据 库存 储 
© 路 径 表 达 式 - 存储 为 字符 串 
e XPath - 树 表示 形式 
® XQuery - 映射 到 关系 
口 FLOWR 表达 式 - 发 布 和 分 解 
- for - 支持 XML 的 数据 库 
~ let - 本 地 存储 
- where - SQL/XML 
- order by e XML 应 用 
~ return 口 存储 复杂 数据 
口 连接 O 数据 交换 
O E FLWOR 表达 式 数据 中 介 
口 排序 D SOAP 
e XML API Web 服务 











给 出 包含 图 23-1 中 相同 数据 的 大 学 信息 的 另 一 种 表示 ， 但 是 使 用 属性 而 非 子 元 素 。 同 时 给 出 该 表示 


的 DTD 或 XML Schema, 


23.2 


oe iH A PRA KARRHY XML 表示 的 DTD 或 XML Schema: 


Emp = (ename, ChildrenSet setof( Children) , SkillsSet setof( Skills) ) 
Children = (name, Birthday) 

Birthday = (day, month, year) 

Skills = (type, ExamsSet setof( Exams) ) 

Exams = (year, city) 


基于 实践 习题 23. 2 中 的 模式 ， 用 XPath 书写 查询 列 出 Emp 中 的 所 有 技能 类 型 。 

在 图 23-11 中 的 XML 表示 上 用 XQuery 书写 查询 ， 找 出 每 个 系 所 有 教师 的 薪酬 总 额 。 

在 图 23-1 中 的 XML 表示 上 用 XQuery 书写 查询 ， 计 算 department 元 素 与 course 元 素 的 左 外 连接 。( 提 
W: 使 用 全 称 量词 。) 

给 定 图 23-11 中 使 用 了 ID 和 IDREFS 的 大 学 信息 表示 ， 用 XQuery 书写 出 查询 来 输出 内 部 散 套 有 相关 


联 的 course 元 素 的 department 元 素 。 


给 出 一 个 关系 模式 来 表示 图 23-16 中 的 DTD 片断 所 指定 的 书目 信息 。 关 系 模式 必须 保持 author 元 素 的 


顺序 。 可 以 假设 只 有 books 和 articles 作为 XML 文档 中 的 顶层 元 素 出 现 。 








… 对 year 





<! DOCTYPE bibliography [ 
<! ELEMENT book( title, author +, year, publisher, place?) > 
<! ELEMENT article(title, author +, journal, year, number, volume, pages?) > 
<! ELEMENT author(last_name, first name) > 
<! ELEMENT title( #PCDATA) > 
, Publisher, place, journal, year, number, volume, pages, last_name 
Ail first_name 的 类 似 PCDATA 声明 ) 








图 23-16 书目 数据 的 DTD 


23. 
23: 


习题 
23. 
23. 


23: 


23. 
23. 


23. 


23. 


23. 


23. 
23. 


23; 


23. 
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给 出 图 23-1 中 XML 数据 的 树 表示 ， 并 使 用 23. 6. 2 节 中 描述 的 nodes 和 child 关系 来 表示 该 树 。 
考虑 如 下 递归 DTD: 
<! DOCTYPE parts [ 
<! ELEMENT part (name, subpartinfo” ) > 
<! ELEMENT subpartinfo (part, quantity) > 
<! ELEMENT name( #PCDATA) > 
<! ELEMENT quantity( #PCDATA ) > 
TS 
a 给 出 对 应 于 上 述 DTD 的 一 个 小 的 数据 实例 。 
b. 给 出 如 何 将 这 个 DTD 映射 成 关系 模式 。 可 以 假设 part 的 名 称 是 唯一 的 ， 即 无 论 一 个 part 出 现在 哪 
里 ， 它 的 subpart 结构 都 是 一 样 的 。 
c. 用 XML Schema 创建 一 个 对 应 于 此 DTD 的 模式 。 1022 


通过 给 定 一 个 DTD ， 给 出 如 何 用 XML 来 表示 22. 2 节 中 的 非 INF 的 books 关系 。 
用 XQuery 写 出 如 下 查询 ， 使 用 实践 习题 23. 2 中 的 模式 。 
a 找 出 孩子 生日 在 三 月 份 的 所 有 雇员 的 名 字 。 
b. 找 出 那些 在 “Dayton" 城 市 参加 过 技能 类 型 为 “typing” 的 考试 的 雇员 。 
c. Ft Emp 中 的 所 有 技能 类 型 。 
考虑 图 23-3 中 给 出 的 XML 数据 。 假 设 我 们 希望 找到 订购 了 两 份 或 两 份 以 上 标识 符 为 123 的 部 件 的 
购物 订单 。 观 察 下 面 这 个 为 解决 该 问题 而 做 的 尝试 : 

for $p in purchaseorder 

where $p/part/id = 123 and $p/part/quantity > =2 

return $p 
解释 为 什么 这 个 查询 可 能 返回 某 些 订购 不 到 两 份 123 部 件 的 购物 订单 ， 给 出 正确 的 查询 。 
H XQuery 写 出 一 个 查询 来 转换 习题 23. 10 中 的 数据 骨 套 。 也 就 是 说 ， 在 艇 套 的 最 外 层 ， 输 出 中 必须 
有 对 应 于 作者 的 元 素 ， 并 且 每 个 这 样 的 元 素 必 须 在 内 部 骨 套 对 应 于 该 作者 所 写 的 所 有 书 的 项 。 
给 出 图 7-29 中 信息 的 XML 表示 的 DTD。 创 建 一 个 单独 的 元 素 类 型 来 表示 每 种 关系 ， 但 是 要 使 用 ID 
Al IDREF 来 实现 主 码 和 外 码 。 
给 出 习题 23. 14 中 DTD 的 XML Schema 表示 。 
用 XQuery 对 图 23-16 中 书目 的 DID 片断 写 出 以 下 查询 : 
a. 找 出 在 同一 年 内 著 有 一 本 书 和 一 篇 文章 的 所 有 作者 。 
b. 显示 按 年 排序 的 书 和 文章 。 
c. 列 出 有 一 个 以 上 作者 的 书 。 
d. 找 出 所 有 在 标题 中 包含 database "上 且 作者 名 字 中 包含 " Hank”( 不 管 是 姓 还 是 名 ) 的 书 。 
给 出 图 23-3 中 所 示 XML 购物 订单 模式 的 一 个 关系 映射 ， 使 用 23. 6. 2. 3 节 所 介绍 的 方法 。 如 果 商 品 
的 标识 函数 决定 商品 描述 ， 购 买 者 和 供 货 商 名 字 分 别 函 数 决定 购买 者 和 供 货 商 的 地 址 ， 给 出 如 何 去 
除 关 系 模式 中 宛 余 的 建议 。 
用 SQL/XML 写 出 查询 语句 ， 将 大 学 数据 从 我 们 在 前 面 章节 所 使 用 的 关系 模式 转换 为 university-1 和 
university-2 的 XML Schema, 
同 习 题 23. 18 一 样 ， 写 出 查询 将 大 学 数据 转换 到 university-1 和 university-2 的 XML Schema， 但 是 这 次 
是 通过 在 默认 的 SQL/XML 数据 库 到 XML 的 映射 上 书写 XQuery 查询 来 实现 。 
一 种 分 解 XML 文档 的 方法 是 使 用 XQuery 将 模式 转化 为 相应 关系 模式 的 SQL/XML 上 映射， 然后 反 向 使 
用 SQL/ XML 映射 以 生成 关系 。 
作为 示例 ， 给 出 一 个 XQuery 查询 将 数据 从 university-1 XML Schema 转化 到 图 23-15 所 示 的 SQL/XML 
模式 。 
考虑 23. 3.2 节 中 的 XML Schema 范例 ， 写 出 XQuery 查询 完成 如 下 任务 : 
a. 检查 是 否 满足 23. 3. 2 节 所 示 的 键 约束 。 
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b. 检查 是 否 满足 23. 3. 2 节 所 示 的 键 引用 约束 。 
23.22 考虑 实践 习题 23.7， 假设 作者 还 可 能 作为 顶层 元 素 出 现 ， 那么 需要 对 关系 模式 进行 什么 修改 ? 


工具 


公用 领域 内 已 经 有 很 多 用 于 处 理 XML 的 工具 。W3C 网 站 www. w3. org 上 有 介绍 各 种 XML 相关 标准 的 页 
面 ， 以 及 指向 软件 工具 ( 如 语言 实现 ) 的 链接 。 很 多 XQuery 实现 的 列表 可 以 在 www. w3. org/XML/Query 上 获 
得 。Saxon D( saxon. sourceforge. net) 和 Galax( http; //www. galaxquery. org/ ) 作 为 学 习 工 具 是 有 用 的 ， BRE 
们 都 没有 被 设计 用 来 处 理 大 数据 库 。Exist( exist-db. org) 是 一 个 开源 的 XML 数据 库 ， 它 支持 很 多 特性 。 一 些 
商业 数据 库 ， 包 括 IBM DB2, Oracle 和 Microsoft SQL Server 支持 XML 的 存储 、 通 过 各 种 SQL 扩展 进行 发 布 
以 及 使 用 XPath 和 XQuery 的 查询 。 


文献 注解 


万 维 网 联盟 (W3C ) 作为 Web 相关 标准 的 标准 主体 ， 包 括 基本 XML 以 及 所 有 XML 相关 语言 ， 如 XPath, 
XSLT 和 XQuery, E www. w3. org 上 有 大 量 定义 XML 相关 标准 的 技术 报告 。 这 个 网 站 还 包含 关于 实现 各 种 标 
准 的 软件 的 指南 和 链接 。 

XQuery 语言 是 从 一 种 称 作 Quilt 的 XML 查询 语言 发 展 而 来 的 。Quilt 本 身 包 括 了 早期 语言 (如 在 23.4.2 
节 中 讨论 的 XPath， 以 及 其 他 两 种 XML 查询 语言 XQL 和 XML-QL) 所 拥有 的 很 多 特性 。Chamberlin 等 
[2000] 介 绍 了 Quilt, Deutsch 等 [1999] 介 绍 了 XML-QL 语言 。W3C 在 2009 年 中 期 发 布 了 对 XQuery 进行 扩展 
的 一 个 推荐 候选 (candidate recommendation ) ， 其 中 包含 对 更 新 的 支持 。 

Katz 等 [2004 | 提供 了 涵盖 XQuery 的 详细 教科 书 。 可 以 在 www. w3. org/TR/xquery 上 找到 XQuery 规 
范 。 该 网 站 还 提供 了 对 XQuery 扩展 的 规范 ,包括 XQuery 更 新 工具 和 XQuery 脚本 扩展 。Florescu 等 
[2000 ] 和 Amer-Yahia 等 [2004 | 概述 了 将 关键 字 查 询 集成 到 XML 的 方法 。 

Funderburk 等 [2002a ] 、Florescu 和 Kossmann [ 1999 ] Kanne 和 Moerkotte [ 2000], LI Æ& Shanmug- 
asundaram 等 [1999 | 介绍 了 XML 数据 的 存储 。Eisenberg 和 Melton[ 2004a ] 提供 了 SQL/XML 的 概览 ， 而 
Funderburk 等 [2002b] 概括 介绍 了 SQL/XML 和 XQuery。 请 参考 第 28 章 ~ 第 30 章 以 获得 关于 商用 数据 
库 对 XML 支持 的 更 多 信息 。Eisenberg 和 Melton[ 2004b] 对 XQuery 的 XQJ API 进行 了 概述 ， 而 标准 定义 
可 以 在 http: //www. w3. org/TR/xquery 上 找到 。 

XML 索引 、 查 询 处理 和 查询 优化 : 过 去 几 年 中 ， 对 XML 数据 的 索引 以 及 XML 查询 处 理 和 优化 是 
一 个 兴趣 浓厚 的 领域 。 该 领域 发 表 了 很 多 论文 。 索 引 中 遇 到 的 一 个 挑战 是 : 查询 可 以 指定 在 路 径 上 的 
选择 ， 例 如 /a/b//cL d=“CSE”]。 通 过 索引 必须 能 够 高 效 地 获取 满足 路 径 指 定 和 值 选 择 的 结 点 。 在 
XML 数据 索引 方面 的 工作 包括 Pal 等 [2004 | 和 Kaushik 等 [2004 ] 。 如 果 数 据 是 被 分 解 的 并 存放 于 关系 
中 ， 对 路 径 表 达 式 的 计算 对 应 于 对 连接 的 计算 。 人 们 已 经 提出 了 几 种 技术 来 高 效 地 计算 这 类 连接 ， 特 
别 是 在 路 径 表 达 式 指定 了 任意 后 继 结 点 (//) 的 情况 下 。 人 们 还 提出 了 几 种 对 XML 数据 中 的 结 点 进行 编 
号 的 技术 ， 用 于 高 效 地 检查 一 个 结 点 是 否 是 另 一 个 结 点 的 后 继 ， 参 见 诸 如 O'Neil 等 [2004 | 。XML 查询 
优化 方面 的 工作 包括 McHugh 和 Widom[ 1999], Wu 等 [2003 ] 以 及 Krishnaprasad 等 [2004 | 。 
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第 24 章 包括 了 许多 应 用 开发 中 的 高 级 主题 ， 首 先 介绍 了 为 提高 应 用 系统 速度 而 进行 的 性 
能 调 优 ; 接着 讨论 了 衡量 商用 数据 库 系 统 性 能 的 基准 ; 然后 叙述 了 应 用 开发 中 诸如 应 用 测试 
和 应 用 移植 的 问题 。 本 章 以 对 标准 化 过 程 和 现 有 数据 库 语 言 标准 的 总 结 作为 结束 。 
第 25 章 描 述 了 空间 和 时 态 数据 类 型 、 多 媒体 数据 ， 以 及 在 数据 库 中 存储 这 些 数据 的 问 
题 ， 本 章 同时 还 介绍 了 有 关 移 动 计算 系统 的 数据 库 问题 。 
最 后 ， 第 26 章 描述 了 几 个 高 级 事务 处 理 技术 ， 包 括 事务 处 理 监视 器 、 事 务工 作 流 和 电子 [1027 
商务 中 的 事务 处 理 问题 ; 然后 讨论 了 主 存 数据 库 系 统 和 实时 事务 系统 ， 并 以 长 事务 的 讨论 作 |1028 
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应 用 开发 有 许多 任务 ， 我 们 已 经 在 第 7 章 到 第 9 章 看 到 了 如 何 设计 和 构建 应 用 系统 。 对 应 用 系 
统 期 望 的 性 能 是 应 用 系统 设计 的 一 个 方面 。 事实 上 ,一旦 应 用 系统 建立 以 后 ， 人 们 常常 发 现 它 的 运 
行 速度 比 设计 者 期 望 的 要 慢 ,， 或 者 每 秒 钟 处 理 的 事务 数量 少 于 需求 的 数量 。 一 个 应 用 系统 花费 过 长 
时 间 执 行 请 求 的 动作 ， 在 最 好 的 情况 下 会 引起 用 户 的 不 满 ， 在 最 坏 的 情况 下 应 用 系统 完全 不 能 使 用 。 

通过 性 能 调整 可 以 大 幅度 提高 应 用 系统 的 运行 速度 。 性 能 调整 包括 发 现 和 消除 瓶颈 ， 以 及 添加 
适当 的 硬件 ， 如 内 存 或 硬盘 。 应 用 系统 开发 者 可 以 有 多 种 方法 进行 性 能 调整 。 数 据 库 系统 管理 员 也 
可 以 有 多 种 方式 来 提高 应 用 系统 的 处 理 速度 。 

基准 是 一 些 任务 的 标准 化 集合 ， 它 们 有 助 于 刻画 数据 库 系 统 的 性 能 特征 。 甚 至 在 应 用 系统 构建 
之 前 ， 基 准 对 于 大 致 了 解 应 用 系统 硬件 和 软件 的 要 求 都 是 很 有 用 的 。 

应 用 系统 在 开发 过 程 中 必须 进行 测试 。 测 试 要 求生 成 数据 库 状 态 和 测试 输入 ， 并 验证 输出 是 否 
匹配 预期 的 输出 。 我 们 讨论 应 用 系统 测试 的 问题 。 遗 产 系统 是 已 经 过 时 的 、 通 常 基于 老 一 代 技 术 的 
应 用 系统 。 然 而 ， 它 们 常常 位 于 组 织 机 构 的 核心 ,运行 一 些 关键 任务 应 用 。 我 们 概述 了 与 遗产 系统 
接口 的 问题 ， 如 何 移植 遗产 系统 的 问题 ， 以 及 如 何 用 更 现代 的 系统 取代 遗产 系统 。 

标准 对 于 应 用 系统 开发 来 说 非常 重要 ， 特 别 是 在 互联 网 时 代 ， 因 为 应 用 之 间 需 要 相互 通信 以 执 
行 有 用 的 任务 。 人 们 已 经 提出 的 各 种 不 同 的 标准 会 影响 数据 库 应 用 的 开发 


24.1 性 能 调整 


[1029] 系统 性 能 调整 包括 调整 各 种 参数 和 选择 设计 方案 ， 以 提高 系统 在 特定 应 用 下 的 性 能 。 数 据 库 系 
统 设计 的 各 个 方面 (其 范围 从 高 层次 方面 ， 如 模式 和 事务 设计 ， 到 数据 库 参 数 ， 如 缓冲 区 大 小 ， 直 到 
硬件 问题 ， 如 磁盘 数目 ) 都 影响 着 应 用 系统 的 性 能 。 为 了 提高 系统 性 能 ， 所 有 这 些 方面 都 可 以 调整 
24.1.1 提高 面向 集合 的 特性 

当 来 自 一 个 应 用 程序 的 SQL 查询 被 执行 时 ， 通 常情 况 下 一 个 查询 会 被 频繁 地 执行 ， 但 是 带 有 不 
同 的 参数 值 。 每 次 调用 除了 在 服务 器 上 的 处 理 开 销 ， 还 有 与 服务 器 通信 的 开销 。 
例如 ， 考 虑 一 个 程序 ， 它 遍历 各 个 系 ， 调 用 嵌入 式 的 SQL 查询 来 找 出 系 中 所 有 教师 的 薪酬 总 额 ; 


select sum( salary) 
from instructor 
where dept_name = ? 


如 果 instructor 关系 在 dept_name 上 没有 聚集 索引 ,每 个 这 样 的 查询 将 导致 对 整个 关系 扫描 一 裔 。 
即使 有 这 样 的 索引 ， 对 每 个 dept_name 的 值 也 会 有 随机 的 VO 操作 请 求 。 
相反 ， 我 们 可 以 使 用 单个 SQL 查询 来 找 出 每 个 系 的 总 薪酬 费用 : 
select dept_name, sum (salary) 
from instructor 
group by dept_name; 
这 个 查询 通过 对 instructor 关系 的 单 遍 扫描 来 实现 ， 从 而 避免 对 每 个 系 的 随机 LO。 其 结果 可 以 通过 单 
次 通信 提取 到 客户 端 ， 然 后 客户 端 程序 可 以 遍历 结果 来 找 出 每 个 系 的 聚集 值 。 像 上 述 那 样 把 多 个 
SQL 查询 合并 为 单个 SQL 查询 在 很 多 情况 下 可 以 大 大 降低 执行 开销 ， 例 如 ， 如 果 instructor 关系 非常 
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大 ， 并 且 有 很 多 的 系 。 

JDBC API 也 提供 了 一 个 称 作 批 量 更 新 (batch update) 的 功能 ， 人 允许 使 用 单 次 数据 库 通 信和 来 执行 
多 个 插入 操作 。 图 24-1 展示 了 这 个 功能 的 使 用 情况 。 当 执行 executeBatch () 方法 时 ， 图 中 所 示 的 
代码 只 需要 与 数据 库 通信 一 次 ， 相 比 之 下 ,我们 前 面 在 图 5-2 中 看 到 的 类 似 代 码 没 有 批量 更 新 功能 。 
在 没有 批量 更 新 的 情况 下 ， 需 要 与 数据 库 通 信 的 次 数 与 待 插入 的 教师 一 样 多 。 批 量 更 新 功能 也 使 得 
数据 库 可 以 一 次 处 理 一 批 插入 ， 这 很 可 能 会 比 一 连 串 的 单 记录 插入 更 为 有 效 。 

在 客 户 >it i 服 务 器 系 统 p 广 iz 使 用 的 男 一 种 用 来 | PreparedStatement pStmt 5 conn.prepareStatement( 
减少 通信 开销 和 SQL 编译 的 技术 是 使 用 存储 过 程 。 其 __ “insert into instructor values(?,?,?,?)'); 
中 查询 以 过 程 的 形式 存储 在 服务 器 上 ， 它 们 可 以 被 预 | PSwmtsetStingl2 "Pen 
编译 。 客 户 端 可 以 调用 这 些 存 储 过 程 ， 而 不 是 发 送 一 Pest ne ); 
系列 查询 。 pStmt.addBatch( ); : 

提高 面向 集合 特性 的 另 一 个 方面 在 于 用 嵌 套 子 查 | PStmtsetStinglo “Thierry 
i (nested subquery) 重 写 查询 。 在 过 去 ， 许 多 数据 库 | PSImtsetnta Ke 
系统 的 优化 器 不 是 特别 好 ， 所 以 一 个 查询 是 如 何 写 的 pStmt.addBatch( ); pStmt.executeBatch( ); 

将 极 大 地 影响 到 它 是 如 何 被 执行 的 ， 从 而 对 性 能 也 有 g aes 
(BHI. 144 FEUER OE RE EE TT OE G 18 7 Bt JORG eee 
糕 的 查询 ， 并 有 效 地 执行 它们 ， 所 以 调整 单个 查询 的 需求 没有 以 前 那么 重要 了 。 A, Fe eat 
并 不 能 很 好 地 优化 包含 嵌 套 子 查 询 的 复杂 查询 。 

我 们 在 第 13.4.4 节 看 到 了 去 除 租 套子 查询 相关 性 的 技术 。 如 果 一 个 子 查询 没有 被 去 除 相 关 性 ， 
它 会 被 重复 地 技 行 ， 这 可 能 导致 大 量 的 随机 IO。 与 此 相反 ， 去 除 相关 性 允许 使 用 高 效 的 面向 集合 操 
作 ， 例 如 连接 ， 来 最 小 化 随机 IO。 大 多 数 数据 库 查 询 优化 器 引入 了 一 些 形式 的 去 除 相 关 性 ， 但 有 些 
只 能 处 理 很 简单 的 冬 套 子 查询 。 优 化 器 选择 的 执行 计划 是 在 前 面 第 13 章 描述 的 。 如 果 优 化 器 不 能 成 
功 去 除 艇 套子 查询 的 相关 性 ， 该 查询 可 以 通过 手工 重 写 来 去 除 相关 性 。 

24. 1.2 批量 加 载 和 更 新 的 调整 

当 把 大 量 数据 加 载 到 数据 库 中 〈 称 为 批量 加 载 (bulk load) 操作 ) 时 ， 如 果 通 过 单独 的 SQL Fifi 
人 语句 来 执行 插入 ， 性 能 通常 会 非常 差 。 其 中 一 个 原因 是 解析 每 个 SQL 查询 的 开销 ; 一 个 更 重要 的 
原因 是 ， 为 每 个 插入 的 元 组 分 别 执行 完整 性 约束 检查 和 索引 更 新 会 导致 大 量 的 随机 LO 操作 。 如 果 
大 批量 执行 插入 ， 可 以 以 一 种 更 加 面向 集合 的 方式 完成 完整 性 约束 检查 和 索引 更 新 ， 从 而 大 大 降低 
开销 ， 把 性 能 提升 一 个 数量 级 或 更 高 并 不 少见 。 

为 了 支持 批量 加 载 操 作 ， 大 多 数 数据 库 系 统 提 供 了 批量 导入 (bulk import) 功能 ， 以 及 相应 的 批 
量 导出 (bulk export) 功能 。 批 量 导入 功能 从 文件 读 取 数 据 ， 并 以 一 种 非常 高 效 的 方式 执行 完整 性 约 
束 检 查 以 及 索引 维护 。 这 样 的 批量 导入 /导出 功能 支持 的 常见 输入 和 输出 文件 格式 包括 文本 文件 ， 它 
们 带 有 如 逗号 或 制 表 符 那 样 的 符号 来 分 隔 属 性 值 ， 每 个 记录 单独 占 一 行 (这 样 的 文件 格式 称 为 过 号 
分 隔 的 值 或 制 表 符 分 隔 的 值 格式 )。 批 量 导 入 /导出 功能 也 支持 数据 库 特 定 的 二 进 制 格式 以 及 XML 格 
式 。 批 量 导入 /导出 功能 的 名 字 随 数据 库 不 同 而 不 同 。 在 PostgreSQL 里 ， 这 些 功能 被 称 为 pg_dump 和 
pg_restore( PostgreSQL 也 提供 了 一 个 SQL 命令 copy， 它 提供 了 类 似 的 功能 ) Oracle 里 的 批量 导入 / 导 
出 功能 称 为 SQL* Loader， 在 DB2 里 该 功能 被 称 为 lbad， 在 SQL Server 里 该 功能 被 称 为 bep( SQL 
Server 还 提供 了 一 个 称 作 bulk insert 的 SQL 命令 ) 。 

我 们 现在 考虑 调整 批量 更 新 的 情况 。 假 设 我 们 有 一 个 关系 funds_received ( dept_name, amount) , 
它 为 每 个 系 存储 到 账 的 资金 (例如 ， 通 过 电子 资金 转账 )。 假 设 现在 我 们 想 给 相应 系 的 预算 余额 增加 
经 费 。 为 了 使 用 SQL 更 新 语句 来 完成 这 项 任务 ,我 们 必须 为 department 关系 中 的 每 个 元 组 在 funds_ 
received 关系 上 执行 一 次 查找 。 我 们 可 以 按 如 下 方式 使 用 更 新 子 句 中 的 子 查询 来 完成 这 项 任务 : 为 简 
单 起 见 ， 我 们 假设 funds_received 关系 中 对 每 个 系 最 多 包含 一 个 元 组 。 
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up date department set budget = budget + 
( select amount 
from funds_received 
where funds_received. dept_name = department. dept_name ) 
where exists( 
select ` 
from funds_received 
where funds_received. dept_name = department. dept_name) ; 


注意 更 新 语句 的 where 子 句 里 的 条 件 确 保 了 只 有 在 funds_received 中 有 相应 元 组 的 账户 才 会 被 更 
新 ， 而 set 子 句 中 的 子 查 询 则 计算 出 要 给 每 个 这 样 的 系 增加 的 经 费 量 。 

有 许多 应 用 程序 需要 如 上 所 示 的 更 新 操作 。 通 常情 况 下 ， 有 一 个 我 们 称 之 为 主 表 ( master table ) 

的 表 ， 对 主 表 的 更 新 是 批量 进行 的 。 现 在 主 表 必 须 相 应 地 更 新 。SQL: 2003 提供 了 一 种 特殊 结构 ， 
称 为 merge 结构 ， 来 简化 执行 这 样 的 信息 合并 的 任务 。 例 如 ， 上 面 的 更 新 可 以 使 用 merge 表示 如 下 : 
merge into department as 4 
using (select 
from funds_received) as F 
on (A. dept_name = F. dept_name) 
when matched then 
update set budget = budget + F. amount; 

“KA using 子 句 子 查询 的 一 条 记录 上 department 关系 中 的 一 条 记录 匹配 时 ， 就 执行 when 
matched 子 句 ， 它 可 以 在 该 关系 上 执行 一 个 更 新 操作 ; 在 这 种 情况 下 ， 在 department 关系 中 匹配 的 记 
录 按 如 上 所 示 的 方式 被 更 新 。 

merge 语句 还 可 以 有 一 个 when not matched then 子 句 ， 它 允许 往 关系 中 插入 新 记录 。 在 上 面 的 
例子 里 ， 当 funds_received 的 元 组 没有 匹配 上 的 系 , 插入 动作 可 以 使 用 以 下 子 句 来 创建 一 个 新 的 系 记 
录 ( 在 building 值 上 取 空 值 ) : 


when not matched then 
insert values ( F. dept_name, null, F. budget) 


虽然 在 这 个 例子 里 不 是 非常 有 意义 =， 但 在 其 他 情况 下 when not matched then 子 句 是 相当 有 用 
的 。 PWN, 假设 本 地 关系 是 主 关系 的 一 个 副本 ， 且 我 们 从 主 关系 接收 到 了 更 新 的 以 及 新 插入 的 记录 。 
merge 语句 可 以 更 新 匹配 上 的 记录 (这 些 是 被 更 新 的 旧 记 录 ) 并 且 捅 人 未 匹配 上 的 记录 (这 些 是 新 记 
录 ) 。 

目前 并 非 所 有 的 SQL 实现 都 支持 merge 语句 ， 进 一 步 的 细节 请 参见 相应 的 系统 手册 。 
24.1.3 瓶颈 位 置 

大 多 数 系统 的 性 能 (至 少 在 它们 调整 之 前 ) 通 常 主 要 受制 于 一 个 或 几 个 部 件 的 性 能 ， 这 样 的 部 件 
称 为 瓶颈 (bottleneck) 。 例 如 ， 一 个 程序 可 能 有 80% 的 时 间 花 在 代码 中 的 一 个 小 循环 上 ， 而 其 余 20% 
的 时 间 用 在 剩余 的 代码 上 ; 那么 这 个 小 循环 就 是 一 个 瓶颈 。 提 高 非 瓶 颈 部 件 的 性 能 对 于 提高 系统 的 

总 体 速度 没 多 大 帮助 ， 在 上 述 例 子 中 ， 提 高 剩余 代码 的 速度 不 可 能 使 总 体 速度 提高 20% 以 上 ， 而 提 

高 该 瓶颈 循环 的 速度 在 最 好 的 情况 下 可 以 将 总 体 速度 提高 将 近 80% 。 

因此 ， 在 对 系统 进行 性 能 调整 时 ， 我 们 必须 首先 试 着 找 出 瓶颈 是 什么 ， 然 后 通过 提高 导致 这 些 
瓶颈 的 系统 部 件 的 性 能 来 消除 瓶颈 。 消 除 一 个 瓶颈 后 ， 可 能 另 一 个 部 件 又 成 为 瓶颈 。 在 一 个 性 能 均 
衡 的 系统 中 ， 任 何 单个 的 部 件 都 不 会 成 为 瓶颈 。 如 果 系 统 中 存在 瓶颈 ， 没 有 构成 瓶颈 的 那些 部 件 就 
不 能 被 充分 使 用 ， 因 而 可 以 使 用 性 能 较 低 、 价 格 较 便 宜 的 部 件 来 代替 。 

对 简单 的 程序 来 说 ， 在 代码 的 各 个 部 分 花费 的 时 间 决 定 了 总 体 执 行 时 间 。 然 而 ， 数 据 库 系 统 要 
复杂 得 多 ， 可 以 用 排队 系统 (queueing system) 来 建 模 。 一 个 事务 向 数据 库 系 统 请 求 各 种 服务 ， 从 进入 
一 个 服务 器 进程 开始 ， 在 执行 过 程 中 需要 读 磁 盘 ， 需 要 CPU 周期 ， 以 及 并 发 控制 所 需要 的 锁 。 每 个 





日 ”在 这 里 一 个 更 好 的 动作 是 把 这 些 记 录 插 入 到 一 个 错误 关系 中 ,但 是 用 merge 语句 不 能 这 样 来 实现 。 
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这 样 的 服务 都 有 一 个 队列 与 之 相 联 ， 而 小 事务 可 能 把 它们 大 多 数 的 时 间 都 花费 在 队列 (尤其 是 磁盘 1/ 
0 队列 ) 等待 上 ， 而 不 是 代码 的 执行 上 。 图 24-2 举例 说 明了 数据 库 系 统 中 的 一 些 队列 。 


并 发 控制 管理 器 





图 24-2 ”数据库 系统 中 的 队列 


由 于 数据 库 系统 中 存在 大 量 队列 ， 数 据 库 系统 中 的 瓶颈 常常 表现 为 某 个 特定 服务 的 队列 很 长 ， 
或 者 等 价 地 说 ， 某 个 特定 服务 的 利用 率 很 高 。 如 果 请 求 的 分 布 非常 均匀 ， 并 且 为 一 个 请 求 服务 的 时 
间 小 于 或 等 于 下 一 请 求 到 来 的 时 间 ， 那 么 每 个 请 求 都 会 发 现 资源 是 空闲 的 ， 因 此 可 以 立即 开始 执行 
而 不 需 等 待 。 遗 憾 的 是 ， 数 据 库 系 统 中 请 求 的 到 达 从 不 是 均匀 的 ， 而 总 是 随机 的 。 

如 果 一 个 资源 (如 磁盘 ) 的 利用 率 低 ， 那 么 当 提出 请 求 时 ， 该 资源 很 可 能 是 空闲 的 ， 这 时 请 求 的 
等 待 时 间 为 0。 假设 请 求 的 到 达 均 匀 地 随机 分 布 ， 队 列 长 度 (以 及 相应 的 等 待 时 间 ) 随 利用 率 呈 指数 
增长 ， 当 利用 率 接近 100% 时 ， 队 列 长 度 急 剧 增加 ， 导 致 等 待 时 间 过 长 。 因 此 资源 的 利用 率 应 保持 足 
够 低 ， 使 队列 长 度 很 短 。 经 验 表明 ， 利 用 率 在 70% 左右 较 好 ， 而 超过 90% 就 太 大 ， 因 为 这 会 带 来 显 
著 的 延迟 。 要 进一步 了 解 关 于 排队 系统 理论 ( 通常 称 作 排队 论 ( queueing theory) ) 的 更 多 知识 ， 请 参阅 
文献 注解 中 所 给 出 的 参考 文献 。 

24.1.4 ”可 调 参 数 

数据 库 管理 员 可 以 在 三 个 级 别 上 对 数据 库 系 统 进行 调整 。 最 低级 别 是 在 硬件 层 上 。 这 一 级 上 调 
整 系统 的 选项 包括 : 如 果 磁盘 /0 是 瓶颈 ， 则 增加 磁盘 或 使 用 RAID 系统 ; 如 果 磁 盘 缓冲 容量 是 瓶 
颈 ， 则 增加 更 多 内 存 ; 如 果 CPU 使 用 是 瓶颈 ， 则 改 用 更 快 的 处 理 器 。 

第 二 个 级 别 由 数据 库 系统 参数 组 成 ， 比 如 缓冲 区 大 小 和 检查 点 间隔 。 可 调 的 数据 库 系统 参数 的 
集合 取决 于 特定 的 数据 库 系统 。 大 多 数 数据 库 系统 手册 提供 了 有 关 哪 些 数据 库 系统 参数 可 调 以 及 如 
何 选择 参数 值 这 些 方面 的 信息 。 设 计 良 好 的 数据 库 系统 自动 进行 尽 可 能 多 的 调整 ， 以 减轻 用 户 或 数 
据 库 管理 员 的 负担 。 例 如 ， 很 多 数据 库 系 统 的 缓冲 区 大 小 是 固定 的 ， 但 是 是 可 调 的 。 如 果 系 统 能 够 
根据 诸如 页 错误 率 这 样 的 指标 来 自动 调整 缓冲 区 大 小 ， 那 么 数据 库 管理 员 就 不 必 为 调整 缓冲 区 大 小 
而 烦恼 。 

第 三 级 别 是 最 高 级 别 。 它 包括 模式 和 事务 。 管 理 员 可 以 调整 模式 的 设计 、 创 建 的 索引 以 及 执行 
的 事务 来 提高 性 能 。 这 一 级 的 调整 与 系统 相对 独立 。 

这 三 级 的 调整 相互 影响 ， 当 对 系统 进行 调整 时 ， 我 们 必须 将 三 者 结合 起 来 考虑 。 例 如 ， 在 某 个 
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更 高 级 别 上 所 做 的 调整 可 能 导致 硬件 瓶颈 从 磁盘 系统 上 移 到 CPU 上 ， 反 之 亦 然 。 
24.1.5 硬件 调整 
1034 即使 在 设计 良好 的 事务 处 理 系统 中 ， 如 果 事 务 所 需 的 数据 在 磁盘 上 ， 那 么 每 个 事务 通常 至 少 需 
1035 要 几 次 VO 操作 。 调 整 事务 处 理 系统 的 一 个 重要 因素 就 是 确保 磁盘 子 系统 能 够 处 理 LO 操作 所 需要 

的 速率 。 例 如 ， 考 虑 一 个 访问 时 间 大 约 是 10 毫秒 的 磁盘 ， 其 平均 传输 率 是 每 秒 23MB 到 100MB ( = 
今 相当 典型 的 磁盘 ) ， 这 样 的 磁盘 为 每 次 4KB 的 1/0 操作 提供 每 秒 略 少 于 100 次 的 随机 访问 。 如 果 每 
个 事务 只 需 2 次 VO 操作 ， 单 个 磁盘 每 秒 最 多 可 支持 50 个 事务 。 要 想 每 秒 支 持 更 多 的 事务 ， 唯 一 的 
方法 是 增加 磁盘 的 数量 。 如 果 系 统 每 秒 需 支持 n 个 事务 ,每 个 事务 执行 2 次 VO 操作 ,那么 数据 必 
须 被 分 (或 划分 ) 在 至 少 n/50 个 磁盘 上 (忽略 偏 斜 的 影响 ) 。 

在 此 必须 注意 的 是 ， 限 制 因素 并 不 是 磁盘 容量 ， 而 是 能 够 随机 进行 数据 访问 的 速度 ( 相应 地 取决 
于 磁盘 臂 的 移动 速度 ) 。 将 更 多 的 数据 存 到 内 存 中 ， 可 减少 每 个 事务 进行 IO 操作 的 次 数 。 如 果 所 有 
数据 都 放 在 内 存 中 ， 除 了 写 操作 以 外 将 不 会 有 磁盘 IO 操作 。 把 经 常 使 用 的 数据 放 在 内 存 中 以 减少 
磁盘 IO 次 数 而 增加 的 额外 的 内 存 开 销 是 值得 的 。 把 不 经 常 使 用 的 数据 放 在 内 存 中 是 一 种 浪费 ， 因 
为 内 存 比 磁盘 要 昂贵 得 多 。 

问题 是 ， 如 果 用 给 定数 量 的 钱 购买 磁盘 或 内 存 ， 如 何 分 配 这 笔 钱 才 能 获得 每 秒 最 大 的 事务 量 呢 ? 
每 秒 减少 一 次 VO 操作 将 节省 : 

(每 个 磁盘 驱动 器 的 价格 )/( 每 个 磁盘 每 秒 的 访问 量 ) 

因此 ， 如 果 一 个 特定 的 页 每 秒 被 访问 n 次， 由 于 把 该 页 放 在 内 存 中 而 带 来 的 节省 将 是 上 面值 的 

倍 。 在 内 存 中 存储 一 页 的 成 本 是 : 
(每 MB 内 存 的 价格 )/ (每 MB 内 存 的 页 数 ) 

因此 ， 收 支 平衡 点 的 计算 如 下 : 





,每 个 磁盘 驱动 器 的 价格 每 MB 内 存 的 价格 
”每 个 磁盘 每 秒 的 存 取 量 ”每 MB 内 存 的 页 数 


我 们 可 将 上 面 的 公式 变形 ， 并 用 当前 的 值 替 换 上 面 公式 中 的 每 个 参数 ， 就 会 得 到 n MA; 如 果 某 一 
页 的 访问 频率 大 于 该 值 ， 就 值得 买 足够 的 内 存 来 存储 它 。 对 于 随机 访问 的 页 来 说 ， 基 于 当前 的 磁盘 
技术 ， 内 存 和 磁盘 的 价格 (我 们 假设 每 个 磁盘 大 约 50 美元 ， 即 每 MBO. 020 美元 ) ， 可 得 到 n 的 值 是 
大 约 每 秒 1/6400 次 (或 相当 于 接近 两 小 时 一 次 ) 。 基 于 几 年 前 的 磁盘 和 内 存 的 成 本 和 速度 ， 相 应 的 值 
为 5 分 钟 一 次 。 
这 个 推理 可 由 最 初 被 称 为 5 分 钟 规则 (5-minute rule) 的 经 验 规 则 来 描述 : 如 果 一 页 在 5 分 钟 里 被 使 用 
的 次 数 多 于 一 次 ， 它 就 应 当 存 储 在 内 存 中 。 换 名 话说， 几 年 前 此 规则 建议 购买 足够 的 内 存 来 存储 所 有 那 
些 平均 5 分 钟 至 少 被 访问 一 次 的 页 。 今 天 ， 值 得 买 足够 的 内 存 来 存储 所 有 那些 平均 2 小 时 至 少 被 访问 一 
次 的 页 。 对 于 访问 不 那么 频繁 的 数据 ， 应 购买 足够 的 磁盘 以 支持 这 些 数据 所 需 的 IO 访问 率 。 

对 于 顺序 访问 的 数据 ， 每 秒 可 能 会 读 取 非 常 多 的 页 。 假 设 一 次 读 取 IMB 的 数据 ， 几 年 前 我 们 有 1 
分 钟 规则 (1-minute rule) ， 就 是 说 ， 如 果 顺 序 访问 的 数据 一 分 钟 内 至 少 访问 一 次 ， 就 应 该 把 它们 放 到 内 
存 中 。 根 据 我 们 之 前 的 例子 ， 用 现在 的 内 存 和 磁盘 成 本 ， 相 应 的 数字 是 30 秒 左 右 。 令 人 惊讶 的 是 ， 这 
个 数字 多 年 来 并 没有 很 大 变化 ， 因 为 磁盘 传输 率 已 经 大 大 提高 了 ， 尽 管 一 兆 内 存 的 价格 相对 于 磁盘 价 
格 已 经 大 大 降低 了 。 

BR, BK [VO 操作 读 取 的 数据 量 对 上 述 时 间 的 影响 很 大 ; 实际 上 ， 如 果 每 次 YO 操作 读 或 写 大 
约 100KB 的 数据 ，5 分 钟 规则 仍然 适用 。 

5 分 钟 经 验 规 则 及 其 变 体 只 考虑 了 1/0 操作 的 次 数 ， 并 没有 考虑 诸如 响应 时 间 这 样 的 因素 。 有 些 
应 用 甚至 将 不 常 使 用 的 数据 也 保存 在 内 存 中 ， 以 提供 低 于 或 与 磁盘 访问 时 间 相 当 的 响应 时 间 。 

随 着 闪存 以 及 基于 闪存 的 “ 固态 硬盘 ”的 普及 ， 系 统 设计 者 现在 可 以 把 经 常 使 用 的 数据 存储 在 闪存 
存储 器 上 ， 而 不 是 磁盘 上 。 另 外 ， 在 闪存 作为 缓冲 区 (flash-as-buffer) 的 方式 中 ， 闪存 存 储 器 被 用 作 持 
久 缓 冲 区 ， 每 一 块 在 磁盘 上 都 有 永久 的 位 置 ， 但 是 只 要 它 被 经 常 使 用 就 被 存储 在 闪存 中 ， 而 不 是 写 人 
磁盘 。 当 闪存 存储 器 满 时 ， 不 经 常 使 用 的 块 就 被 收回 ， 而 且 如 果 它 从 磁盘 读 出 后 被 更 新 过 ， 就 把 它 写 
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回 到 磁盘 。 

闪存 作为 缓冲 区 方式 需要 改变 数据 库 系 统 本 身 。 即 使 数据 库 系统 不 支持 闪存 作为 缓冲 区 ， 数据库 
管理 员 也 可 以 控制 关系 或 索引 到 磁盘 的 映射 ， 并 给 经 常 使 用 的 关系 /索引 分 配 闪 存 存储 。 大 多 数 数据 库 
系统 支持 的 表 空 间 功 能 可 用 作 映 射 控制 ， 即 通过 在 闪存 存储 器 上 创建 表 空 间 ， 并 把 所 期 望 的 关系 和 索 
引 分 配 到 该 表 空 间 。 然 而 ， 在 比 关系 更 细 的 粒度 级 别 上 控制 映射 ， 需 要 更 改 数据 库 系统 的 代码 。 

除了 主 存 和 硬盘 ,“5 分 钟 ”规则 已 经 扩展 到 数据 可 以 存储 到 闪存 的 情况 下 。 更 多 信息 请 参阅 文献 
注解 中 所 给 出 的 参考 文献 。 

调整 的 另 一 个 方面 是 选择 RAID 1 还 是 RAIDS 的 问题 。 答 案 取决 于 数据 更 新 的 频繁 程度 。 因 为 
RAID 5 tt RAID 1 在 随机 写 上 要 慢 得 多 : RAIDS 执行 单个 随机 的 写 请 求 需 要 两 次 读 和 两 次 写 。 如 果 一 
个 应 用 程序 为 支持 特定 的 吞吐 率 每 秒 要 执行 > 次 随机 读 和 次 随机 写 ， 用 RAID 5 实现 ， 每 秒 需 要 r+ 
4w 次 VO 操作， 而 用 RAID 1 实现 ,每 秒 需 r+2w 次 IO 操作 。 将 这 个 结果 除 以 每 秒 100 次 1/0 操作 [1037] 
( 当代 磁盘 的 IO 速度 ) ， 我 们 可 以 算出 为 支持 每 秒 所 需 的 IO 操作 数 所 需 的 磁盘 数量 。 对 于 许多 应 用 
来 说 , r 和 w 是 很 大 的 ，(r+w)/100 个 磁盘 足以 容纳 全 部 数据 的 两 个 副本 。 对 于 这 些 应 用 ， 如 果 使 用 
RAID 1， 所 需 的 磁盘 数 实 际 上 要 少 于 使 用 RAID 5 所 需 的 磁盘 数 ! 只 有 在 数据 存储 量 要 求 很 大 ， 而 更 新 
率 (尤其 是 随机 更 新 率 ) 较 小 时 ,或 者 说 对 于 非常 大 而 且 非 常 “ 冷 ”的 数据 ，RAID 5 才 是 有 效 的 。 
24. 1.6 模式 调整 

在 所 采用 的 范式 的 约束 下 ， 可 以 对 关系 进行 垂直 划分 。 例 如 ， 考 虑 course 关系 ， 其 模式 为 

course( course_id, title, dept_name, credits) 

其 中 course_id 是 码 。 在 所 采用 范式 (BCNF 和 第 三 范式 ) 的 约束 下 ,我们 可 以 将 course 关系 划分 为 两 个 
关系 : 





course_credit( course_id, credits ) 
course_title_dept( course_id, title, dept_name ) 


由 于 course_id 是 码 ， 这 两 种 表示 在 逻辑 上 等 价 ， 但 是 它们 的 性 能 特征 不 同 。 

如 果 大 多 数 对 课程 信息 的 访问 只 是 查看 course_id 和 creditss ， 那 么 这 些 访问 可 以 在 course_credit 关系 
上 运行 ， 由 于 不 读 取 好 je 和 dept_name 属性 ， 这 些 访问 可 能 在 一 定 程度 上 加 快 。 由 于 相同 的 原因 ， 缓 冲 
区 中 能 够 放下 的 course_credit 元 组 比 相应 的 course 元 组 多 ， 这 也 可 以 提高 性 能 。 如 果 title 和 dept_name 属 
性 很 大 ， 那 么 效果 尤为 明显 。 因 此 ， 在 这 种 情况 下 由 course_credit 和 course_title_dept 构成 的 模式 比 由 
course 关系 构成 的 模式 更 为 优越 。 

另 一 方面 ， 如 果 大 多 数 对 课程 信息 的 访问 同时 需要 dept_name 和 credits, RAAE course 关系 会 更 
好 ， 因 为 这 样 可 以 避免 course_credit 和 course_title_dept 的 连接 开销 。 男 外 ， 存 储 开 销 也 会 更 小 ， 因 为 这 
时 只 有 一 个 关系 ， 而 且 属 性 course_id 不 会 重复 。 

列 存储 ( column store ) 方 式 存储 数据 是 基于 垂直 划分 的 ， 但 是 通过 把 关系 的 每 个 关系 属性 ( 列 ) 都 存 
储 在 一 个 单独 的 文件 中 使 垂直 划分 达到 了 极限 。 好 几 个 数据 仓库 应 用 已 经 展示 了 列 存储 的 良好 性 能 ， 

提高 性 能 的 另 一 个 技巧 是 存储 解除 规范 化 的 关系 (denormalized relation ) ， 例 如 instructor 和 
department 的 连接 ， 其 中 关于 dept_name, building 和 budget 信息 会 为 每 位 教师 重复 一 次 。 每 当 更 新 发 生 
时 ， 维 护 关系 的 一 致 性 需要 付出 更 大 的 代价 。 但 是 ， 读 取 教 师 姓名 及 其 所 在 建筑 的 查询 速度 将 会 提高 ， 
FAA instructor 和 department 的 连接 已 经 预先 计算 好 了 。 如 果 这 样 的 查询 执行 得 很 频繁 ， 并且 需要 尽 可 
能 高 效 地 执行 ， 那 么 使 用 解除 规范 化 的 关系 不 无 神 益 。 1038] 

物化 视图 能 够 提供 解除 规范 化 关系 所 带 来 的 好 处 ， 但 是 需要 额外 的 存储 代价 。 我 们 将 在 24. 1.8 节 
中 介绍 物化 视图 的 性 能 调整 。 物 化 视图 与 解除 规范 化 关系 相 比 ， 一 个 主要 的 优点 是 维护 元 余数 据 的 一 
致 性 成 为 数据 库 管理 系统 而 不 是 程序 员 的 任务 。 因 此 ， 只 要 数据 库 系统 支持 ， 物 化 视图 是 更 可 取 的 。 

另 一 种 不 使 用 物化 视图 来 提高 连接 计算 速度 的 方法 是 将 连接 中 匹配 的 记录 聚集 到 相同 的 磁盘 页 面 
上 。 我 们 已 经 在 10. 6. 2 节 中 看 到 过 这 样 的 聚集 文件 组 织 。 


24. 1.7 索引 调整 
我 们 可 以 调整 数据 库 系 统 中 的 索引 来 提高 性 能 。 如 果 查 询 是 瓶颈 ， 那 么 我 们 常常 可 以 通过 在 关系 
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上 创建 适当 的 索引 来 加 快 查询 。 如 果 更 新 是 瓶颈 ， 那 么 可 能 是 索引 太 多 ， 这 些 索引 在 关系 被 更 新 时 也 
必须 被 更 新 。 删 除 索 引 可 以 加 快 某 些 更 新 。 

索引 类 型 的 选择 也 很 重要 。 一 些 数 据 库 系统 支持 不 同类 型 的 索引 ， 例 如 散 列 索引 和 B 树 索 引 。 如 
果 经 常 使 用 范围 查询 ， 那 么 B 树 索引 比 散 列 索引 更 适合 。 是 否 使 索引 成 为 聚集 索引 是 另 一 个 可 调 参数 
一 个 关系 上 只 人 允许 一 个 聚集 索引 ， 聚 集 索 引 按 照 索引 属性 顺序 来 存储 关系 。 通 常 应 该 将 有 利于 最 大 数 
量 的 查询 和 更 新 的 索引 设 为 聚集 索引 。 

为 了 有 助 于 确定 建立 何 种 索引 ， 以 及 确定 每 个 关系 上 的 哪个 索引 ( 如 果 有 多 个 的 话 ) 应 该 是 聚集 索 
引 ， 大 多 数 商用 数据 库 系 统 提供 了 调整 向 导 (tuning wizard) ， 对 此 将 在 24. 1. 9 节 中 进行 详细 介绍 。 这 
些 工 具 使 用 查询 和 更 新 ( 称 为 工作 负载 ) 的 历史 信息 来 估算 不 同 索引 对 工作 负载 中 查询 和 更 新 的 执行 时 
间 所 产生 的 影响 ， 并 根据 这 些 估 算 值 来 建议 创建 何 种 索引 。 

24. 1.8 使 用 物化 视图 

维护 物化 视图 可 以 在 很 大 程度 上 加 快 某 类 查询 的 速度 ， 特 别 是 聚集 查询 。 回 顾 13. 5 节 的 例子 ， 需 
要 频繁 地 查询 每 个 系 的 工资 总 额 (通过 累加 该 系 每 位 教师 的 工资 数额 得 到 ) 。 在 那 一 节 里 我 们 看 到 ， 创 
建 一 个 物化 视图 为 每 个 系 存储 其 工资 总 额 ， 可 以 极 大 地 加 快 此 类 查询 的 速度 . 

但 是 ， 物 化 视图 必须 小 心 使 用 ， 因 为 不 仅 需要 存储 物化 视图 的 空间 开销 ， 而 且 更 重要 的 是 ， 还 需 
要 有 维护 物化 视图 的 时 间 开 销 。 在 立即 视图 维护 (immediate view maintenance) 的 情况 下 ， 如 果 一 个 事务 
的 更 新 操作 影响 到 物化 视图 ， 那 么 这 个 物化 视图 必须 作为 该 事务 的 一 部 分 进行 更 新 ， 因 此 事务 的 运行 
会 变 慢 。 在 延迟 视图 维护 ( deferred view maintenance) 的 情况 下 ， 物 化 视图 会 在 以 后 更 新 。 在 物化 视图 更 

新 前 ， 物 化 视图 可 能 会 与 数据 库 关 系 不 一 致 。 例 如 ， 物 化 视图 可 以 在 查询 使 用 到 该 物化 视图 时 再 进行 
更 新 ， 或 者 进行 周期 性 的 更 新 。 使 用 延迟 的 视图 维护 减轻 了 更 新 事务 的 负担 。 

数据 库 管 理 员 负 责 物化 视图 的 选择 和 视图 维护 策略 。 数 据 库 管理 员 可 以 通过 检查 工作 负载 中 的 查 
询 类 型 来 手动 地 做 出 选择 ， 找 出 哪些 查询 需要 执行 得 更 快 一 些 ， 哪 些 查询 或 更 新 可 以 执行 得 更 慢 一 些 
通过 检查 ， 数据库 管理 员 可 以 选择 一 个 适当 的 物化 视图 集合 。 例 如 ， 管 理 员 可 能 发 现 某 种 聚集 操作 使 
用 频繁 ， 从 而 选择 将 它 物化 ; 或 是 发 现 某 个 特定 的 连接 运算 使 用 频繁 ， 因 此 选择 将 它 物 化 

但 是 ， 即 使 对 于 中 等 规模 的 查询 类 型 集 来 说 ， 手 工 选择 物化 视图 仍然 是 很 费劲 的 ， 并 且 要 做 出 一 
种 较 好 的 选择 也 是 很 困难 的 ， 因 为 这 需要 了 解 不 同方 案 的 代价 ， 只 有 查询 优化 器 能 够 在 没有 实际 执行 
查询 的 情况 下 估算 出 较为 精确 的 代价 值 。 因 此 一 个 好 的 物化 视图 集 只 有 通过 试验 和 错误 才能 得 到 ， 也 
就 是 说 ， 物 化 一 个 或 多 个 视图 ， 运 行 工 作 负 载 ， 测 量 在 该 工作 负载 中 执行 查询 所 需 的 时 间 。 管 理 员 重 
复 这 个 过 程 ， 直 到 得 到 一 个 能 够 给 出 可 接受 性 能 的 物化 视图 集 为 止 

一 种 更 好 的 选择 是 数据 库 系 统 本 身 提供 选择 物化 视图 的 机 制 ， 并 与 查询 优化 器 集成 在 一 起 。 我 们 
将 在 24. 1.9 节 中 详细 介绍 这 种 方法 。 

24. 1.9 物理 设计 的 自动 调整 

大 多 数 商 用 数据 库 系统 现在 都 提供 工具 ， 帮 助 数 据 库 管 理 员 进行 索引 和 物化 视图 的 选择 ， 以 及 其 
他 与 物理 数据 库 设 计 相关 的 任务 ， 比 如 如 何在 并 行 数据 库 系 统 中 对 数据 进行 分 区 。 

这 些 工具 检查 工作 负载 (workload) (查询 和 更 新 的 历史 信息 ) ， 建 议 需 要 创建 的 索引 和 物化 的 视图 . 
数据 库 管理 员 可 以 指定 加 快 不 同 查询 的 重要 程度 ， 当 这 些 工 具 选 择 要 进行 物化 的 视图 时 会 把 它们 考虑 
在 内 。 通 常 必须 在 应 用 程序 完全 开发 之 前 进行 调整 。 在 开发 数据 库 上 的 实际 数据 库 内 容 可 能 比较 少 ， 
而 在 产品 数据 库 上 的 实际 数据 库 内 容 则 要 多 得 多 。 因 此 ， 一 些 调整 工具 还 允许 数据 库 管 理 员 指定 期 望 
的 数据 库 大 小 和 相关 的 统计 信息 。 

例如 ， 微 软 的 数据 库 调 整 助手 允许 用 户 问 “what if” 这 种 问题 ， 用 户 可 以 挑选 一 个 视图 ， 然 后 查询 
优化 器 就 会 估算 物化 该 视图 对 工作 负载 整体 代价 的 影响 ， 以 及 对 工作 负载 中 的 不 同类 型 的 查询 或 更 新 
的 个 别 代价 的 影响 。 

索引 和 物化 视图 的 自动 选择 通常 按照 这 种 方式 实现 : 列举 出 不 同 的 方案 ， 通 过 使 用 工作 负载 ， 查 

询 优化 器 估算 选择 每 种 方案 的 代价 以 及 所 获得 的 好 处 。 因 为 设计 方案 的 数目 可 能 相当 大 ， 工 作 负 载 也 
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很 大 ， 必 须 谨 慎 设 计 选 择 技术 。 

第 一 步 是 生成 工作 负载 。 通 常 的 做 法 是 记录 一 段 时 间 内 执行 的 所 有 查询 和 更 新 。 然 后 ， 选 择 工 具 
执行 工作 负载 压缩 ( workload compression) ， 即 用 少量 更 新 和 查询 生成 工作 负载 的 代表 。 例 如 ， 对 同一 
表格 的 多 次 更 新 可 以 用 单 次 更 新 和 相应 于 更 新 发 生 次 数 的 权重 来 代表 。 对 同一 表格 的 多 次 查询 可 以 类 
似 地 由 带 适 当权 重 的 代表 所 替代 。 这 样 ， 执 行 不 频繁 且 代 价 不 高 的 查询 可 能 会 被 丢弃 到 考虑 范围 之 外 ， 
而 代价 最 高 的 查询 可 能 被 最 先 提交 。 这 种 工作 负载 压缩 对 于 大 工作 负载 是 非常 必要 的 。 

在 查询 优化 器 的 帮助 下 ， 工 具 可 以 产生 一 组 索引 和 物化 视图 ， 加 快 在 压缩 后 的 工作 负载 中 查询 和 
更 新 的 执行 。 从 这 些 索引 和 物化 视图 的 不 同 组 合 中 可 以 试图 找到 最 好 的 组 合 。 然 而 ， 详 尽 穷 举 的 方法 
是 不 实际 的 ， 因 为 潜在 的 索引 和 物化 视图 的 数量 已 经 很 大 了 ， 它 们 的 每 个 子 集 又 都 是 一 个 潜在 的 设计 
方案 ， 这 导致 了 指数 级 的 方案 数目 。 启 发 式 方法 可 用 于 降低 方案 空间 ， 即 减少 考虑 的 组 合 数目 。 

用 于 索引 和 物化 视图 选择 的 贪心 启发 式 方法 操作 如 下 : 估算 物化 不 同 索引 或 者 视图 所 带 来 的 好 处 
(使 用 查询 优化 器 的 代价 估算 函数 作为 子 程序 ) ， 然 后 选择 那些 具有 最 大 收益 ， 或 是 在 单位 存储 空间 上 
具有 最 大 收益 ( 即 收益 值 除 以 存储 该 索引 或 者 视图 所 需要 的 空间 ) 的 索引 或 视图 。 在 计算 收益 时 ， 索 引 
或 者 视图 的 维护 代价 必须 考虑 在 内 。 一 旦 该 启发 式 方法 选 定 了 一 个 索引 或 者 视图 ， 其 他 索引 或 者 视图 
的 收益 值 可 能 会 发 生变 化 ， 因 此 该 启发 式 方法 需要 重新 计算 它们 ， 来 选择 下 一 个 最 佳 索 引 或 者 物化 视 
图 。 重 复 执行 此 过 程 ， 直 到 存储 索引 或 物化 视图 的 可 用 磁盘 空间 用 完 ， 或 者 剩余 的 候选 索引 、 视 图 的 
维护 代价 已 经 超过 使 用 它们 给 查询 带 来 的 收益 。 

现实 世界 的 索引 和 物化 视图 选择 工具 通常 结合 一 些 贪心 选择 的 元 素 , 但 使 用 其 他 技术 得 到 更 好 的 
结果 。 它 们 还 支持 物理 数据 库 设 计 的 其 他 方面 ， 例 如 如 何 对 并 行 数据 库 中 的 关系 进行 分 区 ， 或 者 对 一 
个 关系 使 用 何 种 物理 存储 机 制 。 

24. 1. 10 ”并 发 事务 调整 

不 同类 型 事务 的 并 发 执行 有 时 会 由 于 锁 的 竞争 而 导致 性 能 低下 。 我 们 首先 考虑 更 常见 的 读 写 竞争 
的 情况 ， 然 后 再 考虑 写 写 竞争 的 情况 。 

作为 一 个 读 写 竞争 (read-write contention) 的 例子 ， 考 虑 银行 数据 库 的 如 下 情形 。 白 天 ， 大 量 小 的 更 
新 事务 几乎 是 连续 不 断 地 执行 。 假 设 同 时 还 运行 一 个 大 的 查询 来 计算 各 个 部 门 的 统计 数据 。 如 果 该 查 
询 在 一 个 关系 上 进行 扫描 ， 在 它 运行 时 就 可 能 阻塞 所 有 对 该 关系 的 更 新 ， 这 对 系统 性 能 来 说 将 是 一 个 
灾难 性 的 影响 。 

一 些 数据 库 系统 ， 例 如 Oracle, PostgreSQL 和 Microsoft SQL Server， 支 持 快照 隔离 ， 此 时 查询 在 数 
据 的 某 个 快照 上 执行 ， 这 样 更 新 就 可 以 继续 并 发 执行 了 (快照 隔离 的 细节 在 15.7 节 中 介绍 ) 。 如 果 可 
用 ， 对 于 大 的 查询 应 该 使 用 快照 隔离 ， 以 避免 上 述 情形 中 的 锁 竞争 。 在 SQL Server 中 ， 在 事务 开始 时 
执行 下 列 语句 

set transaction isolation level snapshot 
会 导致 对 那个 事务 使 用 快照 隔离 。 在 Oracle 和 PostgreSQL 中 ， 在 上 述 命令 中 用 关键 字 serializable 替换 
关键 字 snapshot 具有 相同 的 效果 ， 因 为 这 些 系统 在 把 隔离 性 级 别 设置 为 可 串 行 化 时 ， 实 际 上 都 使 用 快 
照 隔离 。 

如 果 快 照 隔离 不 可 用 ， 一 种 替代 的 选择 是 ， 在 更 新 很 少 或 是 不 存在 更 新 时 再 执行 大 的 查询 。 然 而 ， 
对 于 支持 Web 站 点 的 数据 库 ， 也 许 根本 不 存在 这 种 更 新 很 少 的 时 候 。 

另外 一 种 替代 方法 是 使 用 更 弱 的 一 致 性 级 别 ， 例 如 已 提交 读 (read committed) 隔离 性 级 别 ， 这 时 查 
询 的 执行 对 并 发 更 新 的 影响 最 小 ， 但 不 能 保证 查询 结果 的 一 致 性 。 应 用 语义 决定 了 是 否 可 以 接受 这 种 
近似 的 (不 一 致 的 ) 答 案 。 

我 们 现在 考虑 写 写 竞争 ( write-write contention) 的 情况 。 在 锁 机 制 下 更 新 非常 频繁 的 数据 项 会 导致 
很 差 的 性 能 ， 因 为 许多 事务 会 等 待 这 些 数 据 项 上 的 锁 。 这 些 数据 项 被 称 为 更 新 热点 (update hot spot) . 
即使 在 快照 隔离 下， 更 新 热点 也 会 带 来 问题 ， 由 于 写 验证 失败 导致 频繁 的 事务 中 止 。 更 新 热点 导致 的 
一 种 经 常 发 生 的 情况 如 下 : 事务 需要 给 待 插入 到 数据 库 中 的 数据 项 分 配 唯一 标识 符 ， 为 了 这 么 做 它们 
读 取 并 递增 存储 在 数据 库 某 个 元 组 中 的 序号 计数 器 的 值 。 如 果 插 和 人 频繁 ， 并 且 序 号 计数 器 以 两 阶段 的 
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方式 被 封锁 ， 则 包含 序号 计数 器 的 元 组 成 为 一 个 热点 。 

一 种 提高 并 发 度 的 方法 是 在 序号 计数 器 被 读 取 并 递增 后 立即 释放 其 上 的 锁 ， 但 这 样 做 之 后 ， 即 使 
事务 中 止 ， 对 序号 计数 器 的 更 新 都 不 应 该 回 滚 。 为 了 理解 其 中 的 原因 ， 假 设 T 递增 序列 计数 器 ， 然 后 
在 7 提交 前 T, 也 递增 序号 计数 器 ; WRT, 中 止 ， 它 的 更 新 回 滚 ， 无 论 是 把 计数 器 恢复 到 原来 的 值 ， 
还 是 递减 计数 器 ， 都 将 导致 7, 使 用 的 序号 值 被 后 继 事务 重用 。 

大 多 数 数据 库 提供 了 一 个 特殊 的 结构 来 创建 序号 计数 器 ( sequence counter) ， 它 实现 早期 的 、 非 两 
阶段 的 、 锁 释放 的 、 伴 随 特殊 情况 处 理 的 undo 日 志 ， 使 得 事务 中 止 时 对 计数 器 的 更 新 不 会 被 回 滚 ， 
SQL 标准 允许 使 用 下 列 命令 来 创建 序号 计数 器 : 

create sequence counter! ; 
在 上 面 的 命令 中 ，counterl 是 序号 的 名 称 ， 可 以 用 不 同 的 名 称 创建 多 个 序号 。 得 到 一 个 序号 值 的 语法 是 
非 标准 化 的 。 在 Oracle 中 ，counterl. nextval 在 递增 序号 值 后 返回 序号 的 下 一 个 值 ， 在 PostgreSQL 中 调用 
PRA nextval( tounterl1” ) 有 相同 的 效果 ， 而 DB2 使 用 的 语法 为 nextval for counter] - 

SQL 标准 提供 的 男 一 个 方案 是 使 用 显 式 的 序号 计数 器 ， 当 目标 是 为 插入 到 关系 中 的 元 组 提供 唯一 
标识 符 时 这 是 非常 有 用 的 。 为 此 ， 可 以 在 关系 的 一 个 整数 属性 (通常 此 属性 也 被 声明 为 主 码 ) 的 声明 上 
添加 关键 字 identity。 如 果 在 对 该 关系 进行 插入 的 语句 中 ,没有 指定 此 属性 的 值 ， 对 于 每 个 新 插入 的 元 
组 会 自动 创建 一 个 唯一 的 新 值 。 在 内 部 使 用 非 两 阶段 封锁 的 序号 计数 器 来 实现 identity 声明 ， 当 每 次 
插入 一 个 元 组 时 就 递增 计数 器 。 虽 然 语法 不 同 ， 包括 DB2 和 SQL Server 在 内 的 多 个 数据 库 都 支持 
identity 声明 。PostgreSQL 支持 一 种 称 作 serial 的 数据 类 型 ， 它 提供 了 相同 的 效果 ; PostgreSQL 通过 透 
明 地 创建 非 两 阶段 封锁 的 序号 来 实现 serial 类 型 。 

值得 注意 的 是 ， 如 果 事 务 中 止 ， 事 务 对 一 个 序号 的 获得 也 不 能 被 回 滚 ( 由 于 前 面 讨论 的 原因 ) ， 这 
样 事务 中 止 就 可 能 导致 插入 到 数据 库 中 的 元 组 出 现 序号 空缺 。 例 如 ， 如 果 获 得 序号 为 1002 的 事务 没有 
提交 ， 可 能 会 有 标识 符 值 为 1001 和 1003 的 元 组 ， 但 没有 值 为 1002 的 元 组 。 这 种 空缺 在 某 些 应 用 中 是 
不 允许 的 。 例 如 ， 一 些 金融 应 用 要 求 账 单 或 收据 号 不 能 有 空缺 。 数 据 库 提供 的 序号 和 自动 递增 的 属性 
不 能 用 于 此 类 应 用 ， 因 为 它们 会 导致 空缺 。 以 两 阶段 方式 封锁 的 、 存 储 在 正常 元 组 中 的 序号 计数 器 不 
会 产生 这 种 空缺 ， 因 为 事务 中 止 会 恢复 序号 计数 器 的 值 ， 而 下 一 个 事务 将 得 到 相同 的 序号 ， 从 而 避免 
了 空缺 。 

长 的 更 新 事务 会 带 来 系统 日 志 的 性 能 问题 ， 并 增加 系统 崩溃 后 的 恢复 时 间 。 如 果 一 个 事务 执行 了 
很 多 更 新 ， 系 统 日 志 甚 至 会 在 事务 完成 前 就 满 了 ， 这 时 事务 将 不 得 不 被 回 深 。 如 果 一 个 更 新 事务 运行 
很 长 时 间 ( 尽 管 只 有 少量 更 新 ) ， 日 志 系统 设计 得 又 不 够 好 ， 那 么 它 可 能 会 阻塞 对 日 志 中 旧 的 部 分 的 删 
除 。 这 样 的 阻塞 也 可 能 导致 日 志 满 。 

为 了 避免 这 样 的 问题 ， 很 多 数据 库 系统 对 单个 事务 所 能 进行 的 更 新 数目 进行 了 严格 限制 。 即 使 系 
统 不 做 这 样 的 限制 ， 将 大 的 更 新 事务 尽 可 能 地 分 成 一 组 较 小 的 更 新 事务 通常 也 是 有 帮助 的 。 例 如 ， 给 
大 公司 的 每 个 员工 加 薪 的 事务 可 以 拆 分 为 一 系列 小 事务 ， 每 个 小 事务 对 一 个 小 范围 内 的 员工 进行 更 新 。 
这 种 事务 称 作 小 型 批 处 理事 务 ( minibatch transaction) 。 但 是 ， 使 用 小 型 批 处 理事 务必 须 小 心 。 首 先 ， 如 
果 在 员工 集合 上 存在 并 发 更 新 ， 小 事务 集合 的 结果 可 能 并 不 等 价 于 执行 单个 大 事务 的 结果 。 其 次 ， 如 
果 发 生 故 障 ， 就 可 能 有 一 些 员工 的 工资 由 于 事务 的 提交 得 到 增长 ， 而 其 他 员工 的 工资 却 没 有 增加 。 为 
了 避免 这 种 情况 ， 一 旦 系统 从 故障 中 恢复 ， 我 们 应 立即 执行 该 批 处 理 中 剩余 的 事务 。 

不 管 是 只 读 的 还 是 更 新 的 长 事务 ， 还 可 能 导致 锁 表 变 满 。 如 果 一 个 查询 扫描 一 个 大 型 关系 ， 查 询 
优化 器 将 确保 它 得 到 关系 锁 而 不 是 获得 大 量 的 元 组 锁 。 但 是 ， 如 果 一 个 事务 执行 大 量 的 小 型 查询 或 更 
新 ， 它 可 能 会 获得 大 量 的 锁 ， 导 致 锁 表 变 满 。 

为 了 避免 这 个 问题 ， 一 些 数据 库 提 供 了 自动 的 锁 升 级 (lock escalation ) 。 利 用 这 个 技术 ， 如 果 一 个 
事务 已 经 获得 了 大 量 的 元 组 锁 ， 元 组 锁 就 被 升级 为 页 锁 ， 甚 至 整个 关系 上 的 锁 。 回 顾 多 粒度 封锁 机 制 
(15.3 节 ) ， 一 且 得 到 较 粗 粒度 级 别 的 锁 ， 就 没有 必要 再 记录 较 细 粒度 级 别 的 锁 ， 因 此 可 以 从 锁 表 中 删 
除 元 组 锁 项 ， 释 放空 间 。 在 不 支持 锁 升 级 的 数据 库 上 ， 事 务 有 可 能 显 式 地 获得 关系 锁 ， 从 而 避免 对 元 
组 锁 的 获取 。 
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24. 1.11 性 能 模拟 

为 了 在 数据 库 系 统 安装 前 测试 其 性 能 ， 我 们 可 以 构造 数据 库 系 统 的 性 能 模拟 模型 。 图 24-2 中 所 示 
的 每 个 服务 ， 如 CPU 、 每 个 磁盘 、 缓 冲 区 和 并 发 控制 ， 在 模型 中 都 将 被 模拟 。 模 拟 模型 并 不 模拟 服务 
的 细节 ， 而 只 是 抓 住 每 个 服务 的 某 些 方面 ， 例 如 服务 时 间 ( service time) ， 即 一 旦 请 求 处 理 开始 直至 结 
束 所 需要 的 时 间 。 因 此 ， 模 型 可 以 仅仅 基于 磁盘 平均 访问 时 间 来 模拟 磁盘 访问 。 

由 于 服务 请 求 通常 需要 排队 等 待 ， 在 模拟 模型 中 每 个 服务 有 一 个 与 之 关联 的 队列 。 一 个 事务 由 一 
系列 请 求 构成 。 请 求 到 达 后 就 排 到 队列 中 去 等 待 ， 并 根据 服务 策略 ( 如 先 来 先 服务 ) 获得 服务 。 不 同 服 
务 ( 如 CPU 和 磁盘 ) 的 模型 在 概念 上 是 并 行 操 作 的 ， 以 表示 实际 系统 中 这 些 子 系统 并 行 操作 的 事实 。 

一 旦 建立 起 事务 处 理 的 模拟 模型 ， 系 统管 理 员 就 可 以 在 其 上 进行 许多 实验 。 用 到 达 速 率 不 同 的 模 [1044] 
拟 事务 做 实验 ， 管 理 员 可 以 得 到 系统 在 不 同 负载 情况 下 的 表现 情况 。 管 理 员 还 可 以 通过 改变 每 种 服务 
的 服务 时 间 来 做 实验 ， 以 发 现 性 能 对 每 种 服务 的 敏感 程度 。 还 可 以 改变 系统 参数 ， 这 样 就 可 以 在 模拟 
模型 上 进行 性 能 调整 。 


24.2 性 能 基准 程序 


由 于 数据 库 服务 器 变 得 越 来 越 标准 化 ， 产 品 性 能 成 为 不 同 厂商 产品 的 主要 差异 因素 。 性 能 基准 程 
FF ( performance benchmark ) 是 一 套用 于 量化 软件 系统 性 能 的 任务 。 


24.2.1 任务 集 

由 于 大 多 数 软 件 系统 (如 数据 库 ) 都 很 复杂 ， 不 同 厂商 的 实现 中 会 有 许多 不 同 。 因 此 ， 针 对 不 同 任 
务 它们 在 性 能 上 存在 显著 差异 。 一 个 系统 在 某 个 特定 任务 上 可 能 是 最 有 效 的 ; 而 另 一 系统 可 能 在 另 一 
个 不 同 的 任务 上 最 有 效 。 因 此 ， 仅 用 一 个 任务 来 量化 系统 性 能 通常 是 不 够 的 ， 而 要 用 一 个 称 作 性 能 基 
准 程序 的 标准 化 任务 集合 来 度量 系统 性 能 。 

将 来 自 多 个 任务 的 性 能 值 结合 起 来 的 工作 必须 小 心 进行 。 假 设 我 们 有 两 个 任务 7T, 和 7,， 并且 我 们 
用 给 定时 间 ( 如 1 秒 ) 内 所 运行 的 每 类 事务 的 数量 来 作为 系统 吞吐 量 的 度量 。 假 设 系 统 A 运行 7 时 是 每 
秒 99 个 事务 ， TT, 时 是 每 秒 1 个 事务 。 类 似 地 ， 设 系统 B 每 秒 运行 7, MT, 时 都 是 50 个 事务 。 还 
假设 工作 负载 是 两 种 类 型 事务 的 一 个 等 比例 混合 。 

如 果 我 们 取 这 两 对 数 ( 即 99 和 1 与 50 和 50) 的 均值 ， 看 起 来 似乎 这 两 个 系统 的 性 能 一 样 。 但 是 ， 
以 这 种 形式 取 均 值 是 错误 的 一 一 如 果 每 种 类 型 运行 50 个 事务 ， 系 统 A 要 用 50. 5 秒 才 能 完成 ， 而 系统 
B 只 要 2 秒 就 可 以 完成 ! 

上 例 表 明 ， 如 果 有 不 止 一 种 类 型 的 事务 ， 对 性 能 进行 简单 的 度量 会 导致 错误 。 综 合 性 能 值 的 正确 
方法 是 采用 工作 负载 的 完成 时 间 (time to completion) ， 而 不 是 采用 每 类 事务 吞吐 量 的 平均 值 。 这 样 ， 对 
于 具体 工作 负载 ， 我 们 可 以 用 每 秒 事务 数 准 确 地 计算 系统 性 能 。 因 此 ， 系 统 A 执行 每 个 事务 平均 需要 
50. 5/100 即 0. 505 秒 ， 而 系统 B 执行 每 个 事务 平均 需要 0. 02 秒 。 用 吞吐 量 来 描述 ， 系 统 A 平均 每 秒 执 
行 1. 98 个 事务 ， 而 系统 B 平均 每 秒 执行 50 个 事务 。 假 设 每 类 事务 发 生 的 可 能 性 相等 ， 则 综合 不 同事 [1045] 
务 类 型 重 吐 量 的 正确 方法 是 求 这 些 吞 吐 量 的 调和 平均 数 (harmonic mean), n ÆI t, e, 1, 的 调 
和 平均 数 定 义 为 : 








对 我 们 的 例子 来 说 ， 系 统 A 吞吐 量 的 调和 平均 数 为 1.98 ， 而 系统 B 吞吐 量 的 调和 平均 数 为 30。 因 
此 ， 对 于 由 这 两 种 示例 类 型 事务 等 量 混合 而 成 的 工作 负载 而 言 ， 系 统 B 大 约 比 系统 A 快 25 倍 。 
24. 2.2 数据 库 应 用 类 型 

联机 事务 处 理 ( OnLine Transaction Processing, OLTP) 和 决策 支持 ( decision support) (包括 联机 分 析 处 
理 ( OnLine Analytical Processing, OLAP) ) 是 数据 库 系统 所 处 理 的 两 大 类 应 用 。 这 两 类 任务 具有 不 同 的 
需求 。 一 方面 ， 支 持 频繁 的 更 新 事务 需要 有 高 的 并 发 度 和 能 加 速 事务 提交 处 理 的 好 技术 。 另 一 方面 ， 
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决策 支持 又 需要 有 好 的 查询 执行 算法 和 查询 优化 。 一 些 数据 库 系统 的 体系 结构 被 调整 为 适用 于 事务 处 
理 ; 而 另 一 些 数 据 库 系统 (如 Teradata 并 行 数据 库 系统 系列 ) 的 体系 结构 被 调整 为 适用 于 决策 支持 7 
外 还 有 一 些 厂商 力争 在 这 两 类 任务 间 取 得 平衡 。 

通常 应 用 中 混合 着 事务 处 理 和 决策 支持 的 需求 。 因 此 ， 对 一 个 应 用 来 说 ， 哪 个 数据 库 系统 最 好 取 
决 于 该 应 用 中 这 两 类 需求 的 混合 比例 。 

假设 我 们 分 别 有 这 两 类 应 用 的 吞吐 量 数值 ， 并 且 当 前 的 应 用 是 这 两 类 事务 的 混合 。 由 于 事务 间 的 
干扰 (interference) ， 即 使 求知 吐 量 数值 的 调和 平均 数 时 我 们 也 必须 小 心 。 例 如 ， 一 个 长 的 决策 支持 事 
务 可 能 获得 很 多 锁 ， 这 可 能 阻碍 所 有 更 新 事务 的 进行 。 吞吐 量 的 调和 平均 数 只 能 在 事务 互 不 干扰 时 
使 用 。 

24. 2. 3 TPC 基准 程序 

事务 处 理性 能 委员 会 (Transaction Processing Performance Council，TPC ) 定义 了 一 系列 数据 库 系 统 基 
准 程序 的 标准 。 

TPC 基准 程序 定义 得 非常 详细 。 它 定义 了 关系 的 集合 和 元 组 的 大 小 。 它 并 没有 把 关系 中 的 元 组 数 
定义 为 一 个 固定 的 数值 ， 而 是 定义 为 所 宣称 的 每 秒 事务 数目 的 倍数 ， 以 反映 更 高 的 事务 执行 速度 可 能 
会 与 更 多 的 账户 数目 相 联系 。 用 来 度量 性 能 的 尺度 是 吞吐 量 ， 用 每 秒 事务 数 (Transaction Per Second, 
TPS) 表示 。 在 测量 性 能 时 ， 系 统 必 须 提 供 在 一 定 范围 内 的 响应 时 间 ， 这 样 ， 获 得 高 吞吐 量 就 不 能 以 很 
长 的 响应 时 间 为 代价 。 另 外 ， 对 商业 应 用 来 说 ， 代 价 是 非常 重要 的 。 因 此 ，TPC 基准 程序 还 用 每 TPS 
的 代价 值 (price per TPS) 来 度量 性 能 。 一 个 大 系统 可 能 每 秒 有 很 高 的 事务 数 ， 但 可 能 代价 很 高 ( 即 每 
TPS 的 代价 值 很 高 ) 。 此 外 ， 公 司 宣 称 其 系统 的 TPC 基准 程序 测试 值 时 ， 必 须 有 外 部 的 审查 ， 以 确保 系 
统 如 实地 遵循 了 基准 程序 的 定义 ， 包 括 对 事务 ACID 特性 的 完全 支持 。 

该 系列 中 的 第 一 个 标准 是 TPC-A 基准 程序 (TPC-A benchmark) ， 它 定义 于 1989 年 。 此 基准 程序 通 
过 单一 类 型 的 事务 来 模拟 典型 的 银行 应 用 ， 该 事务 模拟 银行 出 纳 员 办 理 的 取款 和 存款 业务 。 它 更 新 几 
个 关系 (例如 银行 余额 、 出 纳 员 余额 和 客户 余额 ) ， 并 且 在 一 个 审计 跟踪 关系 中 增加 一 条 记录 。 该 基准 
程序 还 和 终端 进行 通信 ， 以 模拟 实际 系统 的 端 到 端 性 能 。TPC-B 基准 程序 ( TPC-B benchmark) 是 为 了 测 
试 数据 库 系统 及 运行 它 的 操作 系统 的 核心 性 能 而 设计 。 它 去 除了 TPC-A 基准 程序 中 处 理 用 户 、 通 信和 
终端 的 部 分 ， 集 中 测试 后 端的 数据 库 服务 器 。 现 在 TPC-A 和 TPC-B 都 没有 使 用 了 。 

TPC-C 基准 程序 (TPC-C benchmark) 是 为 了 模拟 比 TPC-A 基准 程序 更 复杂 的 系统 而 设计 的 。TPC-C 
基准 程序 主要 考虑 一 个 订购 手续 环境 中 的 主要 活动 ， 例 如 输入 和 传递 订单 、 记 录 付 款 、 检 查 订单 状态 
和 监控 库存 量 。TPC-C 基准 程序 仍 被 广泛 应 用 于 联机 事务 处 理 ( OLTP) 系统 中 。 更 近期 的 TPC-E 基准 程 
序 的 目标 也 是 OLTP 系统 ,但 是 它 是 基于 一 家 经 纪 公司 的 模型 ， 该 公司 的 客户 与 公司 交互 并 产生 事务 ， 
该 公司 随 之 与 金融 市 场 交互 以 执行 事务 。 

TPC-D 基准 程序 (TPC-D benchmark ) 是 为 了 测试 数据 库 系统 在 决策 支持 查询 中 的 性 能 而 设计 的 。 
决策 支持 系统 现在 正 变 得 越 来 越 重 要 。TPC-A、TPC-B 和 TPC-C 基准 程序 测量 事务 处 理工 作 负 载 下 的 
性 能 ， 不 应 被 用 来 测量 决策 支持 查询 中 的 性 能 。TPC-D PAY“ D” 代表 决策 支持 ( decision support ) , 
TPC-D 基 准 程序 的 模式 是 模拟 一 个 销售 /分 发 应 用 ,包括 零件 、 供 应 商 、 客 户 、 订 单 和 一 些 辅助 信息 。 
关系 的 大 小 定义 为 一 个 比率 ， 数 据 库 大 小 为 全 部 关系 大 小 之 和 ， 以 十 亿 字 节 (GB ) 为 单位 来 描述 。TPC- 
D 等 级 因子 为 1 表示 TPC-D 基准 程序 运行 于 1GB 的 数据 库 上 ， 等 级 因子 为 10 表示 TPC-D 基准 程序 运 
行 于 10GB 的 数据 库 上 。 此 基准 程序 的 工作 负载 包含 一 个 由 17 个 SQL 查询 构成 的 集合 ， 以 模拟 在 决策 
支持 系统 上 执行 的 通用 任务 。 其 中 一 些 查询 使 用 了 复杂 的 SQL FE, PIM RR AREA i 

基准 程序 使 用 者 很 快意 识 到 各 种 TPC-D 的 查询 可 以 通过 使 用 物化 视图 或 其 他 宛 余 信 息 来 显著 提高 
速度 。 有 些 应 用 ， 如 阶段 性 的 报告 工作 中 ， 查 询 可 以 预先 确定 并 可 以 仔细 选取 物化 视图 以 加 速 查询 ， 
然而 ， 有 必要 考虑 维护 物化 视图 的 开销 。 

TPC-H 基准 程序 (TPC-H benchmark)( 这 里 的 “H 7” 表示 即席 (ad hoc) ) 是 TPC-D 基准 程序 的 细 化 。 
它 的 模式 与 TPC-D 相同 ， 但 有 22 个 查询 ， 其 中 16 个 来 自 TPC-D。 此 外 ， 还 有 两 个 更 新 、 一 组 插入 和 
一 组 删除 。TPC-H 禁止 使 用 物化 视图 和 其 他 元 余 信 息 ， 并 且 只 允许 在 主 码 和 外 码 上 创建 索引 ,这 个 基 
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准 程序 模拟 即席 查询 ， 这 种 查询 不 能 提前 预知 ， 所 以 不 可 能 提前 创建 恰当 的 物化 视图 。 一 个 已 经 不 再 
被 使 用 的 变 体 TPC-R( 这 里 的 “R" 代 表 报告 (reporting) ) 允许 使 用 物化 视图 和 其 他 元 余 信 息 

TPC-H 用 如 下 方式 度量 性 能 : 能 力 测试 (power test) 每 次 按时 间 顺 序 执行 查询 和 更 新 ，3600 秒 除 以 
所 有 查询 执行 时 间 ( 以 秒 为 单位 ) 的 几何 平均 数 ， 就 得 到 每 小 时 的 查询 数量 。 香 吐 量 测试 ( throughput 
test) 并 行 执行 多 个 工作 流 ， 每 个 工作 流 执行 全 部 22 个 查询 ， 另 外 还 有 一 个 并 行 更 新 工作 流 。 用 整体 的 
运行 时 间 计 算 每 小 时 的 查询 数量 。 

每 小 时 复合 查询 度量 ( composite query per hour metric) 是 一 个 全 面 的 度量 ,用 能 力度 量 和 吞吐 量度 
量 乘积 的 平方 根 表示 。 复 合 代价 /性 能 度量 ( composite price/performance metric) 由 系统 代价 除 以 复合 代 
价 得 到 。 

TPC-W Web 商务 基准 程序 (TPC-W Web commerce benchmark ) 是 一 个 端 对 端的 基准 程序 ， 模 拟 具 
有 静态 内 容 ( 主要 是 图 像 ) 和 从 数据 库 中 生成 的 动态 内 容 的 Web 站 点 。 它 明确 指出 允许 高 速 缓存 动态 内 
容 ， 因 为 这 对 于 加 快 Web 站 点 的 速度 非常 有 用 。 此 基准 程序 模拟 了 一 个 电子 书店 ， 与 其 他 TPC 基准 程 
序 类 似 ， 提 供 了 不 同 的 等 级 因子 。 主 要 性 能 度量 是 每 秒 Web 交互 数 ( Web Interaction Per Second, 
WIPS) 和 每 WIPS 的 代价 值 。 但 是 ，TPC-W 基准 程序 已 经 不 再 被 使 用 了 。 


24.3 应 用 系统 开发 的 其 他 问题 

在 这 一 节 中 ,我 们 讨论 应 用 系统 开发 中 的 两 个 问题 : 应 用 系统 测试 和 应 用 系统 移植 。 
24.3.1 应 用 系统 测试 

程序 测试 包括 设计 一 个 测试 集 ( test suite) ， 即 一 个 测试 用 例 的 集合 。 测 试 不 是 一 次 性 的 过 程 ， 因 
为 程序 在 不 断 演 化 ， 程 序 的 更 改 可 能 导致 意 想不到 的 错误 出 现 ， 这 样 的 错误 称 为 程序 回归 ( regression ) 
因此 ， 程 序 每 次 改变 后 ， 都 必须 重新 进行 测试 。 程 序 每 次 改变 后 让 人 来 进行 测试 通常 是 不 可 行 的 。 相 
反 ， 预 期 的 测试 输出 和 每 个 测试 用 例 都 一 起 存储 在 测试 集 里 。 回 归 测 试 ( regression testing) 包括 把 程序 
运行 在 测试 集中 的 每 个 测试 用 例 上 ， 并 检查 程序 是 否 产 生 预 期 的 测试 输出 。 

在 数据 库 应 用 中 ， 一 个 测试 用 例 由 两 个 部 分 组 成 : 数据 库 状 态 ， 以 及 一 个 应 用 程序 特定 接口 的 
输入 。 

SQL 查询 可 能 有 难以 捕获 的 细微 错误 。 例 如 ， 当 一 个 查询 实际 上 应 该 执行 rMs 时 ， 它 却 可 能 执行 
rXMs。 只 有 当 测 试 数据 库 有 一 个 > 元 组 ， 它 没有 匹配 的 元 组 时 这 两 个 查询 间 的 差别 才能 被 发 现 。 因 
此 ,创建 可 以 捕获 经 常 发 生 的 错误 的 测试 数据 库 是 很 重要 的 。 这 样 的 错误 称 为 突变 ( mutation) ， 因 为 它 
们 通常 是 查询 (或 程序 ) 的 小 变化 。 在 一 个 预期 查询 和 该 查询 的 突变 上 产生 不 同 输出 的 测试 用 例 ， 称 为 
消灭 突变 (kill the mutant) 。 一 个 测试 集 应 该 有 能 消灭 (大 多 数 ) 经 常 发 生 的 突变 的 测试 用 例 。 

如 果 一 个 测试 用 例 执行 对 数据 库 的 更 新 ， 为 了 检查 它 是 否 正 确 执行 ， 必 须 验证 数据 库 的 内 容 与 预 
期 的 内 容 相 匹配 。 因 此 ， 预 期 的 输出 不 仅 包括 显示 在 用 户 屏幕 上 的 数据 ， 而 且 包 括 数据 库 状 态 ( 的 
更 新 ) 。 

由 于 数据 库 状 态 可 能 相当 大 ， 多 个 测试 用 例 可 能 共享 同一 个 数据 库 状态 。 如 下 事实 使 测试 更 加 复 
杂 : 如 果 一 个 测试 用 例 执行 对 数据 库 的 更 新 ， 随 后 运行 在 同一 个 数据 库 上 的 其 他 测试 用 例 的 结果 可 能 
与 预期 结果 不 匹配 。 然 后 其 他 测试 用 例 就 会 被 错误 地 报告 为 失败 。 为 了 避免 这 个 问题 ， 每 当 一 个 测试 
用 例 执 行 更 新 ,在 测试 运行 后 数据 库 状 态 必须 恢复 到 其 原始 状态 。 

测试 还 可 以 用 来 确保 应 用 程序 符合 性 能 要 求 。 为 了 进行 这 种 性 能 测试 ( performance testing) ， 测 试 
数据 库 必 须 和 真实 数据 库 一 样 大 。 在 某 些 情况 下 ， 已 经 存在 可 以 进行 性 能 测试 的 数据 。 在 其 他 情况 下 ， 
必须 生成 一 个 所 需 大 小 的 测试 数据 库 。 有 几 个 工具 可 用 于 生成 这 种 测试 数据 库 。 这 些 工具 确保 生成 的 
数据 满足 约束 ， 比 如 主 码 约 束 和 外 码 约束 。 它 们 可 能 额外 生成 看 起 来 有 意义 的 数据 ， 例 如 ， 通 过 使 用 
有 意义 的 姓名 填充 姓名 属性 ， 而 不 是 使 用 随机 字符 串 。 有 些 工具 还 允许 指定 数据 分 布 。 例 如 ， 一 个 大 
学 数据 库 可 能 要 求 这 样 一 个 分 布 : 大 多 数学 生 在 18 岁 至 25 岁 之 间 ， 并 且 大 部 分 教师 在 25 岁 至 65 岁 
之 间 。 

即使 有 一 个 现 有 的 数据 库 ， 机 构 通常 也 不 希望 把 敏感 数据 泄露 给 可 能 进行 性 能 测试 的 外 部 机 构 。 
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在 这 种 情况 下 ， 可 以 复制 真实 数据 库 的 一 个 副本 ， 并 以 这 样 一 种 方式 修改 副本 中 的 值 : 使 得 任何 敏感 
数据 ， 如 信用 卡号 、 社 会 保险 号 或 出 生日 期 ， 被 模糊 (obfuscated) 处 理 。 大 多 数 情况 下 通过 用 随机 生成 
的 值 替换 真实 值 来 完成 模糊 处 理 ( 注意 如 果 该 值 是 主 码 ， 还 要 更 新 所 有 对 该 值 的 引用 ) 。 另 一 方面 ， 如 
果 应 用 程序 的 执行 依赖 于 值 ， 比 如 在 一 个 基于 出 生日 期 执行 不 同 动作 的 应 用 中 的 出 生日 期 ， 模 糊 处 理 
可 以 对 值 进行 小 的 随机 变化 ， 而 不 是 完全 替换 它 。 

24.3.2 应 用 系统 移植 

遗产 系统 (legacy system) 是 老 一 代 应 用 系统 ， 一 个 机 构 正在 使 用 它 ， 但 该 机 构 又 想 用 另外 的 应 用 系 
统 替 换 它 。 例 如 ， 许 多 机 构 内 部 开发 了 应 用 系统 ， 而 又 可 能 决定 用 商业 产品 代替 它们 。 在 一 些 案例 中 ， 
遗产 系统 可 能 使 用 与 当代 的 标准 和 系统 不 兼容 的 老 技 术 。 现 在 运转 着 的 一 些 遗 产 系 统 有 几 十 年 历史 ， 
基于 诸如 网 状 或 层次 数据 模型 的 数据 库 技术 ， 或 者 使 用 没有 数据 库 的 Cobol 和 文件 系统 。 这 些 系统 可 
能 仍然 包含 有 价值 的 数据 ， 并 可 能 支持 关键 性 的 应 用 。 

用 新 的 应 用 系统 替换 遗产 应 用 系统 ， 在 时 间 和 金钱 方面 的 代价 通常 都 很 大 ， 因 为 它们 一 般 非 常 庞 
大 ， 包 括 由 多 组 程序 员 经 过 几 十 年 开发 而 成 的 数 百 万 行 代码 。 它 们 包含 的 大 量 数据 必须 被 导入 到 新 的 
应 用 系统 中 ， 还 可 能 使 用 的 是 完全 不 同 的 模式 。 由 老 应 用 系统 转换 到 新 应 用 系统 还 会 涉及 大 量 员工 的 
再 培训 。 在 进行 转换 时 通常 必须 没有 中 断 ， 从 老 系统 中 输入 的 数据 通过 新 系统 也 能 获得 。 

许多 机 构 试 图 避免 替换 遗产 系统 ， 改 为 设法 让 它们 与 新 系统 交互 操作 。 一 种 在 关系 数据 库 与 遗产 
数据 库 之 间 进 行 交 互 操 作 的 方法 是 ， 在 遗产 系统 上 建立 一 个 层 ， 称 为 包装 层 ( wrapper) ， 它 使 得 遗产 系 
统 看 上 去 像 个 关系 数据 库 。 包 装 层 可 以 提供 对 ODBC 或 其 他 互 连 标准 (如 OLE-DB) 的 支持 ， 用 于 对 遗 
产 系统 的 查询 和 更 新 。 包 装 层 负 责 将 关系 查询 和 更 新 转化 为 对 遗产 系统 的 查询 和 更 新 。 

当 某 个 机 构 决 定 用 新 系统 替换 遗产 系统 时 ， 需 要 进行 一 个 称 作 逆向 工程 ( reverse engineering) 的 过 
程 。 逆 向 工程 包括 检查 遗产 系统 代码 ， 提 出 所 需 数据 模型 (如 E-R 模型 或 面向 对 象 数据 模型 ) 中 的 设计 
模式 。 逆 向 工程 还 要 检查 代码 找 出 实现 的 程序 和 过 程 ， 以 得 到 系统 的 高 层 模型 。 之 所 以 需要 北向 工程 
是 因为 遗产 系统 常常 没有 模式 的 高 层 文档 资料 和 全 面 的 系统 设计 。 当 提出 新 系统 的 设计 时 ， 开 发 者 回 
顾 旧 系统 的 设计 ， 这 样 就 可 以 进行 改进 而 不 只 是 重新 实现 。 还 需要 扩充 的 编码 工作 来 支持 遗产 系统 提 
供 的 所 有 功能 (例如 用 户 界面 和 报表 系统 ) ， 整 个 过 程 叫做 工程 再 设计 (re-engineering) 。 

当 新 系统 创建 并 且 测 试 过 之 后 ， 系 统 必须 装载 遗产 系统 中 的 数据 ， 所 有 进一步 的 活动 都 由 新 系统 
来 开展 。 但 是 ， 这 种 突然 向 新 系统 的 转移 被 称 为 大 爆炸 方法 ( big-bang approach) ， 它 有 几 个 风险 : 首 
先 ， 用 户 可 能 不 熟悉 新 系统 界面 ; 其 次 ， 新 系统 中 可 能 存在 测试 中 没有 发 现 的 错误 或 性 能 问题 。 这 些 
问题 可 能 导致 公司 的 巨大 损失 ， 因 为 它们 执行 诸如 销售 和 购买 那样 的 关键 事务 的 能 力 会 受到 严重 影响 。 
在 某 些 极端 情况 下 ， 尝 试 转换 失败 后 ， 新 系统 甚至 被 放弃 ， 而 重新 使 用 遗产 系统 。 

另外 一 种 可 选 的 方案 叫做 胆小鬼 方法 (chicken-little approach) ， 递 增 地 替换 遗产 系统 的 功能 。 例 
如 ， 使 用 新 的 用 户 界面 ， 后 端 仍然 使 用 遗产 系统 ， 反 之 亦 然 。 另 外 一 种 选择 是 ， 只 对 那些 能 够 从 遗产 
系统 中 分 离 出 来 的 功能 使 用 新 系统 。 任 何 一 种 情况 都 需要 遗产 系统 和 新 系统 并 存 一 段 时 间 。 因 此 需要 
在 遗产 系统 上 开发 和 使 用 包装 层 ， 以 提供 所 需 的 与 新 系统 交互 操作 的 功能 。 因 此 ， 这 种 方案 需要 更 高 
的 开发 费用 。 


24.4 标准 化 


标准 (standard) 定义 了 软件 系统 的 接口 。 例 如 ， 标 准 可 以 定义 编程 语言 的 语法 和 语义 、 应 用 程序 接 
口中 的 函数 ， 其 至 数据 模型 (如 面向 对 象 数据 库 标 准 )。 现 在 的 数据 库 系 统 非常 复杂 ， 常 常 由 多 个 独立 
创建 的 、 需 要 交互 的 部 件 组 成 。 例 如 ， 客 户 端 程序 的 创建 可 以 独立 于 后 端 系统 ， 但 二 者 必须 能 够 彼此 
交互 。 具 有 多 个 异 构 数据 库 系 统 的 公司 可 能 需要 在 数据 库 之 间 交 换 数据 。 在 这 种 场合 下 ， 标 准 发 挥 着 
重要 的 作用 。 

正式 标准 (formal standard) 由 标准 化 组 织 或 行业 组 织 通过 公开 的 程序 来 制定 。 占 统治 地 位 的 产品 有 
时 会 成 为 事实 标准 (de facto standard) ， 因 为 它们 没有 通过 任何 正规 的 公认 程序 而 被 作为 标准 广泛 接受 。 
一 些 正式 标准 ， 如 SQL- 92 和 SQL: 1999 标准 的 许多 方面 ， 是 引导 市 场 的 预见 标准 ( anticipatory 
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standard) 。 它 们 先 定义 一 些 特性 ， 然 后 厂商 才 在 产品 中 实现 这 些 特性 。 而 另外 的 情况 下 ， 标 准 或 标准 
的 一 部 分 是 反应 标准 (reactionary standard) ， 因 为 它们 试图 标准 化 一 些 已 经 有 厂商 实现 的 甚至 已 经 成 为 
事实 标准 的 特性 。 在 很 多 方面 SQL-89 是 反应 性 的 ， 因 为 它 对 IBM SAA SQL 标准 以 及 其 他 数据 库 中 已 
经 出 现 的 某 些 特征 ( 如 完整 性 检查 ) 进行 标准 化 。 

正式 标准 委员 会 通常 包括 厂商 代表 、 用 户 组 成 员 、 来 自 标准 化 组 织 ( 如 国际 标准 化 组 织 ( 1SO) 和 美 
国 国家 标准 协会 (ANSI) ) 的 成 员 ， 以 及 来 自 专业 团体 ( 如 电子 电气 工程 师 协 会 (IEEE) ) 的 成 员 。 正 式 标 
准 委 员 会 定期 集会 ， 成员 对 标准 中 的 特性 提出 增加 或 修改 建议 。 在 一 段 ( 通 常 被 延长 的 ) 时 间 的 讨论 、 
修改 建议 以 及 全 体 审阅 后 ， 成 员 对 是 否 接受 或 拒绝 某 一 特性 进行 投票 。 标 准 制定 和 实现 后 ， 经 过 一 段 
时 间 ， 其 缺点 会 变 得 明显 ， 新 的 需求 变 得 显著 。 于 是 开始 了 标准 的 更 新 过 程 ， 并 且 通 常 几 年 后 会 发 布 
标准 的 新 版 本 。 这 样 的 循环 通常 每 几 年 重复 一 次 ， 直 到 最 终 ( 也 许 是 很 多 年 以 后 ) 标 准 在 技术 上 变 得 无 
关 紧 要 或 失去 其 用 户 基 础 。 

由 数据 库 任务 组 提出 的 网 状 数据 库 标 准 DBTG CODASYL 是 用 于 数据 库 的 早期 正式 标准 之 一 。 因 为 
IBM 占据 了 数据 库 市 场 的 很 大 份额 ， 所 以 之 前 IBM 数据 库 产品 曾 建立 过 事实 标准 。 随 着 关系 数据 库 的 
发 展 ， 很 多 新 的 竞争 者 加 入 到 数据 库 产业 中 ， 因 此 产生 了 对 正式 标准 的 需求 。 最 近 几 年 ， 微 软 提 出 了 
许多 规范 ， 这 些 也 已 经 成 为 事实 标准 。 著 名 的 例子 是 ODBC， 如 今 在 非 微软 环境 中 也 在 使 用 。Sun 
Microsystems 提出 的 JDBC 规范 ， 是 另 一 个 被 广泛 使 用 的 事实 标准 。 

本 节 从 很 高 的 层次 对 不 同 标准 进行 了 概述 ， 重 点 集中 在 标准 的 目的 上 。 本 章 末尾 的 文献 注解 给 出 
了 关于 本 节 中 所 提 到 标准 的 详细 描述 的 参考 文献 。 
24.4.1 SQL 标准 

由 于 SQL 是 使 用 最 广泛 的 查询 语言 ， 在 对 其 进行 标准 化 上 人 们 已 经 做 过 很 多 工作 。ANSI 和 ISO, 
以 及 各 家 数据 库 厂商 在 这 项 工作 中 起 到 了 主导 作用 。SQL-86 是 最 初 的 版 本 。IBM 系统 应 用 体系 结构 
(Systems Application Architecture, SAA) AY SQL 标准 于 1987 年 发 布 。 随 着 人 们 对 更 多 特性 的 需求 ， 正 式 
SQL 标准 的 更 新 版 本 SQL-89 和 SQL-92 被 制定 出 来 。 

SQL: 1999 版 本 的 SQL 标准 ， 给 SQL 增加 了 许多 特性 。 在 前 面 章节 中 我 们 已 经 见 到 过 许多 这 样 的 特 
征 。SQL: 2003 版 本 的 SQL 标准 是 对 SQL: 1999 标准 的 细微 扩充 。 一 些 特征 ， 例 如 SQL: 1999 的 OLAP 
特性 ( 见 5.6.3 节 ) 被 说 明 为 对 SQL: 1999 标准 早期 版 本 的 改善 ， 并 没有 等 到 发 布 在 SQL: 2003 中 。 

SQL: 2003 标准 被 分 为 如 下 几 个 部 分 : 

。 第 1 部 分 : SQL/Framework 给 出 了 对 标准 的 概览 。 

© 第 2 部 分 : SQL/Foundation 定义 了 标准 的 基本 元 素 一 一 类 型 、 模 式 、 表 、 视 图 、 查 询 以 及 更 新 

语句 、 表 达 式 、 安 全 模型 、 谓 词 、 赋 值 规则 、 事 务 管理 等 。 

。 第 3 部 分 : SQL CLI( 调 用 层 接 口 ) 定 义 了 应 用 程序 对 SQL 的 接口 。 

© 第 4 部分: SQL/ PSM( 持 久 存 储 模块 ) 定 义 了 SQL 的 过 程 性 扩展 。 

© 第 9 部 分 : SQL/MED( 外 部 数据 管理 ) 定 义 了 SQL 系统 到 外 部 资源 的 接口 标准 。 通 过 书写 包装 

B, 系统 设计 者 可 以 将 外 部 数据 源 如 文件 或 非 关系 数据 库 中 的 数据 ， 当 做 “外 来 " 表 来 处 理 。 

© 第 10 部分: SQL/ OLB( 对 象 语言 绑 定 ) 定 义 了 Java PHA SQL 的 标准 。 

。 第 11 部 分 : SQL/Schemata( 信息 模式 和 定义 模式 ) 定 义 了 标准 目录 接口 。 

© 第 13 部分: SQL/JRT( Java 程序 和 类 型 ) 定 义 了 访问 Java 中 程序 和 类 型 的 标准 。 

© 第 14 部分: SQL/XML 定义 了 XML 相关 的 规范 。 

缺失 部 分 包括 诸如 临时 数据 、 分 布 式 事务 处 理 和 多 媒体 数据 这 样 的 特性 ， 对 此 在 标准 上 还 没有 达 
成 一 致 。 

SQL 标准 的 最 新 版 本 是 SQL: 2006 和 SQL: 2008 ， 前 者 增加 了 几 个 与 XML 相关 的 特性 ， 后 者 引入 
了 许多 对 SQL 语言 的 扩展 。 
24. 4.2 数据 库 连 接 标准 

ODBC 标准 是 广泛 应 用 的 客户 端 应 用 程序 与 数据 库 系 统 之 间 进 行 通信 的 标准 。ODBC 是 基于 X/ 
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Open 行业 协会 和 SQL Access Group 制定 的 SQL 调用 层 接口 ( Call Level Interface, CLI) 标准 ， 但 有 所 扩 
Ro ODBC API 定义 了 一 个 CLI、 一 个 SQL 语法 定义 和 关于 允许 的 CLI 调用 序列 的 规则 。 该 标准 还 定义 
T CLI 和 SQL 语法 的 一 致 级 别 。 例 如 ，CLI 核心 级 包括 连接 数据 库 、 准 备 和 执行 SQL 语句 、 取 回 结果 
或 状态 值 以 及 管理 事务 的 命令 。 下 一 个 一 致 级 别 ( 级 别 1 ) 要 求 支持 对 目录 信息 检索 以 及 其 他 一 些 核心 
级 CLI 之 上 的 特性 ; 级 别 2 要 求 进一步 的 特性 ， 如 发 送 和 检索 参数 值 数组 以 及 检索 更 加 详细 的 目录 信 
息 的 能 力 。 

ODBC 允许 一 个 客户 端 同时 连接 到 多 个 数据 源 ， 并 在 这 些 数 据 源 之 间 进 行 切 换 ， 但 各 个 数据 源 上 
的 事务 是 独立 的 ; ODBC 不 支持 两 阶段 提交 。 

分 布 式 系统 提供 比 客户 - 服务 器 系统 更 通用 的 环境 。X/Open 协会 也 为 数据 库 互 操作 制定 了 X 
Open XA 标准 (X/Open XA standard) 。 这 些 标准 定义 了 兼容 数据 库 应 该 提供 的 事务 管理 原 语 ( 如 事务 开 
始 、 提 交 、 中 止 和 准备 提交 ) 。 事 务 管理 器 可 以 调用 这 些 原 语 ， 利 用 两 阶段 提交 实现 分 布 式 事务 。XA 
标准 独立 于 数据 模型 和 客户 端 与 数据 库 之 间 交 换 数据 的 特定 接口 。 因 此 ， 我 们 可 以 利用 XA 协议 实现 

分 布 式 事务 系统 ， 在 这 样 的 系统 中 ， 一 个 事务 可 以 既 能 访问 关系 数据 库 又 能 访问 面向 对 象 的 数据 库 ， 
而 事务 管理 器 通过 两 阶段 提交 保证 全 局 一 致 性 。 

有 许多 数据 源 不 是 关系 数据 库 ， 事 实 上 有 可 能 根本 不 是 数据 库 ， 如 平面 文件 和 邮件 存储 。 微 软 的 
OLE-DB 是 一 个 C++ 应 用 程序 接口 ， 其 目的 与 ODBC 类 似 ， 但 是 对 于 非 数据 库 数据 源 ， 它 只 提供 有 限 
的 查询 和 更 新 功能 。 与 ODBC 类 似 ，OLE-DB 提供 一 些 结构 ， 用 于 连接 数据 源 、 开 始 会 话 、 执 行 命令 、 
以 行 集 (结果 行 的 集合 ) 的 形式 取 回 结果 。 

但 是 ，OLE-DB 与 ODBC 在 许多 方面 是 不 同 的 。 为 了 支持 提供 有 限 特 征 的 数据 源 ，OLE-DB 的 特征 
分 为 许多 接口 ， 一 个 数据 源 可 以 只 实现 接口 的 一 个 子 集 。OLE-DB 程序 可 以 与 数据 源 协 商 ， 找 到 数据 
源 支 持 的 接口 。 在 ODBC 中 ,命令 都 是 在 SQL 中 。 在 OLE-DB 中 ， 命 令 可 以 在 数据 源 支 持 的 任何 语言 
中 。 有 些 数 据 源 可 能 支持 SQL， 或 者 SQL 的 一 个 受 限 子 集 ， 而 其 他 数据 源 可 能 只 提供 简单 的 功能 ， 如 
访问 平面 文件 中 的 数据 ， 却 不 提供 任何 查询 功能 。OLE-DB 与 ODBC 的 另 一 个 主要 区 别 在 于 ，OLE-DB 
的 行 集 是 一 个 可 以 通过 共享 内 存 被 多 个 应 用 程序 共享 的 对 象 。 一 个 行 集 对 象 可 以 被 某 个 应 用 程序 更 新 ， 
其 他 共享 该 对 象 的 应 用 程序 将 被 告知 这 个 改变 。 

同样 ， 由 微软 创建 的 活动 数据 对 象 ( Active Data Object，ADO) 应 用 程序 接口 提供 了 一 个 易于 使 用 的 
OLE-DB 功能 接口 ， 可 以 从 脚本 语言 (如 VBScript 和 JScript) 中 进行 调用 。 更 新 的 ADO. NET 应 用 程序 
接口 是 为 用 诸如 C# 和 Visual Basic. NET 那样 的 . NET 语言 编写 的 应 用 程序 而 设计 的 。 除 了 提供 简化 的 
接口 ， 它 还 提供 了 称 为 数据 集 的 抽象 概念 ， 允 许 断 开 连 接 的 数据 访问 
24.4.3 ”对象 数 据 库 标准 

面向 对 象 数据 库 领 域 中 的 标准 到 目前 为 止 主要 是 由 00DB 厂商 驱动 的 。 对 象 数据 库 管理 组 ( Object 
Database Management Group，ODMG ) 是 由 OODB 厂商 组 成 的 、 对 00DB 数据 模型 和 语言 接口 进行 标准 
化 的 团体 。ODMG 所 定义 的 C++ 语言 接口 已 在 第 22 章 中 进行 了 概述 。0DMG 已 不 再 活跃 。JDO 是 为 
Java 增加 持久 性 的 标准 。 

对 象 管理 组 (Object Management Group，OMG ) 是 由 公司 组 成 的 一 个 协会 ， 其 目标 是 制定 基于 面向 
对 象 模型 的 分 布 式 软件 应 用 的 标准 体系 结构 。OMG 提出 了 对 象 管理 体系 结构 (OMA ) 参考 模型 。 对 象 请 
求 代理 (ORB) 是 OMA 体系 结构 中 的 一 个 组 件 ， 它 为 分 布 式 对 象 提供 透明 的 消息 分 发 ， 因 而 对 象 的 物 
理 位 置 无 关 紧 要 。 通 用 对 象 请 求 代 理 体系 结构 ( Common Object Request Broker Architecture, CORBA) 为 
ORB 提供 了 详细 的 说 明 ， 还 包括 了 用 于 定义 数据 交换 中 所 采用 数据 类 型 的 接口 描述 语言 ( Interface 

Description Language，IDL) 。 当 数据 在 数据 表示 不 同 的 系统 间 传 递 时 ，IDL 有 助 于 提供 数据 转换 。 

微软 提出 了 实体 数据 模型 (entity data model) ， 它 结合 了 实体 联系 和 面向 对 象 数 据 模型 的 思想 ， 以 
及 一 个 称 作 语言 集成 查询 ( Language Integrated Querying 或 LINQ) 的 方法 ， 该 方法 用 于 把 查询 集成 到 编程 
语言 中 。 这 些 很 有 可 能 会 成 为 事实 标准 。 

24.4.4 基于 XML 的 标准 
人 们 为 多 种 不 同 的 应 用 定义 了 大 量 不 同 的 基于 XML( 见 第 23 章 ) 的 标准 。 这 些 标 准 中 有 许多 都 与 


第 24 章 高 级 应 用 开发 


电子 商务 有 关 。 它 们 包括 非 盈 利 团体 发 布 的 标准 以 及 企业 为 建立 事实 标准 而 付出 的 努力 。 

RosettaNet 属于 前 者 ， 它 是 一 个 工业 协会 利用 基于 XML 的 标准 来 帮助 计算 机 与 信息 技术 产业 中 的 
供应 链 管理 。 供 应 链 管理 指 购买 机 构 运 行 所 需要 的 材料 和 服务 。 相 反 ， 顾 客 关 系 管理 指 公司 交互 的 前 
端 ， 是 与 客户 打交道 的 。 供 应 链 管 理 要 求 很 多 事情 的 标准 化 ， 例 如 : 

© 全 局 公司 标识 (global company identifier); RosettaNet 指明 唯一 识别 公司 的 系统 ， 使 用 9 位 数字 

的 标识 符 ， 称 作 数 据 通 用 编号 方式 系统 (DUNS)。 
e 全 局 产品 标识 ( global product identifier); RosettaNet 指明 了 一 个 14 位 数字 的 全 局 商业 项 目 编 号 
(GTIN) ， 用 于 标识 产品 和 服务 。 

© 全 局 类 别 标识 (global class identifier): 这 是 一 个 称 作 联 合 国 /标准 产品 和 服务 码 ( UN/SPSC) 的 10 
位 数字 层次 编码 ， 用 于 对 产品 和 服务 进行 分 类 . 
贸易 伙伴 之 间 的 接口 (interface between trading partners); RosettaNet 伙伴 接口 过 程 (PIP) 定 义 了 
伙伴 之 间 的 商业 过 程 。PIP 是 基于 XML 的 系统 对 系统 的 会 话 : 它们 定义 了 处 理 过 程 所 涉及 的 商 
业 文档 格式 和 语义 以 及 完成 事务 所 采取 的 步骤 。 作 为 例子 ， 这 些 步骤 可 能 包括 获得 产品 和 服务 
的 信息 、 购 货 订单 、 订 单 货品 计价 、 付 款 、 订 单 状 态 请 求 、 存 货 管 理 、 包 括 服务 担保 在 内 的 售 
后 支持 等 。 设 计 、 配 置 、 处 理 过 程 和 质量 信息 的 交换 还 有 可 能 协调 跨 机 构 的 制造 活动 。 

电子 市 场 的 参与 者 可 能 将 数据 存储 在 多 种 数据 库 系统 中 。 这 些 系统 可 能 使 用 不 同 的 数据 模型 、 数 
据 格 式 和 数据 类 型 。 此 外 ， 数 据 间 可 能 存在 语义 差异 (公制 对 英制 ， 不 同 流通 货币 ， 等 等 ) 。 电 子 市 场 
的 标准 包括 使 用 XML 模式 包装 每 个 这 样 的 异 构 系 统 的 方法 。 这 些 XML 包装 器 为 分 布 在 所 有 市 场 参与 
方 的 数据 建立 了 统一 视图 的 基础 。 

简单 对 象 访 问 协议 (Simple Object Access Protocol, SOAP) 是 一 种 远程 过 程 调用 标准 ， 它 使 用 XML 
编码 数据 (参数 和 结果 ) ， 利 用 HTTP 作为 传输 协议 。 这 样 ， 函 数 调 用 就 成 为 一 个 HTTP 请 求 。SOAP 由 
万 维 网 联盟 (W3C ) 支持 ， 并 且 获 得 了 产业 界 的 广泛 支持 。SOAP 可 用 于 各 种 应 用 。 例 如 ,在 B2B 的 电 
子 商 务 中 ， 在 某 个 站 点 上 运行 的 应 用 程序 可 以 通过 SOAP 访问 其 他 站 点 上 的 数据 并 执行 动作 .。 

TE 23.7.3 节 已 经 详细 介绍 了 SOAP 和 Web 服务 。 


24.5 总 结 


© 调整 数据 库 系 统 参 数 和 更 高 级 别 的 数据 库 设 计 ( 如 模式 、 索 引 和 事务 ) 对 于 实现 高 性 能 至 关 重 要 。 查 

询 可 以 进行 调整 以 提高 集合 面向 性 ， 而 批量 加 载 功 能 可 以 大 大 加 快 数据 导入 到 数据 库 中 的 速度 

调整 的 最 好 办 法 是 确定 瓶颈 所 在 ， 然 后 消除 瓶颈 。 数 据 库 系统 通常 有 多 种 可 调 参 数 ， 如 缓冲 区 
大 小 、 内 存 大 小 和 磁盘 数量 。 可 以 选择 适当 的 索引 和 物化 视图 集合 ， 以 使 总 体 代价 达到 最 小 。 可 以 
调整 事务 使 锁 竞 争 达 到 最 小 。 快 照 隔离 和 支持 早期 锁 释放 的 序号 编号 功能 是 减少 读 写 和 写 写 莞 争 的 
有 用 工具 。 

o 性 能 基准 程序 在 对 数据 库 系统 进行 比较 方面 扮演 了 重要 的 角色 ， 尤 其 在 数据 库 系统 变 得 越 来 越 与 标 
准 兼 容 时 。TPC 基准 程序 集 使 用 广泛 ， 不 同 的 TPC 基准 程序 可 以 用 于 不 同 工 作 负载 下 的 数据 库 系统 
性 能 的 比较 。 

© 应 用 程序 在 开发 时 和 部 署 前 需要 进行 大 量 的 测试 。 测 试 是 用 来 捕获 错误 的 ， 以 及 确保 达到 性 能 目标 。 

遗产 系统 是 基于 老 一 代 技 术 ( 如 非 关系 数据 库 或 甚至 直接 基于 文件 系统 ) 的 系统 。 当 运行 关键 任务 系 

统 时 ， 遗 产 系 统 与 新 一 代 系 统 之 间 的 连接 通常 是 很 重要 的 。 从 遗产 系统 到 新 一 代 系 统 的 移植 必须 非 

常 小 心 以 避免 破坏 ， 这 种 移植 是 非常 昂贵 的 。 

由 于 数据 库 系 统 的 复杂 性 和 互 操作 的 需要 ， 标 准 对 数据 库 系 统 来 说 很 重要 。SQL 有 其 正式 标准 。 事 

实 标准 (如 ODBC AI JDBC) 和 被 行业 组 织 所 采纳 的 标准 (如 CORBA) ， 在 客户 - 服务 器 数据 库 系 统 的 

发 展 中 发 挥 了 重要 作用 。 


术语 回顾 
。 性 能 调整 。 面向 集合 © 批 处 理 更 新 (JDBC ) 
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。 批量 加 载 。 小 型 批 处 理事 务 © 遗产 系统 
。 批量 更 新 。 性 能 模拟 。 逆向 工程 
。 合并 语句 。 性 能 基准 程序 。 工程 再 设计 
。 瓶颈 。 服务 时 间 。 标准 化 
© 队列 系统 。 完成 时 间 DO 正式 标准 
。 可 调 参数 。 数据 库 应 用 类 型 O 事实 标准 
。 硬件 调整 。 TPC 基准 程序 口 预见 标准 
。 五 分 钟 规则 TPC-A 反应 标准 
。 一 分 钟 规则 口 TPC-B 。 数据 库 连接 标准 
© 模式 调整 O TPC-C ODBC 
。 索引 调整 TPC-D OLE-DB 
。 物化 视图 O TPC-E 口 X/Open XA 标准 
。 立即 视图 维护 口 TPC-H © 对 象 数据 库 标 准 
。 延迟 视图 维护 © 每 秒 的 网 络 交互 数 ODMG 
。 事务 调整 。 回归 测试 CORBA 
。 锁 竞 争 。 消灭 突变 e 基于 XML 的 标准 
。 序号 
实践 习题 
24.1 很 多 应 用 程序 需要 产生 每 个 事务 的 序列 号 。 
[1057] a 如 果 一 个 序号 计数 器 采用 两 段 封 锁 协 议 ， 可 能 成 为 一 个 并 发 瓶颈 。 解 释 产 生 这 种 情况 的 原因 。 





b. 很 多 数据 库 系 统 支持 内 置 的 序号 计数 器 ， 采 用 非 两 阶段 封锁 协议 ; 当 一 个 事务 请 求 一 个 序号 时 ， 
计数 器 上 锁 ， 累 加 ， 然 后 解锁 。 
i 解释 这 样 的 计数 器 如 何 提高 并 发 度 。 
ii. 解释 在 最 终 提交 事务 的 序号 之 间 存 在 空缺 的 原因 。 

24.2 假设 给 定 一 个 关系 r(a b, c)s 
a. 给 出 一 个 例子 ,说 明 什 么 情况 下 在 属性 a 上 的 等 值 选择 查询 的 性 能 会 受 关系 r 是 如 何 聚 集 的 影响 

很 大 。 

. 假设 还 有 在 属性 5 上 的 范围 选择 查询 。r 如 何 聚 集会 使 ~ a 上 的 等 值 选择 查询 和 7r.b 上 的 范围 选择 

查询 都 能 高 效 地 回答 ? 请 解释 你 的 答案 。 
co 如 果 上 述 聚 集 方法 是 不 可 能 的 ， 给 出 一 个 建议 ， 如 何 通过 选择 合适 的 索引 使 两 种 类 型 查询 都 能 高 

效 执行 ， 假 设 你 的 数据 库 支持 只 有 索引 的 计划 ( 即 如 果 一 个 查询 请 求 的 所 有 信息 在 一 个 索引 上 都 可 
获得 ， 那 么 数据 库 能 产生 一 个 只 使 用 索引 而 不 需 访 问 关系 的 执行 计划 ) 。 

24.3 ”假设 数据 库 应 用 程序 看 起 来 没有 瓶颈 ， 即 CPU 和 磁盘 使 用 率 都 较 高 ， 且 所 有 数据 库 队 列 大 致 平衡 。 
那 是 否 意 味 着 应 用 程序 就 不 能 进一步 调整 性 能 ? 解释 你 的 答案 。 

24.4 假设 一 个 系统 运行 三 种 类 型 的 事务 。A 类 事务 以 50/s 的 速度 运行 ，B 类 事务 以 100/s 的 速度 运行 ，C 
类 事务 以 200/s 的 速度 运行 ， 假 设 混 合 事务 中 包含 25% 的 A 类 事务 ，25% 的 B 类 事务 ，50% 的 CH 
事务 。 

a. 假设 事务 之 间 没 有 干扰 ， 系 统 的 平均 事务 吞吐 率 是 多 少 ? 
b. 什么 因素 会 导致 不 同类 型 的 事务 之 间 的 干扰 ， 以 至 于 计算 得 到 的 吞吐 率 不 正确 ? 

24.5 列 出 预见 标准 和 反应 标准 相 比 的 优点 和 缺点 。 


习题 
24.6 找 出 你 特别 喜爱 的 数据 库 提供 的 所 有 性 能 信息 。 至 少 找 出 以 下 这 些 ， 有 哪些 当前 正在 执行 或 者 最 近 执 


行 过 的 查询 ， 它 们 各 消耗 了 哪些 资源 (CPU 和 10)， 哪些 页 面 片段 的 请 求 导 致 了 缓冲 区 遗漏 ( 可 能 的 
话 针 对 每 个 查询 ) ， 哪 些 锁 被 高 度 争夺 。 你 还 可 以 从 操作 系统 上 获得 关于 CPU 和 LO 使 用 率 的 信息 。 
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24.7 a. 调节 数据 库 系统 的 哪 三 个 主要 层次 可 以 提高 性 能 ? 
b. 对 每 个 层次 请 举 出 两 个 例子 说 明 调节 是 如 何 进行 的 。 

24.8 ” 当 进 行 性 能 调整 时 ， 应 该 首先 调整 硬件 (通过 增加 磁盘 或 者 内 存 ) ， 还 是 应 该 首先 调整 事务 (通过 增加 
索引 或 者 物化 视图 ) 。 解 释 你 的 答案 。 

24.9 假设 你 的 应 用 程序 有 这 样 的 事务 : 每 个 事务 访问 并 更 新 存储 在 B 树 文件 组 织 的 大 关系 中 的 单个 元 组 . 
假定 B 树 的 所 有 内 部 结 点 都 在 内 存 中 ,但 只 有 非常 少量 的 叶子 页 面 能 放 进 内 存 。 解 释 如 何 计 算 支持 
每 秒 钟 1000 个 事务 的 工作 负载 最 少 需要 的 磁盘 数 。 利 用 10. 2 节 给 出 的 磁盘 参数 值 ， 计 算 需 要 的 磁 
盘 数 。 

24. 10 ”将 一 个 长 事务 分 割 成 一 系列 小 事务 的 动机 是 什么 ”其 结果 会 引发 什么 问题 ”这些 问 题 如 何 避 人 免 

24. 11 假设 内 存 价格 下 降 一 半 ， 磁 盘 访 问 速 度 ( 每 秒 的 访问 次 数 ) 加倍， 其 他 因素 保持 不 变 。 此 改变 对 于 5 
分 钟 规则 和 1 分 钟 规则 将 会 有 什么 影响 ? 

24.12 Bilt TPC 基准 程序 的 至 少 4 个 有 助 于 得 到 实际 的 和 可 信赖 的 评测 结果 的 特性 。 

24. 13 TPC-D 基准 程序 为 什么 会 被 TPC-H 和 TPC-R 基准 程序 所 替代 ? 

24.14 解释 应 用 程序 的 哪些 特性 有 助 于 你 决定 最 好 选择 TPC-C、TPC-H 和 TPC-R 中 的 哪个 来 对 应 用 程序 进 
行 建 模 。 


文献 注解 


Kleinrock[ 1975 ] 是 关于 排队 论 的 经 典 教 科 书 。 

数据 库 系 统 基准 程序 的 一 个 早期 建议 (Wisconsin 基准 程序 ) 由 Bitton 等 [1983 ] 提出 。TPC-A 、TPC-B 和 
TPC-C 基准 程序 在 Gray[ 1991 | 里 介绍 。 所 有 TPC 基准 程序 描述 以 及 基准 程序 结果 的 联机 版 本 可 以 在 URL 为 
www. tpe. org 的 万 维 网 上 获得 ; 该 站 点 还 包含 有 关 新 基准 程序 建议 的 最 新 信息 。00DB 的 001 基准 程序 在 
Cattell 和 Skeen[ 1992 ] 中 描述 ; 007 基准 程序 在 Carey 等 [1993 ] 中 描述 。 

Shasha 和 Bonnet[ 2002] 提 供 了 数据 库 调整 方面 的 详细 报告 。0’Neil 和 O’Neil[ 2000] 是 一 本 很 好 地 描述 了 
性 能 度量 和 调整 的 教科 书 。Gray 和 Graefe[ 1997 ] 描述 了 5 分 钟 规则 和 1 分 钟 规则 ，Graefe[ 2008 ] 最 近 扩 充 到 
考虑 了 主 存 、 闪 存 和 磁盘 的 组 合 。 

Ross 等 [1996 ] 、Chaudhuri 和 Narasayya[ 1997 ] 、Agrawal 等 [2000 ] 和 Mistry 等 [2001 | 中 讨论 了 索引 选择 
和 物化 视图 选择 。Zilio 等 [2004 ] Dageville 等 [2004] 和 Agrawal 等 [2004] 中 描述 了 IBM DB2 Oracle 和 
Microsoft SQL Server 支持 的 调整 功能 。 

有 关 ODBC, OLE-DB, ADO i] ADO. NET 的 信息 可 以 在 Web 站 点 www. microsoft. com/data 中 找到 ， 并 且 
有 关 该 主题 的 许多 书籍 可 以 通过 www. amazon. com 找到 。 每 季 发 行 的 ACM Sigmod Record 中 有 一 个 常规 章节 
用 于 讲述 数据 库 中 的 标准 。 

基于 XML 的 标准 和 工具 的 大 量 信息 可 以 在 Web 站 点 www. w3c. org 在 线 找到 。 有 关 RosettaNet 的 信息 可 
以 在 Web 站 点 www. rosettanet org 找到 。 

Cook[ 1996 ] 讲述 了 商务 处 理 的 工程 再 设计 。Umar[ 1997 | 讲述 了 工程 再 设计 和 遗产 系统 处 理 中 的 问题 。 
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在 数据 库 的 大 部 分 历史 中 ， 存 储 在 数据 库 中 的 数据 类 型 相对 简单 ， 这 可 以 从 SQL 的 早期 版 本 只 支 
持 非常 有 限 的 数据 类 型 上 反映 出 来 。 但 是 ， 随 着 时 间 的 流逝 ， 在 数据 库 中 处 理 诸如 时 态 数据 、 空 间 数 
据 和 多 媒体 数据 那样 的 复杂 数据 类 型 的 需求 不 断 增 涨 。 

另 一 个 主要 趋势 造就 了 其 自身 的 一 些 问 题 : 移动 计算 机 的 发 展 ， 从 膝 上 型 计算 机 和 袖珍 管理 器 开 
始 ， 最 近 几 年 发 展 成 为 带 有 内 置 计算 机 的 移动 电话 ， 以 及 在 商业 应 用 中 越 来 越 多 地 使 用 的 各 种 可 佩戴 
计算 机 。 

在 本 章 中 ， 我 们 学 习 几 种 数据 类 型 ， 以 及 与 这 些 应 用 相关 的 另外 一 些 数据 库 问 题 。 


25.1 动机 


在 详细 阐述 每 个 主题 之 前 ， 我 们 总 结 一 下 各 种 数据 类 型 的 动机 ， 以 及 在 处 理 它们 时 的 一 些 重要 
问题 。 

© 时 态 数据 (temporal data) 。 大 多 数 数据 库 系统 对 世界 的 当前 状态 建 模 ， 比 如 当前 的 客户 、 当 前 
的 学 生 和 当前 提供 的 课程 。 在 许多 应 用 中 ， 存 储 和 检索 有 关 过 去 状态 的 信息 非常 重要 。 历 史 信 
息 可 以 手工 加 入 到 模式 设计 中 。 但是， 这 项 工作 可 以 通过 数据 库 对 时 态 数 据 的 支持 而 大 大 简 
dk, RITHE 25. 2 节 学 习 时 态 数 据 。 

© 空间 数据 (spatial data) 。 空 间 数 据 包 括 地 理 数据 ( geographic data) ， 如 地 图 和 相关 信息 ， 以 及 计 
算 机 辅助 设计 数据 (computer-aided-design data) ， 如 集成 电路 设计 或 者 建筑 设计 。 空 间 数据 应 用 
最 初 将 数据 作为 文件 保存 到 文件 系统 中 ,这 和 早期 的 商务 应 用 相同 。 但 是 随 着 数据 复杂 度 和 数 
据 量 ， 以 及 用 户 数量 的 增加 ， 在 文件 系统 中 存储 和 检索 数据 的 即席 方式 已 被 证 明 不 能 满足 许多 
使 用 空间 数据 应 用 的 需求 。 

空间 数据 应 用 需要 数据 库 系统 提供 的 功能 一 一 尤其 是 有 效 存 储 和 查询 大 量 数据 的 能 力 。 一 

些 应 用 可 能 还 需要 其 他 的 数据 库 特 性 ， 如 对 被 存储 数据 的 某 个 部 分 进行 原子 更 新 、 持 久 性 以 及 
并 发 控制 。 在 25. 3 节 中 ， 我 们 学 习 为 支持 空间 数据 而 需要 对 传统 数据 库 进 行 的 扩展 。 

© 多 媒体 数据 (multimedia data) 。 在 25. 4 节 中 ， 我 们 学 习 存储 诸如 图 像 、 视 频 和 音频 数据 这 样 的 
多 媒体 数据 的 数据 库 系统 所 需要 的 特性 。 视 频 和 音频 数据 的 显著 特性 是 显示 这 些 数据 要 求 数据 
检索 具有 稳定 的 、 可 预先 确定 的 速率 ; 因此 ， 这 样 的 数据 称 作 连续 媒体 数据 ( continuous-media 
data) 。 

© 移动 数据 库 ( mobile database) 。 在 25. 5 节 中 ， 我 们 学 习 移 动 计算 系统 对 数据 库 的 要 求 ， 移 动 计 
算 系 统 包 括 膝 上 型 计算 机 、 上 网 本 电脑 和 高 端 手机 等 ， 它 们 通过 无 线 数字 通信 网 络 连 接 到 基 
站 。 这 种 计算 机 与 第 19 章 讨论 的 分 布 式 数 据 库 系统 不 同 ， 在 和 网 络 断 开 连 接 的 时 候 仍 需要 能 
够 运行 。 它 们 也 只 具备 有 限 的 存储 能 力 ， 这 就 需要 特殊 的 内 存 管理 技术 . 


25.2 数据 库 中 的 时 间 


数据 库 对 其 外 部 真实 世界 的 某 些 方面 的 状态 进行 建 模 。 一 般 而 言 ， 数 据 库 只 对 真实 世界 的 一 个 状 
态 一 一 当前 状态 建 模 ， 不 会 保存 有 关 过 去 状态 的 信息 ， 除 非 可 能 用 作 审 计 跟 踪 。 当 真实 世界 的 状态 改 
变 了 ,数据 库 被 更 新 ， 有 关 过 去 状态 的 信息 就 丢失 了 。 但 是 ， 在 许多 应 用 中 ， 存 储 和 检索 过 去 状态 的 
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信息 非常 重要 。 例 如 ， 病 人 数据 库 必须 保存 关于 病人 医疗 历史 的 信息 。 工 厂 监控 系统 可 能 保存 关于 工 
厂 中 传感器 当前 和 过 去 的 读 入 的 信息 以 用 于 分 析 。 存 储 关 于 真实 世界 的 时 间 经 历 状态 的 信息 的 数据 库 
叫做 时 态 数据 库 (temporal database ) 。 

在 考虑 数据 库 系 统 中 的 时 间 问 题 时 ， 我 们 必须 区 分 出 系统 中 测量 的 时 间 和 真实 世界 中 观察 到 的 时 
间 。 一 个 事实 的 有 效 时 间 ( valid time) 是 一 个 时 间 段 的 集合 ， 在 这 些 时 间 段 内 该 事实 在 现实 世界 中 为 真 。 
一 个 事实 的 事务 时 间 (transaction time) 是 该 事实 当前 处 于 数据 库 系统 中 的 时 间 段 。 后 一 种 时 间 基 于 事务 
串 行 化 顺序 并 由 系统 自动 产生 。 注 意 有 效 时 间 段 是 一 个 真实 世界 中 的 概念 ， 它 不 能 自动 产生 且 必 须 提 
供给 系统 。 

时 态 关 系 (temporal relation) 的 每 个 元 组 具有 一 个 该 元 组 为 真 时 的 相关 时 间 ， 这 个 时 间 可 以 是 有 效 
时 间或 事务 时 间 。 当 然 ， 可 以 同时 存储 有 效 时 间 和 事务 时 间 ， 这 种 情况 下 的 关系 称 为 双 时 态 关 系 
(bitemporal relation) 。 图 25-1 显示 了 一 个 时 态 关 系 的 例子 。 为 了 简化 表示 ， 每 个 元 组 只 有 一 个 与 之 相 
关联 的 时 间 段 ， 因 此 ， 对 应 于 每 个 元 组 为 真 的 互 不 相交 的 各 个 时 间 段 ， 只 存在 元 组 的 一 次 表示 。 这 里 
的 时 间 段 是 用 一 对 .Fom 和 to 属性 来 表示 的 ， 实 际 实 现时 可 能 会 有 一 个 包含 这 两 个 字段 的 结构 类 型 ， 也 
许 叫 做 Interval。 注 意 有 些 元 组 在 to 时 间 列 上 出 现 ” * ”， 这 些 星 号 表明 元 组 在 to 时 间 列 的 值 发 生 改 变 之 
前 一 直 为 真 。 因 此 ， 这 些 元 组 当前 为 真 。 尽 管 时 间 以 文本 形式 给 出 ， 但 是 在 内 部 存储 时 可 以 采取 更 紧 
凑 的 形式 ， 例 如 可 以 存储 从 某 个 固定 日 期 的 某 一 固定 时 刻 (比如 1900 年 1 月 1 日 12:00) 起 所 经 过 的 秒 
数 ， 而 秒 数 可 以 转换 回 通 常 的 文本 形式 。 
ID | name | dept_name 


| 10101 | Srinivasan| Comp. Sci. | 61000 | 2007/1/1 ae 











10101 | Srinivasan | Comp. Sci. | 65000 | 2008/1/1 | 2008/12/31 








| 12121 | Wu Finance | 82000 | 2005/1/1 | 2006/12/31 | 

| 12121 | Wu Finance | 87000 | 2007/1/1 | 2007/12/31 
12121 | Wu Finance 90000 | 2008/1/1 | 2008/12/31 
98345 | Kim Elec. Eng. | 80000 | 2005/1/1 | 2008/12/31 








图 25-1 一 个 时 态 关系 instructor 


25.2.1 SQL 中 的 时 间 规 范 

如 我 们 在 第 4 章 所 见 ，SQL 标准 定义 了 date, time 和 timestamp 类 型 。date 类 型 包含 表示 年 的 四 
位 数字 (1 ~ 9999) 、 表 示 月 的 两 位 数字 (1 ~ 12) 和 表示 日 的 两 位 数字 (1 ~31) 。time 类 型 包含 表示 小 
时 的 两 位 数字 表示 分 钟 的 两 位 数字 、 表 示 秘 的 两 位 数字 以 及 可 选 的 小 数位 。 秒 字段 可 以 超过 60， 以 允 
许 润 秒 的 情况 。 由 于 地 球 旋转 速度 存在 微小 变化 ， 在 有 些 年 里 需要 增加 泣 秒 来 进行 校准 。timestamp 
类 型 包含 date 和 time 字段 ， 其 中 秒 字段 上 有 六 位 小 数 。 

因为 世界 上 的 不 同 地 区 有 不 同 的 本 地 时 间 ， 经 常 需 要 指出 时 间 所 在 的 时 区 。 全 球 协 调 时 间 
(Universal Coordinated Time，UTC ) 是 指定 时 间 的 标准 参考 点 ， 而 本 地 时 间 被 定义 成 UTC 的 偏 移 。( 这 
个 标准 的 简写 是 UTC ， 而 不 是 UCT， 因 为 “Universal Coordinated Time "在 法 语 中 被 写作 “unipersel temps 
coordonné”， 而 它 是 法 语 的 简写 ,)SQL 还 支持 time with time zone 和 timestamp with time zone 两 种 类 
型 ， 它 们 用 本 地 时 间 加 上 本 地 时 间 对 UTC 的 偏 移 来 指定 时 间 。 例 如 ， 我 们 可 以 用 美国 东部 标准 时 间 和 
偏 移 -6: 00 来 表示 时 间 ， 因 为 美国 东部 标准 时 间 比 UTC 晚 六 个 小 时 。 

SQL 支持 一 种 叫做 interval 的 类 型 ， 它 使 我 们 可 以 表示 像 “ 一 天 "或 者 "两 天 零 五 个 小 时 "这样 的 一 
段 时 间 ， 而 无 需 指出 这 段 时 间 何 时 开始 。 这 个 概念 和 以 前 我 们 用 到 的 时 间 段 概念 不 同 ， 前 面 提 到 的 时 
间 段 是 指 有 指定 开始 和 结束 时 间 的 一 段 时 间 。” 

25.2.2 ”时 态 查询 语言 
没有 时 态 信 息 的 数据 库 关系 有 时 叫做 快照 关系 (snapshot relation) ， 因 为 它 反映 了 现实 世界 的 一 个 





O ”许多 时 态 数 据 库 研 究 者 认为 ， 这 种 类 型 应 该 称 为 跨度 ( span) ， 因 为 它 并 不 指明 确切 的 开始 或 结束 时 间 ， 只 是 两 
者 之 间 的 一 个 时 间 跨 度 。 
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快照 中 的 状态 。 因 此 ， 时 态 关 系 在 时 间 点 上 的 快照 是 关系 中 在 上 时刻 为 真 的 元 组 通过 投影 去 除 时 间 段 属 
性 后 的 集合 。 时 态 关 系 上 的 快照 操作 产生 该 关系 在 指定 时 刻 ( 或 者 在 不 指定 时 刻 的 情况 下 就 指 当 前 时 
刻 ) 的 快照 。 

时 态 选 择 (temporal selection ) 是 涉及 时 间 属 性 的 选择 ， 时 态 投影 (temporal projection ) 是 一 种 投影 ， 
其 中 的 元 组 继承 了 原始 关系 中 相应 元 组 的 时 间 。 时 态 连 接 (temporal join) 是 一 种 连接 ， 连 接 结果 中 元 组 
的 时 间 是 产生 该 元 组 的 两 个 元 组 的 时 间 的 交 。 如 果 时 间 不 相交 ， 则 从 结果 中 去 除 该 元 组 。 

谓词 precedes, overlaps 和 contains 可 以 用 在 时 间 段 上 ， 它 们 的 含义 应 该 很 明显 。intersect 运算 可 以 用 
在 两 个 时 间 段 上 ， 得 到 单个 (可 能 为 空 ) 的 时 间 段 。 然 而 ， 两 个 时 间 段 的 并 可 能 是 单个 时 间 段 ， 也 可 能 
不 是 。 

如 我 们 在 8. 9 节 所 见 ， 在 时 态 关 系 中 使 用 函数 依赖 必须 小 心 。 尽 管 任 一 给 定时 刻 教师 号 可 以 函数 
决定 其 工资 , 但 显然 工资 可 能 随时 间 发 生变 化 。 如 果 对 模式 R 的 所 有 合法 实例 r 而 言 ,r 的 所 有 快照 都 
满足 函数 依赖 一 了 ， 则 说 时 态 函 数 依赖 (temporal functional dependency) X > Y XR R E. 

人 们 已 经 提出 了 一 些 扩展 SQL 以 增强 其 对 时 态 数 据 支 持 的 建议 。 但 至 少 到 SQL: 2008 为 止 ， 除 与 
时 间 相 关 的 数据 类 型 和 操作 以 外 ，SQL 还 没有 提供 任何 对 时 态 数据 的 特殊 支持 。 


2.3 空间 与 地 理 数 据 


数据 库 支 持 空间 数据 对 于 有 效 存储 、 索 引 以 及 查询 基于 空间 位 置 的 数据 非常 重要 。 例 如 ， 假 设 我 
们 希望 在 数据 库 中 存储 一 组 多 边 形 ， 然 后 查询 该 数据 库 以 找 出 与 给 定 多 边 形 相交 的 所 有 多 边 形 。 我 们 
不 能 使 用 标准 的 索引 结构 (如 B 树 或 散 列 索引 ) 来 有 效 地 回答 这 样 的 查询 。 有 效 处 理 上 述 查询 需要 专用 
的 索引 结构 如 R 树 (我 们 将 在 后 面 学 习 ) 来 执行 这 个 任务 。 
有 两 种 类 型 的 空间 数据 特别 重要 : 
© 计算 机 辅助 设计 (Computer-Aided-Design，CAD) 数据 ， 它 包括 关于 物体 (如 建筑 、 汽 车 或 飞机 ) 
是 如 何 构造 的 空间 信息 。 另 外 的 有 关 计 算 机 辅助 设计 数据 库 的 重要 例子 是 集成 电路 和 电子 设备 
规划 。 
© 地 理 数据 ( geographic data), ， 例 如 道路 图 、 土 地 利用 图 、 地 形 海拔 图 、 显 示 边 界 的 政治 用 地 图 、 
土地 所 有 权 地 图 等 。 地 理 信 息 系 统 ( geographic information system ) 是 为 存储 地 理 数 据 而 定制 的 专 
用 数据 库 。 
许多 数据 库 系 统 都 增加 了 对 地 理 数 据 的 支持 ， 如 IBM DB2 Spatial Extender, Informix Spatial 
Datablade 和 Oracle Spatial, 


25.3.1 几何 信息 表示 

图 25-2 说 明了 各 种 几何 结构 如 何以 规范 化 的 形式 在 数据 库 中 表示 。 我 们 这 里 要 强调 的 是 ， 几 何 信 
息 的 表示 可 以 用 多 种 不 同方 式 ， 我 们 只 描述 了 其 中 的 几 种 。 

线段 可 以 由 其 端点 的 坐标 表示 。 比 如 ， 在 一 个 地 图 数据 库 中 ， 一 个 点 的 两 个 坐标 可 以 是 它 的 纬度 
和 经 度 。 折 线 ( polyline) (也 叫 线 串 (linestring) ) 由 相连 的 线段 序列 组 成 ， 可 以 由 一 个 包含 线段 端点 坐标 
的 顺序 列表 来 表示 。 对 于 任意 曲线 ， 我 们 可 以 将 它 划 分 成 一 个 线段 序列 ， 从 而 用 折线 来 近似 地 表示 。 
这 种 表示 对 二 维特 征 ( 如 道路 ) 是 有 用 的 ; 这 里 ， 道 路 的 宽度 相对 于 整 张 地 图 的 大 小 来 说 是 足够 小 的 ， 
可 以 将 其 认为 是 一 条 线 。 有 些 系 统 还 将 圆 约 作 为 原 语 ， 允 许 将 曲线 表示 为 圆 弧 序列 。 

我 们 可 以 通过 按 顺序 列 出 多 边 形 的 顶点 来 表示 多 边 形 ， 如 图 25-2 所 示 。” 顶点 的 列表 指出 了 多 边 
形 区 域 的 边界 。 在 另 一 种 表示 方式 中 ， 多 边 形 可 以 分 割 成 一 组 三 角形 ， 如 图 25-2 所 示 。 该 过 程 称 为 三 
FARIS} (triangulation) ， 任 意 多 边 形 都 可 以 被 三 角 剖 分。 复杂 多 边 形 被 赋予 一 个 标识 ， 它 所 分 割 出 来 的 
每 个 三 角形 都 具有 该 多 边 形 的 标识 。 圆 和 椭圆 可 以 由 相应 类 型 来 表示 ， 也 可 以 用 多 边 形 来 近似 表示 。 

基于 列表 的 折线 或 多 边 形 表示 对 于 查询 处 理 往往 很 方便 。 当 底层 数据 库 支 持 时 ， 这 种 非 一 范式 表 





加 “一些 参考 文献 里 使 用 闭合 多 边 形 这 个 术语 来 表示 我 们 所 说 的 多 边 形 ， 并 称 折线 为 开放 多 边 形 。 
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示 也 可 以 使 用 。 因 此 我 们 可 以 使 用 固定 大 小 的 元 组 (以 第 一 范式 形式 ) 表示 折线 ,我 们 可 以 赋予 折 线 或 
曲线 一 个 标识 ， 每 条 线段 用 一 个 单独 的 元 组 表示 ， 该 元 组 也 带 有 相应 多 边 形 或 曲线 的 标识 。 类 似 的 ， 
多 边 形 的 三 角 剖 分 表示 允许 用 第 一 范式 关系 来 表示 多 边 形 。 


{(xLy1), (x2,y2)} 


三 角形 LN {(x1,y1), (x2,y2), (x3,y3)} 
2 
3 
多 边 形 1 {(x1,y1), (x2,y2), (x3,y3), (x4,y4), (x5,y5)} 
2 
3 {(xL yl), (x2,y2), (x3,y3), ID1} 
多 边 形 1 {(x1,y1), (x3,y3), (x4,y4), ID1} 
{(x1,y1), (x4,y4), (x5,y5), ID1} 


对 象 表示 
图 25-2 几何 结构 的 表示 


三 维 空间 中 点 与 线段 的 表示 类 似 于 其 在 二 维 空间 中 的 表示 ， 唯 一 的 区 别 是 点 多 了 额外 的 z 坐标 。 
类 似 地 ， 从 二 维 到 三 维 ， 平 面 图 形 (如 三 角形 、 和 矩形 及 其 他 多 边 形 ) 的 表示 没有 太 大 变化 。 四 面体 和 立 
方 体 可 以 用 类 似 于 三 角形 和 和 矩形 的 方法 来 表示 。 我 们 可 以 通过 将 多 面体 分 割 成 若干 四 面体 来 表示 任意 
多 面体 ， 就 像 我 们 对 多 边 形 的 三 角 剖 分 。 我 们 也 可 以 通过 列 出 多 面体 所 有 的 面 来 表示 多 面体 ， 每 个 面 
本 身 是 一 个 多 边 形 ， 使 用 这 种 表示 还 需要 指出 该 面 的 哪 一 侧 是 多 面体 的 内 侧 。 
25.3.2 ”设计 数据 库 

传统 上 ， 计 算 机 辅助 设计 ( Computer-Aided-Design，CAD) 系统 在 编辑 或 做 其 他 处 理 时 将 数据 存储 在 
内 存 中 ， 并 且 在 一 次 编辑 结束 时 将 数据 写 回 文件 。 这 种 方式 的 缺点 包括 将 数据 由 一 种 形式 转化 为 另 一 
种 形式 的 开销 (编程 的 复杂 性 和 时 间 开 销 ) ， 以 及 即使 只 需要 其 中 一 部 分 也 必须 读 人 整个 文件 。 对 于 大 
型 设计 ， 如 大 规模 集成 电路 设计 或 整 架 飞机 设计 ， 可 能 不 能 将 整个 设计 全 放 到 内 存 中 。 面 向 对 象 数据 
库 设计 者 很 大 程度 上 受 CAD 系统 对 数据 库 需 求 的 驱动 。 面 向 对 象 数据 库 将 设计 中 的 组 件 表示 成 对 象 ，[1065| 
并 且 对 象 间 的 连接 表明 了 设计 的 构造 方式 。 网 

设计 数据 库 中 存储 的 对 象 通常 是 几何 对 象 。 简 单 的 二 维 几何 对 象 包 括 点 、 线 、 三 角形 、 矩 形 和 更 
为 一 般 化 的 多 边 形 。 复 杂 的 二 维 对 象 可 以 通过 简单 对 象 的 并 、 交 、 差 运算 得 到 。 类 似 地 ， 复 杂 的 三 
对 象 可 以 用 更 简单 的 对 象 ( 如 球体 、 圆 柱 体 和 立方 体 ) 的 并 、 交 、 差 运算 得 到 ， 如 图 25-3 所 示 。 三 维 表 
面 也 可 以 用 线 框 模型 ( wireframe model) 表示 ， 其 本 质 是 将 表面 建 模 成 一 组 更 简单 的 对 象 ， 如 线段 、 三 角 
形 和 矩形 。 

设计 数据 库 也 存储 有 关 对 象 的 非 空 间 信息 ， 如 构造 对 象 的 材料 。 我 们 通常 可 以 用 标准 数据 建 模 技 
术 来 对 这 些 信息 建 模 。 这 里 我 们 只 关心 空间 方面 。 

设计 中 必须 执行 多 种 空间 运算 。 例 如 ， 设 计 者 可 能 想 要 检索 对 应 于 某 个 特定 感 兴趣 区 域 的 设计 部 
分 。25. 3. 5 节 讨 论 的 空间 索引 结构 对 这 类 任务 是 有 用 的 。 空 间 索 引 结构 是 多 维 的 ， 处 理 的 是 二 维 或 三 
维 数据 ， 而 不 仅仅 是 B* 树 提供 的 那 种 简单 的 一 维 排序 。 
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a) 圆柱 体 的 差 b ) 圆柱 体 的 并 


图 25-3 复杂 三 维 对 象 


空间 完整 性 约束 ， 如 “两 根 水 管 不 应 在 同一 位 置 "， 对 于 在 设计 数据 库 中 防止 接口 错误 是 很 重要 
的 。 如 果 设 计 是 手工 做 的 ， 这 种 错误 就 经 常 发 生 ， 并 且 只 有 当 原 型 构建 出 来 时 才 会 被 检测 出 来 。 因 此 ， 
这 些 错误 修改 起 来 代价 很 高 。 数 据 库 对 空间 完整 性 约束 的 支持 可 以 帮助 人 们 避免 设计 错误 ， 从 而 保证 
设计 的 一 致 性 。 这 种 完整 性 检查 的 实现 也 要 依赖 于 有 效 多 维 索 引 结 构 的 可 用 性 . 
25.3.3 地理 数据 

地 理 数据 本 质 上 是 空间 数据 ， 但 与 设计 数据 相 比 有 几 个 方面 的 不 同 。 地 图 和 卫星 图 像 是 地 理 数 据 
的 典型 例子 。 地 图 不 仅 可 以 提供 位 置信 息 ， 如 关于 边界 、 河 流 和 道路 的 信息 ， 而 且 还 提供 更 多 的 与 位 
置 相 关 的 详细 信息 ， 如 海拔 、 土 壤 类 型 、 土 地 使 用 和 年 降雨 量 。 

25.3.3.1 地 理 数据 的 应 用 

地 理 数 据 库 有 多 种 用 途 ， 包 括 联 机 地 图 服务 、 交 通 导航 系统 、 公 共 服 务 设施 的 分 布 网 络 信息 ( 如 电 
话 、 电 力 和 供水 系统 ) 以 及 为 生态 学 家 和 规划 者 提供 的 土地 使 用 信息 。 

基于 Web 的 道路 地 图 服务 成 为 使 用 非常 广泛 的 地 图 数据 应 用 。 在 最 简单 的 情况 下 ， 这 些 系 统 可 用 
于 生成 所 需 区 域 的 联机 道路 地 图 。 联 机 地 图 的 一 个 重要 好 处 在 于 它 可 以 容易 地 缩放 至 所 需 大 小 ， 也 就 
是 为 定位 相关 特征 而 进行 的 放大 或 缩小 。 道 路 地 图 服务 还 存储 关于 道路 和 服务 的 信息 ， 如 道路 布局 、 
道路 上 的 速度 限制 、 道 路 状况 、 道 路 间 的 连接 以 及 单行 限制 。 有 了 这 些 有 关 道 路 的 附加 信息 ， 地 图 就 
可 以 用 来 获得 从 一 个 地 方 到 另 一 个 地 方 的 指向 ， 并 用 于 自动 旅行 规划 。 用 户 可 以 查询 有 关 服 务 的 联机 
信息 来 定位 诸如 能 够 提供 所 需 服务 和 一 定价 格 范围 内 的 旅馆 、 加 油 站 或 餐馆 。 近 年 来 ， 一 些 基于 Web 
的 地 图 服务 定义 了 API， 人 允许 程序 员 创 建 定制 的 地 图 ， 它 包括 来 自 该 地 图 服务 以 及 其 他 来 源 的 数据 。 
这 种 定制 的 地 图 可 用 来 显示 诸如 特定 区 域内 的 待 售 或 待 租 的 房子 ， 或 者 商店 和 餐馆。 

交通 导航 系统 是 安装 在 车 辆 上 的 提供 道路 地 图 和 旅行 规划 服务 的 系统 。 它 们 包括 一 个 全 球 定位 系 
统 ( Global Positioning System, GPS) 部 件 ， 它 使 用 CPS 卫星 广播 的 信息 ， 以 几 十 米 的 精度 确定 当前 位 置 。 
拥有 这 样 的 系统 ， 司 机 永远 也 不 会 迷路 ，GPS 部 件 用 纬度 、 经 度 和 海拔 的 形式 来 确定 位 置 ， 导 航 系 
统 可 以 查询 地 理 数 据 库 以 找 出 车 辆 当前 的 位 置 和 所 位 于 的 道路 。 

用 于 公共 设施 信息 的 地 理 数 据 库 随 着 地 下 电缆 和 管道 网 络 的 增长 变 得 非常 重要 。 如 果 没 有 详细 地 


1067] 图 ， 一 种 设施 的 工程 可 能 毁坏 另 一 种 设施 的 电费， 导致 大 范围 的 服务 中 断 。 地 理 数据 库 加 上 精确 定位 
1058| 系统 有 助 于 避免 这 类 问题 。 


25.3.3.2 地理 数据 的 表示 

地 理 数 据 ( geographic data) 可 以 分 为 两 类 : 

© 光栅 数据 (raster data) 。 这 种 数据 由 二 维 或 更 高 维 的 位 图 或 像素 图 组 成 。 二 维 光栅 图 像 的 典型 例 
子 是 地 区 的 卫星 图 像 。 除 实际 图 像 之 外 ， 数 据 还 包括 图 像 的 位 置 ( 例 如 由 它 的 角 的 纬度 和 经 度 
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指定 ) 和 分 辩 率 (由 总 像素 数 ， 或 者 在 地 理 数据 环境 中 更 为 普遍 的 每 像素 覆盖 面积 所 指定 ) 。 

光栅 数据 通常 用 栅 格 (tile) 表示 ， 每 个 栅 格 覆盖 固定 大 小 的 区 域 。 可 以 通过 显示 与 区 域 重 
释 的 所 有 栅 格 来 显示 更 大 的 区 域 。 为 了 人 允许 在 不 同 的 缩放 级 别 显示 数据 ， 就 为 每 个 缩放 级 别 创 
建 一 个 单独 的 栅 格 集 。 一 旦 通过 用 户 界 面 (例如 Web 浏览 器 ) 设置 了 缩放 级 别 ， 与 待 显 示 区 域 
重 每 的 该 缩放 级 别 的 栅 格 就 被 检索 和 显示 出 来 。 

光栅 数据 可 以 是 三 维 的 ， 例 如 ， 同 样 在 卫星 帮助 下 测 得 的 不 同 地 区 在 不 同 高 度 上 的 温度 。 
时 间 可 以 形成 另 一 个 维度 ， 例 如 ， 不 同时 间 上 不 同 点 的 表面 温度 度量 。 

© 矢量 数据 (vector data) 。 矢 量 数据 由 基本 几何 对 象 构成 ， 如 点 、 线 段 、 折 线 、 三 角形 和 其 他 二 

维 多 边 形 ， 以 及 圆柱 体 、 球 体 、 立 方 体 和 其 他 三 维 多 面 体 。 在 地 理 数 据 环 境 中 ， 点 通常 用 纬度 
和 经 度 表 示 ， 此 外 在 与 高 度 相 关 的 地 方 还 用 海拔 表示 。 

地 图 数据 常 以 矢量 形式 表示 。 道 路 常 被 表示 成 折线 。 地 理 特征 ( 如 大 型 湖泊 ) ， 或 者 甚至 是 
政治 特征 (如 州 和 国家 ) ， 可 以 表示 成 复杂 多 边 形 。 某 些 特征 (如 河流 ) 可 以 表示 成 复杂 曲线 或 
复杂 多 边 形 ， 这 取决 于 其 宽度 是 否 相 关 。 

关于 地 区 的 地 理 信 息 ( 如 年 降雨 量 ) 可 以 表示 成 一 个 数组 ， 也 就 是 以 光栅 的 形式 。 为 提高 空间 效 
率 ， 该 数组 可 以 用 压缩 形式 存储 。 在 25. 3. 5. 2 节 中 ， 我 们 研究 这 种 数组 的 另 一 种 表示 ， 它 使 用 称 为 四 
又 树 的 数据 结构 。 

作为 另 一 种 选择 ， 我 们 可 以 以 矢量 形式 用 多 边 形 来 表示 区 域 信息 ， 其 中 每 个 多 边 形 代 表 一 个 区 域 ， 
该 区 域内 部 的 数组 值 是 相同 的 。 在 某 些 应 用 中 矢量 表示 比 光 栅 表 示 更 简洁 。 而 且 对 于 某 些 任 务 它 也 更 
为 精确 ， 如 在 表示 道路 时 ， 将 区 域 划分 成 像素 (可 能 相当 大 ) 会 导致 位 置信 息 精 确 度 的 损失 。 但 是 ， 矢 
量 表示 不 适合 于 数据 本 质 上 就 是 基于 光栅 的 应 用 ， 如 卫星 图 像 。 

地 形 (topographical ) 信息 ， 即 有 关 表 面 上 每 个 点 的 海拔 (高 度 ) 的 信息 ， 可 以 用 光栅 形式 表示 。 另 外 
还 可 以 通过 将 表面 划分 成 覆盖 (近似 ) 等 高 区 域 的 多 边 形 ， 而 以 向 量 形式 来 表示 ， 其 中 每 个 多 边 形 关联 
单个 的 高 度 值 。 作 为 另 一 种 选择 ， 可 以 对 表面 进行 三 角 剖 分 (triangulated) ( 即 划 分 成 三 角形 ) ， 每 个 三 
角形 用 它 的 每 个 角 的 纬度 、 经 度 和 海拔 表示 。 后 一 种 表示 称 为 三 角 齐 分 的 不 规则 网 络 Triangulated 
Irregular Network, TIN) 表示 ， 这 种 简洁 表示 对 于 产生 一 个 区 域 的 三 维 视图 尤其 有 用 。 

地 理 信息 系统 通常 包含 光栅 和 矢量 两 种 数据 ， 当 给 用 户 显示 结果 时 可 以 合并 这 两 种 类 型 的 数据 。 
例如 ， 地 图 应 用 通常 包含 了 关于 道路 、 建 筑 和 其 他 陆 标的 卫星 图 像 和 矢量 数据 。 地 图 显示 通常 重奏 
(overlay) 各 种 不 同 的 信息 ; 例如 ， 道 路 信息 可 以 重奏 在 卫星 图 像 背景 上 ， 构 成 一 个 混合 显示 。 事 实 上 ， 
地 图 通常 由 多 个 层 组 成 ， 这 些 层 以 自 底 向 上 的 顺序 显示 ; 来 自 较 高 层 的 数据 出 现在 较 低层 的 数据 之 上 。 

另外 有 趣 的 是 ， 注 意 即使 实际 上 以 矢量 形式 存储 的 信息 在 发 送 给 用 户 界面 (如 Web 浏览 器 ) 前 也 可 
以 转换 为 光栅 形式 。 一 个 原因 是 ， 即 使 网 页 浏览 器 不 支持 脚本 语言 (解释 和 显示 矢量 数据 所 需 的 ) 也 仍 
可 以 显示 地 图 数据 ; 第 二 个 原因 可 能 是 防止 终端 用 户 提 取 和 使 用 矢量 数据 。 

地 图 服务 (如 Google Maps 和 Yahoo! Maps) 提供 了 API， 人 允许 用 户 创 建 专用 的 地 图 显示 ， 包 括 重奏 
在 标准 地 图 数据 上 的 专用 数据 的 应 用 。 例 如 ， 一 个 网 站 可 能 显示 一 个 区 域 的 地 图 ， 将 有 关 和 餐馆 的 信息 
重 每 在 地 图 上 。 可 以 动态 地 构造 这 种 重 肆 ， 例 如 ， 只 显示 具有 特定 风格 的 餐馆 ， 或 者 允许 用 户 更改 缩 
放 级 别 或 平移 显示 。 用 于 特定 语言 (典型 的 是 JavaScript 或 Flash ) 的 地 图 API 是 构建 在 提供 底层 地 图 数 
据 的 Web 服务 上 的 。 

25.3.4 空间 查询 

有 许多 类 型 的 查询 都 涉及 空间 位 置 。 

© 临近 查询 (nearness query) 要 求 找 出 位 于 特定 位 置 附近 的 对 象 。 找 出 位 于 给 定位 置 的 给 定 距离 内 
的 所 有 和 餐馆 的 查询 就 是 临近 查询 的 一 个 例子 。 最 近邻 居 查 询 ( nearest-neighbor query ) 要 求 找 出 离 
特定 点 最 近 的 对 象 。 例 如 ， 我 们 可 能 想 要 找 出 最 近 的 加 油 站 。 注 意 这 个 查询 不 必 指 定 距离 的 范 
围 ， 因 此 即使 不 知道 最 近 的 加 油 站 有 多 远 ， 也 可 以 提出 这 个 查询 。 

© 区 域 查询 (region query) 处 理 的 是 空间 区 域 。 这 种 查询 可 以 找 出 部 分 或 全 部 位 于 指定 区 域内 的 对 
象 。 找 出 给 定 城镇 的 地 理 边界 内 的 所 有 零售 店 的 查询 就 是 一 个 例子 。 





1070 


604 第 八 部 分 高 级 主题 


。 查询 也 可 能 要 求 区 域 的 交 和 并 。 例 如 ， 给 出 区 域 信息 ， 如 年 降雨 量 和 人 口 密度 ,查询 可 能 要 求 
找 出 年 降雨 量 低 并 且 人 口 密度 高 的 所 有 区 域 。 

计算 区 域 的 交 的 查询 可 以 看 作 是 计算 两 个 空间 关系 的 空间 连接 ( spatial join) 。 举 例 来 说 ,一 个 关系 代 
表 降雨 量 ， 另 一 个 代表 人 口 密度 ， 而 位 置 则 扮演 连接 属性 的 角色 。 一般 地 ， 给 定 两 个 关系 ， 其 中 每 个 关 
系 都 包含 空间 对 象 ， 则 两 个 关系 的 空间 连接 要 么 生成 若干 对 相交 的 对 象 ， 要么 生成 这 些 对 象 的 相交 区 域 

对 矢量 数据 有 效 计算 空间 连接 的 连接 算法 有 几 种 。 尽 管 可 以 采用 骨 套 循环 连接 和 索引 嵌 套 循环 连 
接 ( 使 用 空间 索引 ) ， 但 对 空间 数据 不 能 使 用 散 列 连接 和 排序 归并 连接 。 研 究 人 员 已 经 提出 了 一 些 基于 
两 个 关系 上 空间 索引 结构 的 坐标 遍历 的 连接 技术 。 更 多 信息 请 参见 文献 注解 。 

一 般 地 ， 空 间 数 据 查询 可 能 是 空间 和 非 空 间 请 求 的 结合 。 例 如 ， 我 们 可 能 想 要 找 出 可 以 提供 素食 
的 、 每 餐 花 费 少 于 10 美元 的 最 近 的 餐馆 。 

由 于 空间 数据 固有 的 图 形 化 ， 我 们 通常 使 用 图 形 化 查询 语言 对 它们 进行 查询 。 这 种 查询 的 结果 也 
以 图 形 化 方式 显示 ， 而 不 是 以 表 的 形式 显示 。 用 户 可 以 调用 界面 上 的 各 种 操作 ， 比 如 选择 一 个 查看 区 
域 ( 例 如 ， 通 过 指向 并 点 击 曼哈顿 的 西 郊 ) 、 放 大 或 缩小 、 根 据 选 择 条 件 选 择 显 示 什 么 (例如 ， 有 多 于 
三 个 卧室 的 房子 ) 、 重 至 多 张 地 图 ( 例如， 多 于 三 个 耻 室 的 房子 与 一 张 显示 低 犯 罪 率 区 域 的 地 图 重 符 ) 
等 。 图 形 界面 构成 了 前 端 。 现 已 提出 了 对 SQL 的 扩展 ， 人 允许 关系 数据 库 有 效 地 存储 和 检索 空间 信息 ， 
并 且 也 允许 空间 和 非 空 间 混合 条 件 的 查询 。 这 些 扩展 包括 允许 抽象 数据 类 型 (如 线 、 多 边 形 、 位 图 )， 
以 及 允许 空间 条 件 ( 如 包含 或 重合 )。 

25.3.5 空间 数据 的 索引 

有 效 访问 空间 数据 需要 索引 。 诸 如 散 列 索引 和 B 树 那样 的 传统 索引 结构 是 不 合适 的 ， 因 为 它们 只 
处 理 一 维 数据 ， 而 空间 数据 通常 是 二 维 或 更 高 维 的 。 

25.3.5.1 k-d 树 

要 理解 如 何 对 由 二 维 或 更 高 维 构成 的 空间 数据 建立 索引 ， 我 们 先 考虑 一 维 数据 中 点 的 索引 。 树 结 

[1071] 构 ( 如 二 又 树 和 了 B 树 ) 是 不 断 地 将 空间 划分 成 更 小 的 部 分 。 例 如 ,二叉树 的 每 个 内 部 结 点 将 一 维 区 间 划 
分 成 两 个 部 分 。 位 于 左边 区 间 的 点 进入 左 子 树 ， 位 于 右边 区 间 的 点 进入 右 子 树 。 在 平衡 二 又 树 中 ， 划 
分 的 选择 使 得 存储 在 子 树 中 的 大 约 一 半 的 点 落 入 每 个 区 间 。 类 似 地 ，B 树 的 每 一 层 将 一 个 一 维 区 间 划 
分 成 多 个 部 分 。 

我 们 可 以 用 直觉 建立 二 维 空间 以 及 更 高 维 空间 的 树 3 3 
结构 。 一 种 称 为 k-d 树 (k-d tree) 的 树 结构 是 用 于 多 维 索 
引 的 一 种 早期 结构 。k-d 树 的 每 一 层 将 空间 划分 成 两 个 部 
分 。 树 的 顶层 结 点 按 一 维 进行 划分 ， 下 一 层 结 点 按 另 一 
维 进行 划分 ， 依 此 类 推 ， 各 维 循环 往复 。 划 分 以 这 种 方 
WH: 在 每 个 结 点 上 大 约 有 一 半 存 储 在 子 树 中 的 点 落 2 
入 一 侧 ， 而 另 一 半 落 入 另 一 侧 。 当 一 个 结 点 中 的 点 数 少 
于 给 定 的 最 大 点 数 时 ， 划 分 结束 。 图 25-4 表示 了 一 组 二 
维 空间 中 的 点 ， 以 及 这 组 点 的 k-d 树 表示 。 每 条 线 对 应 
于 树 中 的 一 个 结 点 ， 叶 结 点 中 的 最 大 点 数 设 为 1。 图 中 的 
每 条 线 ( 除 了 外 边 的 方 框 ) 对 应 于 k-d 树 的 一 个 结 点 。 图 
中 线 的 标号 表示 相应 结 点 出 现在 树 中 的 层 数 。 

k-d-B 树 扩展 了 k-d 树 ， 人 允许 每 个 内 部 结 点 有 多 个 子 
结 点 ， 如 同 B 树 扩展 了 二 叉 树 以 减 小 树 的 高 度 一 样 。k-d- 
B 树 比 k-d 树 更 适合 于 辅助 存储 器 。 

25.3.5.2 LA} 

二 维 数据 的 另 一 种 表示 形式 是 四 叉 树 (quadtree )。 用 四 了 叉 树 划分 空间 的 例子 如 图 25-5 所 示 。 点 的 

集合 与 图 25-4 中 的 一 样 。 四 又 树 的 每 个 结 点 对 应 于 一 个 矩形 区 域 空间 。 顶 层 结 点 对 应 于 整个 目标 空 
间 。 四 叉 树 中 的 每 个 非 叶 结 点 将 其 区 域 分 成 四 个 同等 大 小 的 象限 ， 相 应 地 ， 每 个 这 样 的 结 点 有 四 个 子 
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图 25-4 用 k-d 树 划分 空间 
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结 点 对 应 于 四 个 象限 。 叶 结 点 拥有 从 零 到 某 个 固定 最 大 数目 之 间 的 点 数 。 相 应 地 ， 如 果 对 应 于 一 个 结 
点 的 区 域 有 多 于 最 大 数目 的 点 数 ， 就 需要 为 该 结 点 创建 子 结 点 。 在 图 25-5 所 示 的 例子 中 ， 叶 结 点 的 最 
大 点 数 设 为 1。 

这 种 类 型 的 四 又 树 称 为 PR 四 叉 树 (PR quadtree ) , 
表示 它 存 储 的 是 点 ， 并 且 空 间 的 划分 是 根据 区 域 而 不 是 
根据 所 存储 的 实际 点 集 。 我 们 可 以 用 区 域 四 叉 树 ( region 
quadtree ) 存储 数组 (光栅 ) 信息 。 如 果 某 结 点 所 覆盖 的 区 
域内 的 所 有 数组 值 都 相同 ， 那 么 区 域 四 又 树 的 这 一 结 点 
是 叶 结 点 。 否 则 ， 它 被 进一步 划分 为 四 个 具有 相等 区 域 
的 子 结 点 ， 从 而 是 内 部 结 点 。 区 域 四 又 树 中 的 每 个 结 点 
对 应 于 值 的 一 个 子 数组 。 对 应 于 叶 结 点 的 子 数组 要 么 只 
包含 单个 数组 元 素 ， 要 么 包含 多 个 具有 相同 值 的 数组 
元 素 。 

线段 和 多 边 形 的 索引 带 来 了 新 的 问题 。 为 此 可 以 对 
k-d 树 和 四 又 树 进 行 扩展 。 但 是 ， 线 段 或 多 边 形 可 能 跨越 
分 界线 。 如 果 这 样 的 话 ， 就 必须 将 它 分 割 开 ， 然后 在 其 











各 个 部 分 所 出 现 的 每 个 子 树 中 加 以 表示 。 线 段 或 多 边 形 图 25-5 用 四 叉 树 划 分 空间 
的 多 次 出 现 会 导致 存储 和 查询 效率 低下 。 
25.3.5.3 Rat 


一 种 称 作 R Bt ( R-tree) 的 存储 结构 对 诸如 点 、 线 段 、 和 矩形 和 其 他 多 边 形 对 象 的 索引 是 很 有 用 的 。R 
树 是 平衡 树 结构 ， 其 中 被 索引 的 对 象 存储 在 叶 结 点 上 ， 这 一 点 非常 像 B* 树 。 但 它 并 不 使 用 值 的 范围 ，[1073] 
Ii) Se: FH ETE h FPA ( bounding box) 与 每 个 树 结 点 关联 。 叶 结 点 的 边界 框 是 平行 于 包含 叶 结 点 中 所 有 存储 
对 象 的 坐标 轴 的 最 小 和 矩形。 类 似 地 ， 内 部 结 点 的 边界 框 是 平行 于 包含 其 子 结 点 边界 框 的 坐标 轴 的 最 小 
和 矩形; 一 个 对 象 (例如 一 个 多 边 形 ) 的 边界 框 定义 为 平行 于 包含 该 对 象 的 坐标 轴 的 最 小 矩形 。 

每 个 内 部 结 点 存储 子 结 点 的 边界 框 和 指向 子 结 点 的 指针 。 每 个 叶 结 点 存储 被 索引 的 对 象 ， 还 可 以 
有 选择 地 存放 对 象 的 边界 框 ;， 边 界 框 有 助 于 加 快 检查 矩形 与 被 索引 的 对 象 是 否 重 一 的 速度 一 一 如 果 查 
询 矩 形 与 对 象 的 边界 框 不 重 倒 ， 则 它 也 不 可 能 与 对 象 重合 。( 如 果 索 引 对 象 就 是 矩形 ， 当 然 不 需要 存储 
边界 框 ， 因 为 边界 框 就 是 矩形 的 。) 

25-6 中 的 例子 表示 了 一 组 矩形 (用 实 线 画 出 ) 及 对 应 于 这 组 矩形 的 R 树 中 结 点 的 边界 框 ( 用 虚线 
画 出 ) 。 注 意 为 了 在 图 示 中 突出 边界 框 ， 画 边界 框 的 时 候 在 内 部 留 了 一 些 额 外 空间 。 实 际 上 ， 这 些 框 应 
该 更 小 一 些 ， 恰 好 适合 它们 包含 的 对 象 ; 也 就 是 说 ， 边 界 框 B 的 每 条 边 应 该 紧 接 B 中 所 包含 的 至 少 一 
个 对 象 或 边界 框 。 

R 树 本 身 如 图 25-6 的 右边 所 示 。 图 中 用 BB, 表示 边界 框 ; 的 坐标 。 

现在 我 们 来 看 如 何在 R 树 上 执行 查找 、 插 入 和 删除 操作 。 

。 ER: 如 图 所 示 ， 兄 弟 结 点 所 对 应 的 边界 框 可 能 重合 ; 相反 ，B 树 、k-d 树 和 四 又 树 的 区 间 是 

不 重 侄 的。 于是， 搜索 包 含 一 个 点 的 对 象 必须 遍历 其 边界 框 包含 该 点 的 所 有 子 结 点 ; 其 结果 是 
可 能 需要 搜索 多 条 路 径 。 类 似 地 ， 找 出 与 给 定 对 象 相交 的 所 有 对 象 的 查询 就 必须 向 下 遍历 其 边 
界 框 矩形 与 给 定 对 象 相交 的 每 个 结 点 。 

© A: 当 我 们 往 R 树 中 插入 一 个 对 象 时 ， 我 们 选择 一 个 叶 结 点 来 存放 该 对 象 。 理 想 情况 是 我 们 

应 该 找到 一 个 叶 结 点 ， 它 有 存放 一 个 新 项 的 空间 ， 而 且 它 的 边界 框 包含 该 对 象 的 边界 框 。 但 
是 ， 这 样 的 结 点 可 能 不 存在 ; 即使 存在 ， 找 到 该 结 点 也 可 能 非常 昂贵 ， 因 为 不 可 能 通过 从 根 向 
下 的 一 次 遍历 就 能 找到 它 。 在 每 个 内 部 结 点 我 们 都 可 能 发 现 多 个 子 结 点 的 边界 框 包含 该 对 象 的 
边界 框 ， 而 每 个 这 样 的 子 结 点 都 要 搜索 。 由 此 得 到 下 面 的 启发 式 算法 : 在 从 根 结 点 开始 的 遍历 
中 ， 如 果 有 多 个 子 结 点 的 边界 框 包含 该 对 象 的 边界 框 ，R 树 算法 就 从 中 任 取 一 个 。 如 果 没 有 一 
个 子 结 点 满足 这 个 条 件 ， 算 法 选择 一 个 其 边界 框 与 该 对 象 边 界 框 重 肆 最 大 的 子 结 点 继续 遍历 。 
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图 25-6 一 棵 R 树 


一 旦 到 达 叶 结 点 ， 如 果 该 结 点 已 满 ， 算 法 就 要 进行 结 点 分 裂 ( 必要 时 分 裂 会 向 上 传播 ) ， 其 
方式 非常 类 似 于 B 树 的 插入 。 与 B 树 的 插入 类 似 ，R 树 的 插入 算法 确保 树 的 平衡 性 。 另 外 ， 
插入 算法 还 保证 叶 结 点 和 内 部 结 点 的 边界 框 保 持 一 致 ， 即 叶 结 点 的 边界 框 包含 存储 在 该 叶 结 点 
中 的 所 有 对 象 的 边界 框 ， 同 时 内 部 结 点 的 边界 框 包含 所 有 子 结 点 的 边界 框 。 

这 个 插入 过 程 与 B 树 插 入 过 程 的 主要 区 别 在 于 结 点 的 分 裂 方式 。 在 B 树 中 ， 有 可 能 找到 
一 个 中 间 值 ， 使 得 一 半 的 项 比 它 小 ,一 半 的 项 比 它 大 。 但 此 性 质 不 能 推广 到 超过 一 维 的 情况 ; 
也 就 是 说 ， 对 于 多 维 的 情况 ,不 可 能 总 能 将 项 集 分 裂 为 两 个 边界 框 不 相交 的 集合 。 取 而 代 之 的 
一 种 启发 式 算法 是 : 将 项 集 5 分 裂 为 两 个 不 相交 的 集合 S 和 5, ， 使 得 它们 的 边界 框 的 总 面积 
最 小 。 男 一 种 启发 式 算法 将 项 集 分 裂 为 两 个 重合 面积 最 小 的 集合 S 和 5,。 分 裂 之 后 得 到 的 两 
个 结 点 分 别 包含 S AS, 中 的 项 。 找 到 最 小 总 面积 或 最 小 重 释 的 分 裂 方法 本 身 代 价 很 大 ， 因 此 
BEART Ea RARE, MAA AR (quadratic split) 启发 式 算法 。( 这 种 启发 式 算法 
的 名 称 来 源 于 算法 所 花 的 时 间 是 项 数目 的 二 次 方 这 个 事实 。) 





1074 二 次 方 分 裂 ( quadratic split) 启发 式 算法 这 样 进行 : 首先 ， 它 从 5 中 选取 两 个 项 a 和 4， 使 得 

‘ons 如 果 将 它们 放 到 同一 个 结 点 中 将 产生 具有 最 大 浪费 空间 的 边界 框 ， 即 AG AAE T 
积 减 去 a 与 的 面积 之 和 后 的 结果 最 大 。 启 发 式 算法 将 a Mb 这 两 个 项 分 别 放 到 集合 5, 和 
S, 中 。 


然后 该 算法 进行 迭代 ， 每 次 迭代 将 一 个 剩 下 的 项 加 入 集合 $ 或 5, 中 。 在 每 次 迭代 时 ， 对 
FRPMAM e, Si. RIRH e MAS, 时 5, 的 边界 框 增加 的 大 小 ; i RRIF S, 相应 增加 的 
大 小 。 在 每 次 迭代 中 ， 该 启发 式 算法 选择 i 与 i. 差异 最 大 的 那个 项 ， 如 果 i AN ia MH 
MAS, 中 ， 和 否则 加 入 S 中 。 也 就 是 说 ， 每 次 迭代 选择 对 于 S R S, 有 “最 大 优先 权 ” 的 项 。 当 
分 配 完 所 有 项 之 后 ,或 者 当 5, 或 5, 中 的 一 个 拥有 了 足够 的 项 时 (其 余 项 必须 全 部 加 入 另 一 个 集 
合 ， 才 能 使 这 两 个 集合 所 创建 的 结 点 都 达到 所 需 的 最 小 占有 量 ) 停 止 迭 代 。 此 时 ， 该 启发 式 算 
法 就 把 所 有 未 分 配 的 项 加 入 含有 较 少 项 的 集合 中 。 
。 删除 : 删除 与 B 树 删除 的 执行 类 似 ， 如 果 一 个 结 点 不 满 ， 就 从 兄弟 结 点 借 来 项 或 与 兄弟 结 点 
合并 。 另 一 种 可 选 的 方法 是 把 不 满 结 点 中 的 所 有 项 重新 分 配 到 兄弟 结 点 中 ， 其 目的 是 提高 R 树 
的 项 聚集 度 。 
有 关 R 树 的 插入 和 删除 操作 以 及 R 树 的 各 种 变 体 ( 称 作 R 树 或 者 R 树 ) 的 更 多 细节 ， 请 参见 文献 
注解 。 
R 树 的 存储 效率 比 k-d 树 或 四 叉 树 更 高 ， 因 为 每 个 对 象 只 存储 一 次 ， 并且 我 们 可 以 很 容易 地 保证 
每 个 结 点 至 少 是 半 满 的 。 但 是 ， 查 询 可 能 更 慢 一 些 ， 因 为 要 搜索 多 条 路 径 。 用 四 叉 树 作 空 间 连 接 比 用 
R 树 更 简单 ， 因 为 一 个 区 域内 的 所 有 四 叉 树 都 以 相同 的 方式 划分 。 但 是 ,由 于 R 树 及 其 变 体 具有 更 高 
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的 存储 效率 及 其 与 B 树 的 相似 性 ， 它 们 在 支持 空间 数据 的 数据 库 系统 中 已 经 很 普及 。 


25.4 多 媒体 数据 库 


诸如 图 像 、 音 频 和 视频 这 样 的 多 媒体 数据 作为 日 益 流 行 的 数据 形式 ， 现 在 几乎 总 是 存储 在 数据 库 
之 外 的 文件 系统 中 。 当 多 媒体 对 象 数量 相对 较 少 时 ， 这 种 存储 方式 不 会 有 什么 问题 ， 因 为 数据 库 所 提 
供 的 功能 往往 不 那么 重要 。 

但 是 当 存储 的 多 媒体 对 象 数量 很 大 时 ， 数 据 库 功 能 就 变 得 重要 起 来 了 。 随 之 ， 事 务 更 新 、 查 询 机 
制 和 索引 等 问题 也 变 得 很 重要 。 多 媒体 对 象 常常 有 描述 性 属性 ， 如 指明 它们 是 何 时 创建 的 、 由 谁 创建 
的 以 及 它们 属于 哪 一 类 这 样 的 属性 。 为 这 种 多 媒体 对 象 构造 数据 库 的 一 种 方法 是 用 数据 库存 储 描 述 性 
属性 ， 并 跟踪 存储 多 媒体 对 象 的 文件 。 

但 是 ,将 多 媒体 数据 存在 数据 库 之 外 使 得 数据 库 功 能 更 难以 提供 ， 壁 如 基于 实际 多 媒体 数据 内 容 
上 的 索引 。 它 还 会 造成 不 一 致 性 ， 壁 如 一 个 文件 在 数据 库 中 作 了 记录 ,但 其 内 容 丢 失 了 ,或 相反 。 因 
此 更 好 的 方式 是 将 数据 本 身 存储 在 数据 库 中 。 

如 果 要 将 多 媒体 数据 存储 在 数据 库 中 ， 就 必须 解决 几 个 问题 。 

© 数据 库 必须 支持 大 对 象 ， 因 为 诸如 视频 之 类 的 多 媒体 数据 可 能 会 占据 几 个 GB 的 存储 空间 。 许 
多 数据 库 系统 不 支持 超过 几 个 GB 的 对 象 。 更 大 的 对 象 被 分 裂 为 小 的 部 分 并 存储 在 数据 库 中 
或 者 ， 多 媒体 对 象 可 以 存储 在 文件 系统 中 ， 而 数据 库 中 包含 指向 对 象 的 指针 ， 典 型 的 指针 就 是 
文件 名 称 。SQL/MED 标准 (MED 代表 外 部 数据 管理 ) 允许 将 外 部 数据 (如 文件 ) 作为 数据 库 的 一 
部 分 对 待 。 使 用 SQLAMED， 对 象 作为 数据 库 的 一 部 分 出 现 , 但 可 以 在 外 部 存储 。 我们 在 
25. 4. 1 节 讨论 多 媒体 数据 格式 。 

某 些 类 型 的 数据 ( 如 音频 和 视频 ) 的 检索 要 求 必须 保证 以 一 种 平稳 的 速率 来 传输 数据 。 这 种 数据 
有 时 称 为 等 时 数据 (isochronous data) 或 连续 媒体 数据 ( continuous-media data), 例如， 如 果 没 有 
及 时 提供 音频 数据 ， 声 音 就 会 有 间断 。 如 果 数 据 提供 得 太 快 ， 系 统 缓冲 区 就 可 能 会 溢出 ， 造 成 
数据 丢失 。 我 们 在 25. 4. 2 节 讨 论 连续 媒体 数据 。 

许多 多 媒体 数据 库 应 用 都 需要 基于 相似 性 的 检索 。 例 如 ， 在 存储 指纹 图 像 的 数据 库 中 ， 提 供 了 
要 查询 的 指纹 图 像 ， 数 据 库 中 与 该 查询 指纹 相似 的 指纹 必须 被 检索 出 来 。 诸 如 BO 树 和 有 树 这 
样 的 索引 结构 不 能 用 于 这 个 目的 ， 需 要 创建 特殊 的 索引 结构 。 我 们 在 25. 4. 3 节 讨 论 基于 相似 
性 的 检索 。 

25.4.1 多 媒体 数据 格式 

由 于 表示 多 媒体 数据 需要 大 量 字 节 数 ， 所 以 有 必要 用 压缩 的 形式 存储 和 传输 多 媒体 数据 。 对 于 图 
像 数 据 ， 使 用 最 广泛 的 格式 就 是 JPEG，, 它 是 以 制定 它 的 标准 组 织 联 合 图 像 专家 组 ( Joint Picture Experts 
Group ) 来 命名 的 。 我 们 可 以 通过 将 视频 的 每 一 帧 用 JPEG 格式 编码 来 存储 视频 数据 ， 但 这 样 编码 会 有 浪 
费 ， 因 为 视频 中 连续 的 帧 往往 几乎 是 一 样 的 。 移 动 图像 专 家 组 ( Moving Picture Experts Group) 提出 了 对 
视频 和 音频 数据 进行 编码 的 一 系列 MPEG 标准 ， 这 些 编码 利用 帧 序列 之 间 的 共性 达到 更 高 程度 的 压缩 。 
MPEG-1 标准 存储 1 分 钟 的 每 秒 30 帧 的 视频 和 音频 约 要 12. 5MB( 比较 而 言 ， 只 用 JPEG 形式 的 视频 数 
据 约 需 75MB)。 但 是 ，MPEG-1 编码 要 损失 一 些 视频 质量 ， 其 程度 粗略 相当 于 VHS 录像 带 。MPEG-2 
标准 是 为 数字 广播 系统 和 数字 视频 磁盘 (DVD ) 设计 的 。 它 带 来 的 视频 质量 损失 是 可 忽略 的 。MPEG-2 
把 1 分 钟 的 视频 和 音频 压缩 到 约 17MB。MPEG-4 提供 进一步 压缩 视频 的 技术 ， 用 可 变 带 宽 来 支持 视频 
数据 在 很 大 带宽 范围 内 的 网 络 上 进行 传输 。 还 有 几 个 竞争 的 标准 用 于 音频 编码 ， 包 括 代 表 MPEG- 1 
Layer 3 的 MP3、RealAudio、Windows Media Audio 以 及 其 他 格式 。 高 清 的 带 有 音频 的 视频 可 用 几 个 
MPEG-4 的 变 体 进行 编码 ， 包 括 MPEG-4 AVC 和 AVCHD。 

25.4.2 ”连续 媒体 数据 

最 重要 的 连续 媒体 数据 类 型 是 视频 和 音频 数据 ( 例如， 电影 数据 库 ) 。 连 续 媒 体系 统 的 特点 是 要 求 

实时 的 信息 传输 : 
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© 数据 传输 必须 足够 快 ， 使 得 音频 或 视频 输出 没有 间断 。 
。 数据 传输 的 速度 不 会 导致 系统 缓冲 区 溢出 。 
© 必须 保持 不 同 数据 流 之 间 的 同步 。 这 个 要 求 在 某 些 情况 下 尤其 重要 ， 例如， 一 个 人 说 话 时 显示 
嘴 层 动作 的 视频 必须 与 其 说 话 的 音频 同步 。 
为 了 能 够 预先 适时 地 向 大 量 数据 使 用 者 提供 数据 ， 从 磁盘 取得 数据 时 必须 仔细 协调 。 通 常 ， 数 据 
以 周期 性 的 循环 方式 获取 。 在 每 次 循环 中 ( 设 为 n 秒 )， 为 每 个 使 用 者 取得 n 秒 的 数据 并 存储 在 内 存 组 
冲 区 中 ， 而 前 一 次 循环 取得 的 数据 从 内 存 缓冲 区 中 传送 给 使 用 者 。 循 环 周期 是 一 种 折 中 : 短 周 期 使 用 
较 少 的 内 存 但 是 需要 更 多 的 磁盘 臂 的 移动 ， 这 样 会 浪费 资源 ; 而 长 周期 能 减少 磁盘 臂 移 动 但 是 增加 了 
所 需 内 存 ， 而 且 可 能 导致 初始 数据 传输 的 延迟 。 当 新 的 需求 到 来 时 ， 接 纳 控制 ( admission control ) 开始 
起 作用 : 也 就 是 说 ， 系 统 检测 (每 周期 中 的 ) 可 用 资源 能 否 满足 需求 ， 如 果 能 满足 则 接纳 ;否则 拒绝 . 
对 连续 媒体 数据 传输 的 大 量 研究 都 是 处 理 诸如 磁盘 阵列 和 磁盘 失效 这 样 的 问题 。 查 阅 文献 注解 可 
得 到 详细 内 容 。 
一 些 厂商 提供 视频 点 播 服务 器 。 当 前 的 系统 基于 文件 系统 ， 因 为 现 有 的 数据 库 系统 不 能 提供 这 些 
应 用 所 需 的 实时 响应 。 视 频 点 播 系统 的 基本 体系 结构 包括 : 
© 视频 服务 器 (video server) 。 多 媒体 数据 存储 在 多 个 磁盘 上 (通常 是 用 RAID 的 配置 )。 包 含 大 量 
数据 的 系统 可 使 用 三 级 存储 器 存储 不 常 访问 的 数据 。 
o 终端 ( terminal) 。 人 们 通过 各 种 设备 观看 多 媒体 数据 ， 这 些 设备 统称 为 终端 。 这 种 设备 的 例子 
包括 个 人 计算 机 和 连接 到 机 项 盒 ( set-top box) 的 电视 机 ， 机 顶 盒 是 一 种 小 的 廉价 计算 机 。 
© 网 络 (network) 。 从 服务 器 向 多 个 终端 传送 多 媒体 数据 需要 有 高 容量 的 网 络 。 
电缆 网 络 上 的 视频 点 播 服务 应 用 非常 广泛 。 
25.4.3 ”基于 相似 性 的 检索 
在 许多 多 媒体 应 用 中 ， 数 据 只 是 近似 地 在 数据 库 中 描述 。25. 4 节 中 的 指纹 数据 就 是 一 个 例子 。 其 
他 例子 还 有 : 
© 图 片 数据 (pictorial data) 。 对 于 在 数据 库 中 的 表示 略微 有 些 不 同 的 两 张 图 片 或 图 像 ， 用 户 可 能 认 
为 是 相同 的 。 例 如 ， 某 个 数据 库 可 能 存储 了 商标 设计 。 当 一 个 新 商标 要 注册 时 ， 系 统 首先 需要 
识别 出 以 前 注册 过 的 所 有 类 似 商 标 。 
© 音频 数据 (audio data) 。 现 已 开发 出 基于 语音 的 用 户 界面 ， 允 许 用 户 通过 说 话 来 发 出 命令 或 识别 
某 个 数据 项 。 这 就 必须 检测 出 用 户 输 入 与 系统 中 存储 的 命令 或 数据 项 的 相似 性 。 
。 手书 数据 (handwritten data) 。 手 写 输入 可 用 于 识别 存储 在 数据 库 中 的 手书 数据 项 或 命令 ， 这 里 
再 次 需要 相似 性 检测 。 
相似 性 的 概念 常常 是 主观 的 和 针对 用 户 的 。 但 是 ， 相 似 性 检测 往往 比 语音 或 手书 识别 更 成 功 ， 因 
为 输入 可 以 与 已 经 在 系统 中 的 数据 进行 比较 ， 这 样 系统 可 做 的 选择 集合 就 受 限 了 。 
现在 已 经 有 一 些 算法 利用 相似 性 检测 来 找 出 给 定 输 入 的 最 佳 匹配 。 许 多 语音 激活 系统 已 有 商业 应 
用 ,特别 是 用 于 电话 应 用 和 交通 工具 控制 。 相 关 参 考 文献 请 参见 文献 注解 。 


25.5 移动 性 和 个 人 数据 库 


大 型 商用 数据 库 传统 上 是 存储 在 中 央 计 算 设 备 上 的 。 在 分 布 式 数据 库 应 用 中 ,通常 有 强大 的 中 央 
数据 库 和 网 络 管理 。 然 而 有 这 样 几 个 技术 趋势 共同 产生 了 一 些 应 用 ， 在 这 些 应 用 里 这 种 集中 的 控制 和 
管理 假设 并 不 完全 正确 : 

© 膝 上 型 电脑 、 笔 记 本 电脑 或 上 网 本 电脑 的 广泛 使 用 。 

。 具有 计算 机 能 力 的 手机 的 广泛 使 用 。 

。 基于 无 线 局 域 网 络 、 蜂 窝 数字 包 网 络 和 其 他 技术 的 相对 低 成 本 的 无 线 数字 通信 基础 设施 的 

发 展 。 

移动 计算 ( mobile computing) 在 许多 应 用 中 都 证 明 是 有 用 的 。 许 多 出 差 的 商务 人 员 都 使 用 膝 上 型 电 

脑 ， 以 便 在 途中 可 以 工作 和 访问 数据 。 邮 递 服务 使 用 移动 计算 机 来 辅助 包 庄 的 跟踪 。 紧 急 响 应 服务 使 
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用 移动 计算 机 在 灾难 、 医 疗 急救 及 类 似 情况 的 现场 访问 信息 ， 并 且 输 入 与 当时 情况 有 关 的 数据 。 手 机 
日 益 成 为 不 仅仅 是 提供 电话 服务 的 设备 ， 而 且 还 是 允许 电子 邮件 和 Web 访问 的 移动 计算 机 。 移 动 计算 
机 的 新 应 用 还 在 继续 出 现 。 

无 线 计算 带 来 了 一 种 新 形势 : 计算 机 不 再 有 固定 的 位 置 和 网 络 地 址 。 位 置 相关 查询 ( location- 
dependent query ) 是 由 移动 计算 机 促成 的 一 类 有 趣 的 查询 。 在 这 类 查询 中 ， 用 户 ( 计 算 机 ) 的 位 置 是 查询 
的 一 个 参数 。 位 置 参 数 的 值 由 全 球 定位 系统 (GPS) 提 供 。 例 如 ， 一 个 旅客 信息 系统 为 乘客 提供 关于 旅 
馆 、 路 边 服务 及 类 似 信 息 。 有 关 当 前 道路 前 方 服 务 的 查询 必须 根据 用 户 位 置 、 移 动 方向 以 及 速度 进行 
处 理 。 逐 渐 地 ， 导 航 辅助 越 来 越 多 地 成 为 汽车 提供 的 一 个 内 置 功能 。 

能 源 ( 电 池 电 源 ) 对 大 多 数 移动 计算 机 来 说 是 一 种 稀有 资源 。 这 一 限制 影响 了 系统 设计 的 许多 方 
面 。 能 源 效 率 需 求 带 来 的 更 有 趣 的 结果 之 一 是 小 的 移动 设备 大 部 分 时 间 在 休 眼 ， 只 在 大 约 每 秒 的 小 部 
分 时 间 内 是 醒 着 的 ， 以 检测 进来 的 数据 和 向 外 发 送 数 据 。 这 种 行为 对 用 于 移动 设备 通信 所 使 用 的 协议 
有 重大 影响 。 使 用 预定 的 数据 广播 来 减少 移动 系统 传输 查询 的 需求 是 另 一 种 减少 能 量 需 求 的 方法 

越 来 越 多 的 数据 会 放 在 由 用 户 管理 的 而 不 是 由 数据 库 管 理 员 管理 的 计算 机 上 。 并 且 ， 这 些 计算 机 
有 时 可 能 与 网 络 断 开 连 接 。 在 许多 情况 下 ， 用 户 在 断 开 连接 时 仍 能 继续 工作 的 需求 与 保持 全 局 数据 一 
致 性 的 需求 会 产生 矛盾 。 

用 户 很 可 能 使 用 不 止 一 种 移动 设备 。 不 管 在 给 定时 间 使 用 哪 种 设备 ， 用 户 都 需要 能 够 看 到 他 们 的 
数据 的 最 新 版 本 。 通 常 ， 这 种 能 力 由 我 们 在 19. 9 节 中 讨论 过 的 云 计算 的 某 些 变 体 来 支持 。 

从 25. 5. 1 节 到 25.5.4 79, 我 们 讨论 正在 使 用 和 正 处 于 开发 过 程 中 的 、 用 于 解决 移动 及 个 人 计算 
问题 的 技术 。 

25.5.1 移动 计算 模型 

移动 计算 环境 由 移动 计算 机 ( 称 为 移动 主机 (mobile host)) 和 有 线 计算 机 网 络 构成 。 移 动 主机 通过 
称 为 移动 支持 站 点 (mobile support station) 的 计算 机 与 有 线 网 络 通信 。 每 个 移动 支持 站 点 管理 在 其 单元 
(cell)( 即 它 所 覆盖 的 地 理 区 域 ) 内 的 那些 移动 主机 。 移 动 主 机 可 以 在 单元 间 移 动 ， 因 此 必须 有 从 一 
移动 支持 站 点 到 另 一 个 移动 支持 站 点 的 控制 交接 (handoff) 。 由 于 移动 主机 有 时 可 能 关闭 电源 ， 一 台 主 
机 可 能 离开 一 个 单元 而 随后 在 某 个 很 远 的 单元 内 重新 出 现 。 因 此 ， 单 元 间 的 移动 不 一 定 是 在 相 邻 单元 
间 进 行 的。 在 一 个 小 区 域内 部 ， 如 一 栋 建筑 内 ， 移 动 主机 可 以 通过 无 线 局 域 网 (LAN) 相连 ， 它 比 广 域 
蜂窝 网 络 提供 了 更 低 的 连接 成 本 ， 并 且 减 少 了 交接 的 开销 。 

移动 主机 之 间 不 通过 移动 支持 站 点 的 介 和 人 而 直接 通信 是 可 能 的 。 但 是 ， 这 种 通信 只 能 是 在 临近 主 
机 之 间 发 生 。 这 种 直接 通信 形式 通常 使 用 蓝牙 ( Bluetooth) ， 蓝 牙 使 用 短程 数字 无 线 电 通信 标准 ， 人 允许 
以 很 高 的 速度 (最 高 721kbys) 进行 10 米 之 内 范围 的 无 线 连接 。 最 初 的 构想 是 把 蓝牙 作为 电缆 的 替代 
物 ， 蓝 牙 的 最 大 优势 在 于 ， 它 提供 一 种 简单 的 、 针 对 移动 计算 机 、PDA 、 移 动 电话 以 及 所 谓 智 能 设备 
的 即席 连接 。 

现在 基于 801. 11(a/b/g/n) 标 准 的 无 线 局 域 网 络 系统 已 经 被 广泛 使 用 ， 基 于 802. 16( Wi-Max) 标准 
的 系统 正在 部 署 中 。 

移动 计算 的 网 络 基础 架构 大 部 分 由 两 种 技术 构成 : 无 线 局 域 网 和 基于 包 的 蜂窝 电话 网 络 。 早 期 的 
蜂窝 系统 使 用 模拟 技术 并 设计 用 于 语音 通信 。 第 二 di igh eh ia BAR (3G ) 和 所 
WA 2.56 系统 使 用 基于 包 的 网 络 ， 更 适 于 数据 应 用 。 在 这 些 网 络 中 ,语音 应 用 只 是 众多 应 用 中 的 一 种 
(尽管 从 经 济 角 度 来 讲 是 重要 的 一 种 ) 。 第 四 代 (4G ) 技 术 包括 Wi-Max ae. 

蓝牙 、 无 线 局 域 网 以 及 2.5G 和 3G 蜂窝 网 络 使 多 种 不 同 设备 间 的 低 成 本 通信 成 为 可 能 。 然 而 这 种 
通信 本 身 并 不 适合 通常 的 数据 库 应 用 领域 ， 有 关 这 种 通信 的 账户 、 监 控 和 管理 数据 产生 了 巨大 的 数据 
库 。 无 线 通信 的 直接 性 产生 了 实时 访问 许多 这 种 数据 库 的 需要 。 这 种 即时 性 的 需求 为 系统 增加 了 另 一 
维 约束 ， 我 们 将 在 26. 4 节 进 一 步 讨论 这 个 问题 。 

许多 移动 计算 机 的 大 小 和 电源 限制 导致 了 另 一 种 内 存 层次 结构 。 它 包括 闪存 存储 器 以 取代 磁盘 存 
储 器 或 附加 在 磁盘 存储 器 之 上 ,我 们 在 10. 1 节 讨 论 了 闪存 存储 器 。 如 果 移 动 主机 包 仿 硬盘， 硬盘 可 能 
允许 在 不 用 的 时 候 秃 下 ， 以 节省 能 源 。 大 小 和 能 源 的 考虑 同样 限制 了 移动 设备 中 所 使 用 的 显示 髓 的 类 
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型 和 大 小 。 移 动 设备 设计 者 常常 创建 专用 用 户 界面 以 工作 在 这 些 限 制 之 下 。 但 是 ， 出 于 展现 Web 数据 
的 需求 ， 有 必要 创建 数据 的 表示 标准 。 无 线 应 用 协议 ( Wireless Application Protocol，WAP) 就 是 一 个 无 
线 因特网 访问 标准 。 基 于 WAP 的 浏览 器 访问 使 用 无 线 标记 语言 ( Wireless Markup Language, WML) 的 特 
1081] 殊 Web 页 面 ， 其 中 WML 是 一 种 基于 XML 的 语言 ， 它 是 针对 移动 和 无 线 Web 浏览 的 限制 而 设计 的 。 
25.5.2 路 由 和 查询 处 理 
如 果 两 台 主 机 中 有 一 台 是 移动 主机 ， 则 这 一 对 主机 之 间 的 路 由 可 能 会 随时 间 的 推移 而 发 生变 化 。 
这 个 简单 的 事实 会 在 网 络 层 上 产生 戏剧 性 的 影响 ， 因 为 基于 位 置 的 网 络 地 址 已 不 再 是 系统 内 的 常量 了 。 
移动 性 也 直接 影响 到 数据 库 查 询 处 理 。 正 如 我 们 在 第 19 章 看 到 的 那样 ， 我 们 在 选择 分 布 式 查询 处 
理 策略 时 必须 考虑 通信 代价 。 移 动 性 导致 了 通信 代价 的 动态 改变 ， 从 而 使 得 优化 处 理 复杂 化 。 男 外 ， 
还 有 一 些 相互 竞争 的 代价 概念 需要 考虑 : 
© 用 户 时 间 (user time) 在 许多 商务 应 用 中 是 十 分 宝贵 的 财富 。 
。 连接 时 间 (connection time ) 在 某 些 蜂窝 系统 中 是 决定 收费 的 单位 。 
e 传输 的 字 节 数 或 包 数 (number of bytes, or packets, transferred ) 在 某 些 数字 蜂窝 系统 中 是 计算 收 
费 的 单位 。 
基于 每 日 不 同时 段 的 收费 ( time-of-day-based charges ) 根据 通信 发 生 在 高 峰 时 段 还 是 非 高 峰 时 段 
而 不 同 。 
能 源 (energy ) 是 有 限 的 。 通 常 ， 电 池 电 源 是 珍贵 的 资源 ， 必 须 优化 其 使 用 。 无 线 电 通 信 的 一 个 
基本 原理 是 接收 无 线 电信 号 需要 的 能 量 比 发 送 无 线 电 信号 要 少 。 因 此 ， 移 动 主 机 传输 和 接收 数 
据 所 需 的 能 源 是 不 同 的 。 
25.5.3 广播 数据 
我 们 常常 希望 频繁 请 求 的 数据 由 移动 支持 站 点 不 断 周 期 性 地 广播 ， 而 不 是 在 需要 的 时 候 才 发 送 到 
移动 主机 。 这 种 广播 数据 ( broadcast data) 的 典型 应 用 是 股市 价格 信息 。 使 用 广播 数据 有 两 个 原因 。 首 
先 ， 移动 主机 避免 了 发 送 数 据 请 求 的 能 源 开销 。 其 次 ， 广播 数据 可 以 立刻 被 大 量 的 移动 主机 接收 到 ， 
而 没有 额外 的 开销 。 因 此 ， 可 用 的 传输 带宽 得 到 了 更 有 效 的 利用 。 
这 样 ， 移 动 主机 可 以 在 那些 数据 发 送 过 来 时 接收 数据 ， 而 不 会 因 发 送 请 求 而 耗费 能 源 。 移 动 主 机 
可 能 有 本 地 非 易 失 性 存储 器 来 高 速 缓存 广播 数据 ， 以 备 将 来 可 以 使 用 。 当 给 定 一 个 查询 时 ,移动 主机 
通过 判断 是 否 只 使 用 缓存 数据 就 可 以 处 理 该 查询 来 优化 能 源 开销 。 如 果 缓 存 数据 不 够 用 ， 可 以 有 两 种 
选择 : 等 待 数据 被 广播 或 发 送 数据 请 求 。 要 做 出 这 个 决定 ,移动 主机 必须 知道 相关 数据 什么 时 候 会 
广播 。 
广播 数据 可 以 按照 固定 的 或 变化 的 时 间 表 发 送 。 对 于 前 一 种 情况 ， 移 动 主 机 使 用 已 知 的 固定 时 间 
表决 定 什么 时 候 相 关 数 据 会 发 送 。 对 于 后 一 种 情况 ,广播 时 间 表 本 身 必须 在 一 个 众所周知 的 无 线 电 频 
率 上 以 众所周知 的 时 间 间 隔 进行 广播 。 
实际 上 ， 广播 介 质 可 以 建 模 为 具有 高 延迟 的 磁盘 。 对 数据 的 请 求 可 以 认为 是 在 所 请 求 的 数据 被 广 
播 时 得 到 了 服务 。 传 输 时 间 表 的 作用 类 似 于 磁盘 上 的 索引 。 文 献 注解 中 列 出 了 最 近 的 有 关 广 播 数 据 管 
理 领域 的 研究 论文 。 
25.5.4 连接 断 开 与 一 致 性 
由 于 无 线 通信 可 能 会 基于 连接 时 间 付 费 ， 所 以 某 些 移动 主机 要 求 能 在 一 段 时 间 内 断 开 连 接 。 除 了 
周期 性 地 以 物理 方式 或 通过 计算 机 网 络 连接 到 宿主 计算 机 ， 不 带 无 线 连接 的 移动 计算 机 在 它们 被 使 用 
的 大 部 分 时 间 内 都 是 断 开 连接 的 。 
在 断 开 连接 的 时 间 段 内 ， 移 动 主机 仍 可 以 继续 运行 。 移 动 主机 用 户 可 以 对 驻 留 于 本 地 的 或 缓存 在 
本 地 的 数据 进行 查询 和 更 新 。 这 种 情况 产生 了 一 些 问题 ， 特 别 是 : 
© 可 恢复 性 ( recoverability): 如 果 在 移动 主机 上 发 生 灾难 性 故障 ， 在 断 开 连接 的 机 器 上 进行 的 更 
新 可 能 会 丢失 。 由 于 移动 主机 代表 单 点 故障 ， 所 以 不 可 能 很 好 地 模拟 稳定 存储 。 
e 一 致 性 (consistency) : 移动 主机 只 有 在 重新 连接 后 才能 发 现在 本 地 缓存 的 数据 可 能 已 经 过 时 。 
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与 此 类 似 ， 在 移动 主机 上 进行 的 更 新 只 有 在 重新 连接 后 才能 传播 给 其 他 主机 。 

我 们 在 第 19 章 探讨 了 一 致 性 问题 ， 也 讨论 了 网 络 分 割 ， 这 里 我 们 做 进一步 的 详细 讨论 。 在 有 线 分 
MARAP, 分割 被 认为 是 一 种 故障 模式 ; 在 移动 计算 中 ， 通 过 断 开 连 接 造 成 的 分 割 是 操作 的 常规 模 
式 的 一 部 分 。 所 以 即使 存在 分 割 ， 甚 至 有 损失 某 些 一 致 性 的 危险 ,仍然 应 当 允 许 进行 数据 访问 。 

对 于 只 被 移动 主机 更 新 的 数据 ， 在 移动 主机 重新 连接 时 传播 其 上 的 更 新 是 一 个 简单 的 问题 。 然 而 ， 
如 果 移 动 主机 缓存 了 可 能 被 其 他 计算 机 更 新 的 数据 的 只 读 副 本 ， 那 么 缓存 的 数据 就 可 能 变 得 不 一 致 。 
当 移动 主机 连接 时 ， 可 以 给 它 发 送 失效 报告 (invalidation report) ,通知 它 有 过 期 的 缓存 数据 项 。 但 是 ， 
当 移 动 主机 断 开 连接 时 ， 它 可 能 会 错过 失效 报告 。 解 决 这 个 问题 的 一 种 简单 方法 是 在 重新 连接 时 对 整 
个 缓存 都 作 失 效 处 理 ， 但 这 种 极端 的 解决 方法 开销 太 大 。 文 献 注解 中 引用 了 几 种 缓存 方案 。 

如 果 更 新 可 以 发 生 在 移动 主机 和 其 他 地 方 ， 检测 更 新 冲突 就 更 为 困难 。 基 于 版 本 编号 ( version- 
numbering) 的 方案 允许 断 开 连接 的 主机 对 共享 文件 进行 更 新 。 这 些 方案 不 能 保证 更 新 是 一 致 的 。 但 是 ， 


它们 保证 如 果 两 台 主 机 独立 地 更 新 一 份 文档 的 同一 个 版 本 ， 那 么 当主 机 直接 地 或 者 通过 公共 主机 交换 [1083] 


信息 时 这 种 冲突 最 终 会 被 检测 出 来 。 

当 文 档 的 多 个 副本 被 独立 更 新 时 ， 版 本 向 量 方案 ( version-vector scheme ) 检测 它们 之 间 的 不 一 致 性 ， 
这 种 方案 允许 文档 的 副本 保存 在 多 台 主 机 中 。 虽 然 我 们 使 用 文档 这 个 术语 ， 这 种 方案 也 可 以 应 用 到 任 
何其 他 数据 项 上 ， 如 关系 的 元 组 。 

基本 思路 是 : 每 台 主 机 i 针对 其 每 份 文档 d 的 副本 都 存储 一 个 版 本 向 量 ( version vector) ， 即 一 个 版 
本 号 的 集合 (Vl)! ， 其 中 对 于 每 台 有 可 能 更 新 该 文档 的 其 他 主机 j 都 有 一 项 。 当 主机 i 更 新 文档 d 
时 ， 它 将 版 本 号 V, [i] 加 一 。 

每 当 两 台 主 机 i 和 j 相互 连接 时 ,它们 交换 更 新 的 文档 ， 这 样 它们 都 可 获得 文档 的 新 版 本 。 但 是 ， 
在 交换 文档 前 ， 主 机 必须 检查 副本 是 否 一 致 : 

L 如 果 两 台 主 机 的 版 本 向 量 相 同 ， 即 对 每 个 ,WV;[k] = Vj[k] ， 则 文档 d 的 副本 是 相同 的 

2. WRB k, Vlk] < Wj[k] ,并 且 版 本 向 量 不 相同 ， 则 文档 d 在 主机 i 上 的 副本 比 在 主机 j 
上 的 副本 旧 。 也 就 是 说 ,文档 d 在 主机 jy 上 的 副本 是 对 主机 i 上 的 副本 进行 了 一 次 或 多 次 修改 之 后 得 到 
的 。 这 时 ， 主 机 i 用 主机 上 的 副本 替换 其 d 的 副本 以 及 d 的 版 本 向 量 的 副本 。 

3. 如 果 存 在 一 对 主机 和 m，, AV, Ck] > V[klH Valm] <VWjLm]， 则 副本 是 不 一 致 的 ; 也 
就 是 说 ， 主 机 i 上 的 d 的 副本 包含 主机 所 做 的 更 新 ， 而 这 些 更 新 还 没有 传播 到 主机 上。 同样 地 ,d 
在 j 上 的 副本 包含 主机 m 所 做 的 更 新 ， 而 这 些 更 新 还 没有 传播 到 主机 i 上。 于是，d 的 副本 就 是 不 一 致 
K, AX d 上 分 别 进行 了 两 次 或 多 次 更 新 。 这 时 可 能 需要 人 工 介 入 来 合并 更 新 。 

版 本 向 量 方案 最 初 用 来 处 理 分 布 式 文件 系统 的 故障 。 该 方案 的 重要 性 在 于 移动 计算 机 常常 存储 文 
件 的 副本 ， 这 些 副本 也 出 现在 服务 器 系统 中 ， 实 际 上 就 构成 了 一 个 经 常会 断 开 连 接 的 分 布 式 文件 系统 。 
这 一 方案 的 另 一 个 应 用 是 在 群 件 系 统 中 ， 其 中 的 主机 是 周期 性 地 而 非 持续 性 地 连接 ， 并 且 必 须 交 换 更 
新 后 的 文档 。 

版 本 向 量 方案 在 有 副本 的 数据 库 中 也 有 应 用 ， 其 中 它 可 以 应 用 于 单个 元 组 。 例 如 ， 如 果 一 份 日 历 
或 住址 名 册 是 在 一 个 移动 设备 以 及 一 台 主 机 上 同时 维护 的 ， 插 入 、 删 除 和 更 新 既 可 以 发 生 在 移动 设备 
上 ， 也 可 以 发 生 在 主机 上 。 通 过 在 单个 日 历 项 或 联系 人 上 应 用 版 本 向 量 方案 ， 可 以 容易 地 处 理 这 种 情 
况 : 一 个 特定 项 已 在 移动 设备 上 更 新 了 ， 同 时 另 一 个 不 同 的 项 在 主机 上 更 新 。 这 种 情况 不 会 被 认为 是 
冲突 。 但 是 ， 如 果 同 样 的 项 在 两 个 地 方 独立 地 更 新 ， 通 过 版 本 向 量 方案 会 检测 到 冲突 。 

然而 ， 版 本 向 量 方案 并 不 能 解决 更 新 共享 数据 中 最 困难 、 最 重要 的 问题 : 不 一 致 数据 副本 的 一 致 
化 。 许 多 应 用 可 以 自动 执行 一 致 化 ， 这 是 通过 在 每 台 计 算 机 上 执行 断 开 连接 期 间 在 远 端 计算 机 上 执行 
过 的 更 新 操作 来 实现 的 。 该 方案 在 更 新 操作 可 交换 时 有 效 ， 也 就 是 说 ， 无 论 以 怎样 的 顺序 执行 这 些 操 
作 ， 其 结果 都 是 相同 的 。 特 定 应 用 中 有 其 他 一 些 可 用 技术 ; 但 是 ,在 最 差 的 情况 下 ， 必 须 由 用 户 来 解 
决 不 一 致 性 。 如 何 自动 处 理 这 种 不 一 致 性 以 及 如 何 辅助 用 户 解 决 不 能 自动 处 理 的 不 一 致 性 仍然 是 一 个 
研究 的 领域 。 

版 本 向 量 方案 的 另 一 个 弱点 是 它 要 求 在 重新 连接 的 移动 主机 和 该 主机 的 移动 支持 站 点 之 间 有 实质 
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性 通信 。 一 致 性 检查 可 以 延迟 到 需要 数据 时 再 进行 ， 尽 管 这 种 延迟 可 能 增加 数据 库 整 体 的 不 一 致 性 。 

断 开 连 接 的 可 能 性 和 无 线 通信 的 开销 限制 了 第 19 章 所 讨论 的 分 布 式 系统 的 事务 处 理 技术 的 实用 
性 。 通 常 最 好 是 由 用 户 在 移动 主机 上 准备 事务 ， 但 需要 他 们 将 事务 提交 给 服务 器 执行 ， 而 不 是 在 本 地 
执行 这 些 事务 。 跨 越 多 台 计 算 机 并 且 其 中 包含 移动 主机 的 事务 在 事务 提交 过 程 中 会 面临 长 时 间 的 阻塞 ， 
除非 断 开 连接 的 情况 极 少 发 生 或 者 是 可 以 预测 的 。 


25.6 总 结 


。 时 间 在 数据 库 系 统 中 扮演 着 重要 的 角色 。 数 据 库 是 现实 世界 的 模型 。 尽 管 大 部 分 数据 库 只 模拟 现实 

世界 在 一 个 时 间 点 (在 当前 时 间 ) 上 的 状态 ， 但 时 态 数据 库 模拟 的 是 现实 世界 随时 间 变 化 的 状态 。 

时 态 关 系 中 的 事实 与 当 它们 有 效 时 的 时 间 相 关联 ， 而 时 间 可 以 用 时 段 的 并 来 表示 。 时 态 查询 语言 简 

化 了 时 间 建 模 以 及 与 时 间 相 关 的 查询 。 

。 目前 空间 数据 库 正 越 来 越 多 地 用 于 存储 计算 机 辅助 设计 数据 和 地 理 数 据 。 

© 设计 数据 主要 以 矢量 数据 的 形式 存储 ; 地 理 数据 包含 矢量 数据 和 光栅 数据 的 组 合 。 空 间 完整 性 约束 

对 于 设计 数据 十 分 重要 。 

矢量 数据 可 以 编码 成 为 第 一 范式 数据 ， 或 者 用 非 第 一 范式 结构 来 存储 ， 如 列表 。 专 用 索引 结构 对 于 

访问 空间 数据 和 处 理 空间 查询 尤为 重要 。 

。 R 树 是 B 树 的 多 维 扩展 ; 它 和 它 的 变 体 ( 如 R' 树 和 R' 树 ) 在 空间 数据 库 中 得 到 了 广泛 的 应 用 。 将 空 
间 以 某 种 固定 方式 进行 划分 的 索引 结构 ( 如 四 叉 树 ) 有 助 于 处 理 空间 连接 查询 。 

。 多 媒体 数据 库 正 变 得 越 来 越 重要 。 诸 如 基于 相似 性 的 检索 以 及 按 可 以 确保 的 速率 传输 数据 那样 的 问 
题 是 当前 研究 的 重要 课题 。 

© 移动 计算 系统 的 普及 使 得 人 们 对 在 这 类 系统 上 运行 的 数据 库 系 统 产 生 了 兴趣 。 在 这 类 系统 中 的 查询 

处 理 可 能 会 涉及 在 服务 器 端 数据 库 上 的 查找 。 查 询 代 价 模 型 必须 包括 通信 代价 ， 其 中 包括 金钱 上 的 

成 本 和 电池 电源 的 成 本 ， 它 们 对 于 移动 系统 来 说 是 相对 较 高 的 。 

广播 方式 比 点 对 点 通信 在 每 接收 者 上 的 成 本 要 便宜 得 多 ， 诸 如 股市 之 类 数据 的 广播 有 助 于 移动 系统 



































低 成 本 地 接收 数据 。 

。 连接 断 开 操作 、 广 播 数 据 的 使 用 和 数据 缓存 是 移动 计算 中 正 致力 解决 的 三 个 重要 问题 。 
术语 回顾 
。 时 态 数 据 。 地 理 数据 次 方 分 裂 
。 有 效 时 间 。 光栅 数据 © 多 媒体 数据 库 
。 事务 时 间 。 矢量 数据 。 等 时 数据 
。 时 态 关 系 © 全 球 定位 系统 (CPS) 。 连续 媒体 数据 
© 双 时 态 关系 。 空间 查询 。 基于 相似 性 的 检索 
。 全 球 协调 时 间 ( UTC ) © 临近 查询 © 多 媒体 数据 格式 
© 快照 关系 。 最 近邻 居 查 询 © 视频 服务 器 
。 时 态 查询 语言 。 区 域 查询 。 移动 计算 
© 时 态 选 择 。 空间 连接 口 移动 主机 
。 时 态 投影 。 空间 数据 索引 口 移动 支持 站 点 
。 时 态 连 接 。k-d 树 口 单元 
。 空间 和 地 理 数据 © k-d-B 树 O 交接 
© 计算 机 辅助 设计 (CAD ) 数 据 。 四 又 树 。 位 置 相 关 查 询 
。 地 理 数 据 O PR 四 又 树 。 广播 数据 
。 地 理 信息 系统 区 域 四 又 树 sa 一 致 性 
。 三 角 剖 分 。R 树 失效 报告 
© 设计 数据 库 口 边界 框 口 版 本 向 量 方案 
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实践 习题 

25.1 时 间 有 哪 两 种 类 型 ? 怎样 区 分 它们 ? 为 什么 将 一 个 元 组 与 这 两 类 时 间 联 系 起 来 是 有 意义 的 ? 

25.2 假设 有 一 个 关系 包含 *，y 坐标 和 餐馆 名 。 并 假设 查询 只 能 是 如 下 形式 : 查询 指定 一 个 点 ， 问 是 否 恰 
好 有 一 家 餐馆 在 这 个 点 上 。R 树 或 B 树 哪 一 种 索引 更 好 ? 为 什么 ? 

25.3 ”假设 有 一 个 空间 数据 库 支 持 区 域 查询 ( 圆 形 区 域 ) ， 但 不 支持 最 近邻 居 查 询 。 描 述 一 个 算法 ， 通 过 利 
用 多 个 区 域 查询 来 找到 最 近 的 邻居 。 

25.4 假设 要 在 R 树 中 存储 线段 。 如 果 线 段 与 坐标 轴 不 平行 ， 它 的 边界 框 会 很 大 ， 并 包含 大 量 的 空白 区 域 。 
。 请 说 明 在 查询 与 一 个 给 定 区 域 相交 的 线段 时 ， 大 边界 框 对 性 能 的 影响 。 
。 简要 描述 一 种 能 提高 此 类 查询 性 能 的 技术 ， 并 给 出 体现 其 优点 的 例子 。 提 示 : 可 以 把 线段 分 为 更 


小 的 部 分 。 
25.5 请 给 出 一 个 使 用 R 树 索引 来 有 效 计算 两 个 关系 的 空间 连接 的 递归 过 程 。( 提示 : 使 用 边界 框 检查 一 对 
内 部 结 点 之 下 的 叶 结 点 项 是 否 相交 。) 
25.6 描述 RAID 磁盘 组 织 (10.3 节 ) 中 的 想法 是 如 何 应 用 于 数据 广播 环境 的 ， 该 环境 中 有 时 会 有 噪音 阻止 
部 分 传输 数据 的 接收 。 


25.7 定义 一 个 重复 广播 数据 的 模型 ， 其 中 广播 介质 建 模 为 一 个 虚拟 磁盘 。 描 述 这 个 虚拟 磁盘 的 存 取 时 间 和 
数据 传输 率 与 一 个 普通 硬盘 的 对 应 值 的 差异 。 

25.8 考虑 一 个 将 所 有 文档 保存 在 中 央 数 据 库 的 文档 数据 库 。 有 些 文档 的 副本 存储 在 移动 计算 机 上 。 假设 移 
动 计算 机 A 在 断 开 连 接 期 间 更 新 了 文档 1 的 副本 ， 同 时， 移动 计算 机 B 在 断 开 连接 期 间 更 新 了 文档 2 
的 副本 。 请 说 明 在 移动 计算 机 重新 连接 时 ， 版 本 向 量 方案 如 何 保证 对 中 央 数 据 库 和 移动 计算 机 的 正确 
更 新 。 

习题 

25.9 ”如 果 通 过 增加 一 个 时 间 属 性 来 将 关系 转换 为 时 态 关 系 ， 函 数 依 赖 能 够 保持 吗 ? 这 一 问题 在 时 态 数据 库 
中 是 怎样 处 理 的 ? 

25.10 考虑 二 维 矢量 数据 ， 其 中 的 数据 项 互 不 重合 。 是 否 可 以 把 这 些 矢 量 数据 转换 为 光栅 数据 ? 如 果 可 以 ， 
存储 经 过 这 种 变换 得 到 的 光栅 数据 而 非 原 始 矢量 数据 有 什么 缺点 ? 

25. 11 研究 你 使 用 的 数据 库 系统 所 提供 的 空间 数据 支持 ， 实 现 以 下 内 容 : 
a. 一 个 模式 ， 描 述 饭 店 的 地 理 位 置 和 其 他 特征 ， 如 饭店 提供 的 豪 调 风格 和 消费 级 别 。 
b 一 个 查询 ， 和 寻找 中 等 价位 的 提供 印度 食物 ， 并 且 距 离 你 的 房子 (为 你 的 房子 假设 一 个 任意 的 位 置 ) 

5 英里 以 内 的 饭店 。 

c. 一 个 查询 ， 为 每 个 饭店 寻找 其 与 最 近 的 一 个 具有 相同 的 毫 调 风格 和 消费 级 别 的 饭店 之 间 的 距离 。 

25.12 ”在 连续 媒体 系统 中 ， 如 果 数 据 传送 过 慢 或 过 快 会 导致 什么 问题 ? 

25.13 ” 列 出 无 线 网 络 上 的 移动 计算 与 传统 分 布 式 系统 相 区 别 的 三 个 主要 特性 。 

25.14 列 出 传统 查询 优化 器 没有 考虑 ， 但 在 移动 计算 的 查询 优化 中 需要 考虑 的 三 个 因素 。 

25.15 给 出 版 本 向 量 方案 无 法 保证 可 串 行 性 的 例子 。( 提示 : 使 用 实践 习题 25. 8 中 的 例子 ， 假 设 文档 1 和 
文档 2 在 移动 计算 机 A 和 B 上 都 可 用 ， 并 考虑 文档 读 出 时 没有 被 更 新 的 可 能 性 。) 


文献 注解 


Stam 和 Snodgrass[ 1988 ] 和 Soo[ 1991 ] 提供 了 关于 时 态 数据 管理 的 概览 。Jensen 等 [1994 ] 给 出 了 时 态 数 
据 库 概 念 的 一 个 术语 表 ， 旨 在 统一 术语 。Tansel 4 [1993 ] 是 有 关 时 态 数据 库 不 同方 面 文章 的 一 个 汇集 。 
Chomicki[ 1995 ] 给 出 了 管理 时 态 完整 性 约束 的 技术 。 

Heywood 等 [2002 | 是 讲述 地 理 信息 系统 的 教科 书 。Samet[ 1995b] 是 关于 空间 索引 结构 上 大 量 工作 的 一 个 
综述 。Samet[ 1990 | 和 Samet[ 2006 | 是 讲述 空间 数据 结构 的 教科 书 。Finkel 和 Bentley [1974 | 中 有 对 四 叉 树 的 
早期 描述 。Samet[ 1990 ] 和 Samet[ 1995b ] 描述 了 四 叉 树 的 各 种 变 体 。Bentley[ 1975 ] #38 T k-d 树 ，Robinson 
[1981] 描 述 了 k-d-B 树 。Guttman[ 1984 最 先 提 出 了 R 树 。R 树 的 各 种 扩展 由 Sellis 等 [1987 ] 作 了 阐述 ， 其 
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中 描述 了 R Bf, Beckmann 等 [1990] 描 述 了 R 树 。 
Brinkhoff 等 [1993 ] 讨论 了 使 用 R 树 来 实现 空间 连接 。Lo 和 Ravishankar | 1996 ] 以 及 Patel 和 DeWitt 
[1996] 介 绍 了 计算 空间 连接 的 基于 划分 的 方法 。Samet 和 Aref[ 1995 ] 综 述 了 空间 数据 模型 、 空 间 运 算 以 及 空 
间 与 非 空间 数据 的 集成 。 
Revesz[ 2002 ] 是 讲述 约束 数据 库 方面 领域 的 教科 书 ; 时 间 间 隔 和 空间 区 域 可 以 看 作 是 约束 的 特殊 情况 。 
Samet[ 1995a ] 阐述 了 多 媒体 数据 库 中 的 研究 问题 。Faloutsos 和 Lin[ 1995 ] 讨论 了 多 媒体 数据 的 索引 
Dashti 等 [2003 ] 是 讲述 流 媒 体 服务 器 设计 的 教科 书 ， 包 括 对 磁盘 子 系统 上 数据 组 织 的 详细 介绍 。 
Anderson “#[ 1992] 、Rangan 等 [1992 ] 、Ozden 4 [ 1994] Freedman 和 DeWitt[ 1995 ] 以 及 Ozden 等 [1996b | 
讨论 了 视频 服务 器 。Berson 等 [1995 ] 和 Ozden 等 [1996a] 讨 论 了 容错 性 。 
1089 Alonso 和 Korth[ 1993 ] 以 及 Imielinski 和 Badrinath [ 1994 ] 研究 了 包括 移动 计算 机 的 系统 中 的 信息 管理 。 
1090| Imielinski 和 Korth [1996] 介 绍 了 移动 计算 及 关于 该 主题 的 一 系列 研究 论文 。 
Popek 等 [1981 ] 以 及 Parker 等 [1983 ] 阐述 了 用 来 检测 分 布 式 文件 系统 中 的 不 一 致 性 的 版 本 向 量 方案 。 


第 26 章 


Database System Concepts, 6E 


高 级 事务 处 理 


在 第 14 章 、 第 15 章 和 第 16 章 中 ,我们 介绍 了 事务 的 概念 ， 事 务 是 一 个 程序 的 单位 ， 它 对 各 种 数 
据 项 进行 访问 或 更 新 ， 它 的 执行 确保 具有 ACID 特性 。 在 那 几 章 中 ,我 们 讨论 了 在 可 能 发 生 故 障 以 及 
可 能 并 发 运行 多 个 事务 的 环境 中 ， 为 保证 ACID 特性 所 采用 的 各 种 技术 。 

在 本 章 中 ， 我 们 比 以 前 讨论 过 的 基本 机 制 更 进一步 ， 介 绍 高 级 的 事务 处 理 概 念 ， 包 括 事务 处 理 监 
控 器 、 事 务工 作 流 以 及 在 电子 商务 环境 中 的 事务 处 理 。 我 们 还 涵盖 主 存 数据 库 、 实 时 数据 库 、 长 事务 
以 及 嵌 套 事务 。 


26. 1 事务 处 理 监控 器 


在 20 世纪 70 年代 和 80 年 代 开发 的 事务 处 理 监控 器 (TP monitor) 系统 ， 早 期 是 为 了 响应 单 台 计算 
机 支持 大 量 远程 终端 (例如 机 票 预订 终端 ) 的 需求 。 术 语 TP 监控 器 原来 代表 远程 处 理 监控 器 
(teleprocessing monitor) 。 

TP 监控 器 后 来 演化 为 提供 对 分 布 式 事务 处 理 的 核心 支持 ， 于 是 TP 监控 器 这 个 术语 获得 了 它 现在 
的 含义 。IBM 公司 的 CICS TP 监控 器 是 最 早 的 TP 监控 器 之 一 ， 应 用 非常 广泛 。 其 他 TP 监控 器 包括 
Oracle Tuxedo 和 Microsoft Transaction Server。 

Web 应 用 服务 器 体系 结构 包括 之 前 我 们 在 9. 3 节 学 习 的 servlets， 它 支持 TP 监控 器 的 许多 特性 ， 有 
时 候 被 称 为 “TP lite”, Web 应 用 服务 器 现在 正 被 广泛 使 用 ， 已 经 在 许多 应 用 中 替代 了 传统 TP 监控 器 。 
然而 ， 我 们 在 本 节 所 学 习 的 它们 的 基本 概念 在 本 质 上 是 一 样 的 。 


26.1.1 TP 监控 器 体系 结构 
大 规模 的 事务 处 理 系统 建立 在 客户 - 服务 器 体系 结构 之 上 。 构 建 这 种 系统 的 一 种 方式 是 为 每 个 客 
户 端 分 配 一 个 服务 器 进程 。 服 务 器 进行 认证 ， 然 后 执行 客户 端 请 求 的 动作 。 图 26- 1a 描述 了 这 种 每 客 
户 端 进程 模型 ( process-per-client model) 。 这 种 模型 在 内 存 利 用 和 处 理 速度 方面 存在 几 个 问题 : 
。 每 个 进程 的 内 存 需 求 量 很 大 。 即 使 程序 代码 所 用 的 内 存 是 由 所 有 进程 共享 的 ， 每 个 进程 还 要 耗 
费用 于 本 地 数据 和 打开 文件 描述 符 的 内 存 ， 以 及 用 于 操作 系统 的 开销 ， 如 支持 虚拟 内 存 的 
页 表 。 
。 操作 系统 通过 在 进程 间 的 切换 来 划分 可 利用 的 CPU 时 间 ， 这 种 技术 称 作 多 任务 调度 
(multitasking) 。 在 一 个 进程 和 下 一 个 进程 之 间 的 每 次 上 下 文 切换 (context switch ) 都 需要 相当 大 
的 CPU 开销 ， 即 使 在 目前 相当 快 的 系统 上 ， 一 次 上 下 文 切 换 也 要 花 数 百 微 秒 的 时 间 。 
通过 使 用 与 所 有 远程 客户 端 都 连接 的 单 服务 进程 可 以 避免 上 述 问 题 ， 这 种 模式 称 作 单 服务 器 模型 
(single-server model) ， 如 图 26-1b 所 示 。 远 程 客户 端 将 请 求 发 送 到 服务 器 进程 ， 然 后 由 服务 器 进程 执行 
这 些 请 求 。 这 种 模型 也 用 于 客户 - 服务 器 环境 中 ， 客 户 端 将 请 求 发 送 到 单 服务 器 进程 。 服 务 器 进程 处 
理 通 常 由 操作 系统 执行 的 任务 ， 例 如 用 户 认 证 。 为 了 避免 在 处 理 一 个 客户 端的 长 时 间 请 求 时 阻塞 其 他 
客户 端 ， 服 务 器 进程 是 多 线程 (multithread ) AY: 服务 器 进程 对 每 个 客户 端 有 一 个 线程 来 控制 ， 并 且 事 
实 上 是 在 实现 它 自己 的 低 开 销 多 任务 调度 。 它 为 一 个 客户 端 执行 一 段 时 间 的 代码 ， 然 后 保存 内 部 的 上 
下 文 ， 并 切换 到 另 一 个 客户 端的 代码 上 。 与 完全 多 任务 调度 不 同 ， 在 线程 之 间 切 换 的 代价 很 小 (通常 仅 
要 几 微 秒 ) 。 
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远程 客户 端 服务 器 StF 远程 客户 端 服务 器 BS 
a) 每 客户 端 进程 模型 





远程 客户 端 路 由 器 服务 器 文件 ”远程 客户 端 ” 路 由 器 服务 器 文件 
c) 多 服务 器 单 路 由 器 模型 d) 多 服务 器 多 路 由 器 模型 
图 26-1 TP 监控 器 体系 结构 


基于 单 服务 器 模型 的 系统 ， 例 如 IBM CICS TP 监控 器 的 原始 版 本 ， 以 及 像 Novel 的 NetWare 这 样 的 
文件 服务 器 ， 在 资源 有 限 的 情况 下 成 功 地 提供 了 较 高 的 事务 率 。 然 而 ， 它 们 存在 一 些 问题 ， 尤 其 是 当 
多 个 应 用 访问 同一 数据 库 时 : 
se 由 于 所 有 应 用 作为 单个 进程 运行 ， 它 们 之 间 没 有 保护 。 一 个 应 用 中 的 错误 会 影响 到 所 有 其 他 应 
用 。 最 好 是 每 个 应 用 作为 一 个 单独 的 进程 运行 。 

© 这 样 的 系统 不 适合 于 并 行 数据 库 或 分 布 式 数 据 库 ， 因 为 一 个 服务 器 进程 不 能 同时 在 多 台 计 算 机 
上 执行 。( 然 而 ， 在 共享 内 存 多 处 理 器 系统 中 可 以 支持 一 个 进程 中 有 多 个 并 发 线程 ,) 在 大 型 组 
织 机 构 中 这 是 一 个 严重 的 缺陷 ， 因 为 其 中 的 并 行 处 理 对 处 理 大 型 负载 十 分 关键 ,而 且 分 布 式 数 
据 正 变 得 越 来 越 普 遍 。 

解决 这 些 问 题 的 一 个 办 法 是 运行 多 个 访问 公共 数据 库 的 应 用 服务 器 进程 ， 并 且 让 客户 端 通过 一 个 
单独 的 路 由 请 求 的 通信 进程 与 应 用 通信 。 这 种 模型 称 作 多 服务 器 单 路 由 器 模型 ( many-server，single- 
router model) ， 如 图 26-1c 所 示 。 这 种 模型 为 多 个 应 用 提供 独立 的 服务 器 进程 ; 而 且 ， 每 个 应 用 可 以 有 
一 个 服务 器 进程 池 ， 其 中 任何 一 个 进程 都 可 以 处 理 客户 端 会 话 。 例 如 ， 请 求 可 以 路 由 到 进程 池 中 负载 
最 轻 的 服务 器 上 。 如 前 所 述 ， 每 个 服务 器 进程 本 身 可 以 是 多 线程 的 ， 因 此 它 可 以 并 发 地 处 理 多 个 客户 
端 。 作 为 更 进一步 的 推广 ， 应 用 服务 器 可 以 在 并 行 数 据 库 或 分 布 式 数据 库 的 不 同 站 点 上 运行 ， 并 且 通 
信 进 程 可 以 在 这 些 进 程 间 进行 协同 。 

上 述 体系 结构 也 广泛 应 用 于 Web 服务 器 。Web 服务 器 有 一 个 接收 HTTP 请 求 的 主 进程 ， 然 后 将 处 
理 各 个 请 求 的 任务 分 配给 单独 的 进程 (从 进程 池 中 选择 ) 。 每 个 进程 本 身 是 多 线程 的 ， 以 便 处 理 多 个 请 

1092] 求 。 使 用 安全 的 编程 语言 ， 例 如 Java、C# 或 Visual Basic， 人 允许 Web 应 用 服务 器 能 够 保护 线程 免 受 其 他 
ae 线程 错误 的 影响 。 相 比 之 下 ， 如 果 使 用 C 或 C++ 这 样 的 语言 ， 一 个 线程 中 像 内 存 分 配 错 误 这 样 的 错误 
可 能 引起 其 他 线程 的 失败 。 

一 种 更 通用 的 体系 结构 是 有 多 个 进程 而 不 仅 是 一 个 进程 ， 来 与 客户 端 通信 。 客 户 端 通信 进程 与 一 
个 或 多 个 路 由 进程 交互 ， 多 个 路 由 将 请 求 路 由 给 恰当 的 服务 器 。 因 此 新 一 代 TP 监控 器 具有 一 种 不 同 的 
体系 结构 ， 称 作 多 服务 器 多 路 由 器 模型 ( many-server，many-router model) ， 如 图 26-1d 所 示 。 一 个 控制 
进程 启动 其 他 进程 并 监控 它们 的 工作 。 超 高 性 能 的 Web 服务 器 系统 也 采用 这 种 体系 结构 。 路 由 进程 通 
常 是 网 络 路 由 器 ， 它 们 根据 通信 量 的 来 源 将 到 达 同 一 互联 网 地 址 的 通信 量 分 流 到 不 同 的 服务 器 计算 机 
上 。 外 部 世界 看 似 具 有 单一 地 址 的 单 台 服务 器 可 能 是 服务 器 的 集合 。 

TP 监控 器 的 详细 结构 如 图 26-2 ras. TP 监控 器 不 仅仅 是 简单 地 将 消息 传送 给 应 用 服务 器 。 当 消 
息 到 达 时 ， 必 须 将 它们 放 人 到 队列 中 ; 因此 ， 有 一 个 队列 管理 器 (queue manager) 来 管理 到 达 的 消息 。 
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队列 可 以 是 一 个 持久 队列 (durable queue) ， 即 使 在 系统 故障 时 其 中 的 项 也 会 保留 下 来 。 使 用 持久 队列 
有 助 于 确保 消息 一 旦 收 到 并 保存 在 队列 中 ， 无 论 系 统 是 否 发 生 故障 ， 消 息 最 终 都 会 得 到 处 理 。 授 权 和 
应 用 服务 器 管理 (例如 ， 服 务 器 启动 和 路 由 到 服务 器 的 消息 ) 是 TP 监控 器 的 进一步 功能 。TP 监控 器 通 
常 提 供 日 志 、 人 恢复 和 并 发 控制 功能 ， 人 允许 应 用 服务 器 在 需要 时 直接 实现 事务 的 ACID 特性 。 


| 


封锁 管理 器 





















| 数据 库 和 资源 管理 器 


È 输出 队列 


26-2 TP 监控 器 构成 成 分 


最 后 ，TP 监控 器 还 提供 对 持久 消息 的 支持 。 回 想 一 下 ,持久 消息 (19.4.3 节 ) 提 供 了 一 个 保证 : 
当 ( 且 仅 当 ) 事 务 提交 ， 消 息 才 会 被 发 送 。 

除了 这 些 功能 之 外 ,许多 TP 监控 器 还 为 像 终 端 这 样 的 哑 客 户 端 提供 了 表示 功能 (presentation 
facility) ， 以 创建 菜单 或 表格 界面 ; 由 于 哑 客 户 端 不 再 被 广泛 使 用 ， 这 样 的 功能 就 不 再 重要 了 . 
26.1.2 使 用 TP 监控 器 进行 应 用 协调 

当前 的 应 用 经 常 要 与 多 个 数据 库 交互 。 它 们 还 可 能 与 遗产 系统 进行 交互 ， 例 如 直接 建立 在 文件 系统 
上 的 专用 数据 存储 系统 。 最 后 ， 它 们 可 能 与 远程 站 点 上 的 用 户 或 其 他 应 用 通信 。 因 此 ， 它 们 还 必须 与 通 
信子 系统 交互 。 对 于 跨越 在 这 些 系 统 上 的 事务 ， 能 够 对 数据 访问 进行 协调 ， 并 实现 ACID 特性 是 很 重要 的 ， 

现代 TP 监控 器 为 构建 和 管理 这 种 由 多 个 子 系统 (例如 数据 库 、 遗 产 系统 和 通信 系统 ) 构 成 的 大 型 
应 用 提供 了 支持 。TP 监控 器 将 每 个 子 系统 作为 一 个 资源 管理 器 (resource manager) ， 它 提供 对 某 些 资源 
集 的 事务 性 访问 。TP 监控 器 与 资源 管理 器 之 间 的 接口 由 一 组 事务 原 语 来 定义 ， 例 如 begin_transaction , 
commit_transaction , abort_transaction 和 prepare_to_commit_transaction ( 用 于 两 阶段 提交 ) 。 当 然 ， 资 源 管 
理 器 还 必须 为 应 用 提供 其 他 服务 ， 如 提供 数据 。 

资源 管理 器 接口 由 X/Open 分 布 式 事务 处 理 标 准 定义 。 许 多 数据 库 系统 支持 X/Open 标准 ， 并 且 可 
以 充当 资源 管理 器 。TP 监控 器 (以 及 其 他 产品 ， 例 如 支持 X/Open 标准 的 SQL ABE) 可 以 与 资源 管理 器 
连接 。 

另外 ，TP 监控 器 还 提供 诸如 持久 消息 和 持久 队列 服务 ， 起 到 支持 事务 的 资源 管理 器 的 作用 。TP 
监控 器 可 以 担当 访问 这 些 服务 和 数据 库 系统 的 事务 的 两 阶段 提交 的 协调 者 。 例 如 ， 当 排 到 队列 中 的 一 
个 更 新 事务 被 执行 时 ， 会 发 送 一 条 输出 消息 ， 然 后 请 求 事务 从 请 求 队列 中 删除 。 对 于 持久 队列 和 持久 
消息 ， 数 据 库 与 资源 管理 器 之 间 的 两 阶段 提交 有 助 于 确保 无 论 是 否 出 现 故障 ， 所 有 这 些 动作 要 么 都 发 
生 ， 要 么 都 不 发 生 。 

我 们 还 可 以 使 用 TP 监控 器 来 管理 包括 多 个 服务 器 和 大 量 客户 端的 复杂 的 客户 -服务 器 系统 。TP 
监控 器 协调 诸如 系统 检查 点 和 系统 关闭 那样 的 活动 。 它 提供 安全 性 和 客户 端 认 证 。 它 管理 服务 器 缓冲 
池 ， 使 得 不 用 中 断 数 据 库 系统 就 能 增加 或 删除 服务 器 。 最 后 ， 它 控制 故障 的 范围 。 如 果 一 台 服 务 器 发 
生 了 故障 ，TP 监控 器 能 检测 到 这 一 故障 ， 中 止 正在 进行 的 事务 ， 并 重新 启动 事务 。 如 果 一 个 结 点 发 生 
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了 故障 ，TP 监控 器 能 够 将 事务 移 到 其 他 结 点 的 服务 器 上 去 ， 并 重新 恢复 未 完成 的 事务 。 当 故障 结 点 重 
新 启动 时 ，TP 监控 器 能 够 控制 结 点 上 的 资源 管理 器 的 恢复 。 

在 复制 系统 中 ， 可 以 用 TP 监控 器 来 隐藏 数据 库 故障 ; 远程 备份 系统 ( 见 16.9 节 ) 就 是 复制 系统 的 
一 个 例子 。 事 务 请 求 发 送 到 TP 监控 器 ，TP 监控 器 再 将 消息 传播 给 某 个 数据 库 副 本 (如 果 在 远程 备份 系 
统 中 ， 就 是 主 站 点 ) 。 如 果 某 个 站 点 发 生 故 障 ，TP 监控 器 可 以 透明 地 将 消息 路 由 到 一 个 备份 站 点 ， 以 
隐藏 第 一 个 站 点 的 故障 。 

在 客户 - 服务 器 系统 中 ， 客 户 端 通常 通过 远程 过 程 调 用 ( Remote-Procedure-Call，RPC ) 机 制 与 服务 
器 交互 。 在 RPC 机 制 中 客户 端 调 用 实际 上 在 服务 器 端 执行 的 过 程 ， 将 结果 返回 给 客户 端 。 从 调用 RPC 
的 客户 端 代码 来 看 ， 该 调用 看 起 来 就 和 调用 本 地 过 程 一 样 。TP 监控 器 系统 为 它们 的 服务 提供 了 一 个 事 
务 RPC(transactional RPC) 接口 。 在 这 样 的 接口 中 ，RPC 机 制 提供 一 些 调用 ， 用 于 将 一 系列 RPC 调用 
包括 在 一 个 事务 中 。 这 样 ， 由 一 个 RPC 执行 的 所 有 更 新 都 是 在 该 事务 的 范围 内 执行 的 ， 如 果 发 生 故障 
的 话 可 以 回 滚 。 


26.2 事务 工作 流 


工作 流 (workflow) 是 一 种 活动 ， 其 中 多 个 任务 由 不 同 处 理 实体 以 互相 协同 的 方式 执行 。 任 务 ( task) 
定义 了 要 做 的 某 项 工作 ， 并 且 可 以 用 多 种 方式 来 说 明 ， 包 括 文件 中 的 文本 描述 、 电 子 邮件 消息 、 表 单 、 
消息 或 计算 机 程序 。 执 行 任 务 的 处 理 实体 ( processing entity) 可 以 是 人 或 软件 系统 (例如 ， 邮 件 发 送 器 、 
应 用 程序 或 数据 库 管理 系统 ) 。 

图 26-3 显示 了 工作 流 的 一 些 例子 。 电 子 邮件 系统 就 是 工作 流 的 一 个 简单 例子 。 一 条 邮件 消息 的 发 
送 可 能 涉及 几 个 邮件 系统 ， 它 们 接收 和 转发 邮件 消息 ， 直 至 消息 到 达 存 放 它 的 目的 地 。 在 数据 库 和 相 
关 文 献 中 用 来 指 代 工 作 流 的 其 他 术语 包括 任务 流 (task flow) 和 多 系统 应 用 ( multisystem application) 。 工 
作 流 任务 有 时 也 称 为 步骤 (step) 。 


AASA 
电子 邮件 路 由 电子 邮件 消息 邮件 发 送 器 


表格 处 理 人 、 应 用 软件 
人 、 应 用 软件 、 数 据 库 
表格 处 理 管理 系统 
图 26-3 工作 流 示 例 


一 般 说 来 ， 工 作 流 可 能 涉及 一 个 或 多 个 人 。 例如， 考虑 借贷 的 处 理 过 程 ， 相 关 的 工作 流 如 图 26-4 
所 示 。 想 要 贷款 的 人 填写 表格 ,然后 由 借贷 工作 人 员 检 查 这 个 表格 。 处 理 借贷 申请 的 员工 使 用 诸如 信 
用 证 明 局 那样 的 资源 来 查证 表格 中 的 数据 。 当 需要 的 所 有 信息 收集 完 后 ， 借 贷 工作 人 员 可 能 决定 批准 
这 笔 贷款 ,这 一 决定 随后 也 许 需 要 经 一 个 或 多 个 上 级 工作 人 员 批 准 ， 之 后 才 可 以 进行 贷款 。 这 里 每 个 
人 执行 一 个 任务 ， 在 借贷 处 理 任务 尚未 自动 化 的 银行 里 ， 任 务 间 的 协同 一 般 是 通过 从 一 个 工作 人 员 向 
下 一 个 工作 人 员 传 递 借 贷 申请 ( 附 上 票据 和 其 他 信息 ) 来 完成 的 。 工 作 流 的 其 他 例子 包括 开支 凭单 处 
理 、 订 单 处 理 、 信 用 卡 事务 处 理 。 


LN 


N 


图 26-4 借贷 处 理 中 的 工作 流 
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当今 ， 有 关 工 作 流 的 所 有 信息 大 都 以 数字 化 形式 存储 在 一 台 或 多 台 计 算 机 中 ， 而 且 ， 随 着 网 络 的 
发 展 ， 信 息 可 以 很 容易 地 从 一 台 计 算 机 传送 到 另 一 台 计 算 机 。 因 此 ， 组 织 机 构 工 作 流 的 自动 化 是 可 行 
的 。 例 如 ， 为 了 使 借贷 处 理 所 涉及 的 任务 自动 化 , 我 们 可 以 把 借贷 申请 和 相关 信息 存储 在 数据 库 中 。 
这 样 工作 流 本 身 就 需要 将 责任 从 一 个 人 转交 给 下 一 个 人 ， 甚 至 可 能 转交 给 能 自动 获取 所 需 信 息 的 程序 。 
人 员 之 间 可 以 通过 电子 邮件 之 类 的 途径 来 协调 他 们 的 活动 。 

工作 流 在 机 构 中 以 及 机 构 之 间 变 得 越 来 越 重要 ， 其 原因 是 多 方面 的 。 当 今 许 多 组 织 机 构 拥 有 多 种 
软件 系统 ， 它 们 必须 能 够 协同 工作 。 例 如 ， 当 一 名 员工 加 入 一 个 机 构 时 ， 有 关 这 名 员工 的 信息 可 能 要 
提交 到 薪酬 系统 、 图 书馆 系统 、 人 允许 用 户 登 录 到 计算 机 的 认证 系统 、 管 理 自助 餐厅 账户 的 系统 ， 等 等 。 
信息 的 更 新 ， 例 如 当 员工 改变 了 身份 或 者 离开 了 机 构 ， 也 需要 传播 到 所 有 的 系统 。 

组 织 机 构 正 令 它 们 的 服务 日 益 自 动 化 ; 例如 ， 供 货 商 可 以 为 客户 端 提供 自动 化 的 系统 以 提交 订单 。 
当 一 份 订 单 提交 时 也 许 需 要 执行 几 个 任务 ， 包 括 预 留 生 产 所 订购 产品 的 生产 时 间 和 递送 该 产品 的 递送 
服务 时 间 。 

为 使 工作 流 自 动 化 ， 我 们 一 般 需 要 强调 两 个 活动 。 第 一 个 是 工作 流 说 明 ( workflow specification ) : 
详细 描述 必须 执行 的 任务 并 定义 执行 需求 。 第 二 个 问题 是 工作 流 执行 (workflow execution) ， 在 执行 工作 
流 的 同时 必须 提供 与 计算 正确 性 、 数 据 完整 性 和 持久 性 相关 的 传统 数据 库 系统 安全 措施 。 例 如 ， 由 于 
系统 崩溃 造成 的 借贷 申请 或 赁 单 丢失 ， 或 者 多 次 处 理 都 是 不 可 接受 的 。 事 务工 作 流 背后 的 思想 是 : 使 
用 事务 的 概念 并 将 它 扩 展 到 工作 流 环 境 中 。 

这 两 个 活动 都 很 复杂 ， 其 原因 是 许多 组 织 机 构 都 使 用 多 个 独立 管理 的 信息 处 理 系统 ， 在 大 多 数 情 
况 下 ， 这 些 系 统 是 分 别 开 发 以 对 不 同 功能 进行 自动 化 的 。 工 作 流 活动 可 能 需要 在 几 个 这 样 的 系统 之 间 
进行 交互 ， 每 个 活动 执行 一 个 任务 ， 并 且 与 人 进行 交互 。 

近年 来 人 们 已 经 开发 出 多 个 工作 流 系统 。 这 里 我 们 在 一 个 相对 抽象 的 层次 上 研究 工作 流 系 统 的 特 
性 ， 而 不 深入 到 任何 一 个 特定 系统 的 细节 。 

26.2.1 工作 流 说 明 
任务 的 内 部 方面 无 需 为 了 工作 流 的 说 明和 管理 的 目的 而 建 模 。 从 任务 的 抽象 视角 来 看 ， 任 务 可 以 
使 用 存放 在 它 的 输入 变量 中 的 参数 ， 可 以 检索 和 更 新 本 地 系统 中 的 数据 ， 可 以 将 它 的 结果 存放 到 它 的 
输出 变量 中 ， 可 以 查询 出 其 执行 状态 。 在 执行 过 程 中 的 任何 时 间 ， 工 作 流 状态 (workflow state) 包括 构 
成 该 工作 流 各 个 任务 的 状态 的 集合 ， 以 及 工作 流 说 明 中 所 有 变量 的 状态 ( 值 ) 。 
任务 之 间 的 协调 既 可 以 静态 地 声明 ， 也 可 以 动态 地 声明 。 静 态 声 明 在 工作 流 开始 执行 之 前 定义 任 
务 以 及 任务 之 间 的 依赖 关系 。 例 如 ， 开 支 凭 单 工作 流 中 的 任务 可 能 包括 秘书 、 经 理 、 会 计 按 顺 序 对 凭 
单 的 认可 ， 以 及 最 后 支票 的 交付 。 任 务 之 间 的 依赖 关系 可 能 很 简单 : 每 个 任务 必须 在 下 一 个 任务 开始 
之 前 完成 。 
该 策略 的 推广 是 ， 对 于 工作 流 中 每 个 任务 的 执行 都 有 一 个 前 提 条 件 ， 这 样 工作 流 中 所 有 可 能 的 任 
务 以 及 它们 之 间 的 依赖 关系 都 可 以 预先 知道 ， 但 是 只 有 那些 前 提 条 件 满 足 的 任务 才 会 被 执行 。 前 提 条 
件 可 以 通过 如 下 的 依赖 关系 来 定义 : 
© 其 他 任务 的 执行 状态 (execution state), PM, “任务 t BRT, EH t 才能 开始 "或 者 "如 果 任 
务 i 提交， 则 任务 1; 必须 中 止 ”。 

o 其 他 任务 的 输出 值 (output value)。 例 如 ,“ 如 果 任 务 t 返回 一 个 大 于 25 的 值 ， 则 任务 t; 可 以 开 
始 " 或 者 " 如果 秘书 审批 任务 返回 OK 值 ， 则 经 理 审批 任务 可 以 开始 ”。 

© 由 外 部 事件 修改 的 外 部 变量 (external variable). PMN, “上午 9 点 以 后 任务 i 才能 开始 "或 者 “在 
任务 # 完成 后 的 24 小 时 内 必须 开始 任务 1,”。 

我 们 可 以 用 通常 的 逻辑 连接 符 (or 、and 、not) 来 将 多 个 依赖 关系 组 合 在 一 起 ， 形 成 复杂 的 调度 前 
提 条 件 。 

任务 动态 调度 的 一 个 例子 是 电子 邮件 路 由 系统 。 对 于 给 定 的 邮件 消息 要 安排 的 下 一 个 任务 依赖 于 
消息 的 目的 地 址 是 什么 ， 以 及 哪些 中 间 路 由 器 在 运行 中 。 
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26.2.2 工作 流 的 故障 原子 性 需求 

工作 流 设 计 者 可 以 根据 工作 流 语义 来 声明 工作 流 的 故障 原子 性 (failure-atomicity ) 需求 。 传 统 故 障 原 
子 性 概念 会 要 求 当 任何 任务 发 生 故 障 时 就 导致 整个 工作 流 的 失败 。 但 是 在 许多 情况 下 ， 当 其 中 一 个 任 
务 发 生 故 障 时 工作 流 不 一 定 失败 ， 例 如 ， 可 以 通过 在 另 一 个 站 点 执行 一 个 功能 上 等 价 的 任务 来 使 工作 
流 完 成 。 因 此 ， 我 们 应 该 允许 设计 者 定义 工作 流 的 故障 原子 性 需求 。 系 统 必 须 保 证 工作 流 的 每 次 执行 
都 以 一 种 满足 设计 者 定义 的 故障 原子 性 需求 的 状态 终止 。 我 们 将 这 些 状态 称 作 工作 流 的 可 接受 终止 状 
Æ (acceptable termination state ) 。 工 作 流 的 所 有 其 他 执行 状态 构成 不 可 接受 终止 状态 ( nonacceptable 
termination state) 的 集合 ， 这 些 状态 可 能 违背 故障 原子 性 需求 。 

可 接受 终止 状态 可 以 指定 为 提交 的 或 中 止 的 。 提 交 的 可 接受 终止 状态 ( committed acceptable 
termination state) 是 工作 流 达 到 了 目标 的 执行 状态 。 相 反 ， 中 止 的 可 接受 终止 状态 (aborted acceptable 
termination state) 是 合法 的 终止 状态 ， 此 时 工作 流 未 能 达到 它 的 目标 。 如 果 达 到 了 一 个 中 止 的 可 接受 终 
止 状态 ， 那 么 工作 流 的 部 分 执行 产生 的 所 有 不 合 要 求 的 影响 都 应 该 按照 该 工作 流 的 故障 原子 性 需求 子 
以 撤销 。 

即使 在 发 生 系统 故障 的 情况 下 ， 工 作 流 也 必须 达到 一 个 可 接受 终止 状态 。 因 此 ， 如 果 当 发 生 故 障 
时 工作 流 处 于 一 个 不 可 接受 的 终止 状态 ,那么 在 系统 恢复 中 必须 使 它 进 入 一 个 可 接受 终止 状态 (中 止 
或 提交 颖 可 ) o 

例如 ， 借 贷 处 理工 作 流 中 ， 在 最 终 状 态 ， 要 么 告诉 贷款 申请 人 他 不 能 获得 贷款 ， 要 么 支付 贷款 。 
在 发 生 故 障 的 情况 下 ， 比 如 验证 系统 长 时 间 故 障 ， 可 以 用 适当 的 解释 将 贷款 申请 退回 给 贷款 申请 人 ， 
这 种 结局 构成 一 种 中 止 的 可 接受 终止 。 提 交 的 可 接受 终止 应 该 要 么 是 批准 贷款 ， 要 么 是 拒绝 贷款 。 

一 般 说 来 ， 在 工作 流 达 到 终止 状态 之 前 ， 任 务 可 以 提交 并 释放 其 所 占 资 源 。 然 而 ， 如 果 这 个 多 任 
务 事务 后 来 中 止 了 ， 其 故障 原子 性 可 能 要 求 通过 执行 补偿 任务 (作为 子 事务 ) 来 撤销 已 完成 任务 ( 例如 ， 
已 提交 的 子 事务 ) 所 造成 的 影响 。 补 偿 的 语义 要 求 补偿 事务 最 终 成 功 地 完成 它 的 执行 ， 也 许 需要 若干 次 
重新 提交 。 

例如 ， 在 开支 赁 单 处 理工 作 流 中 ， 由 于 开始 时 经 理 批 准 了 一 张 赁 单 ， 所 以 部 门 预算 的 余额 减少 了 ， 
如 果 后 来 由 于 故障 或 由 于 其 他 原因 ， 这 张 凭单 被 拒绝 了 ， 那 就 必须 通过 补偿 事务 来 恢复 预算 。 
26.2.3 工作 流 执行 

多 个 任务 的 执行 可 以 由 一 个 协调 人 来 控制 ,或 者 由 一 个 称 作 工作 流 管理 系统 (workflow-management 
system) 的 软件 系统 来 控制 。 工 作 流 管理 系统 包括 一 个 调度 器 、 多 个 任务 代理 和 一 个 查询 工作 流 系统 状 
态 的 机 制 。 任 务 代理 通过 处 理 实体 控制 任务 的 执行 。 调 度 器 是 一 个 对 工作 流 进行 处 理 的 程序 ， 它 将 不 
同 的 任务 交付 执行 ， 监 控 各 种 事件 ， 计 算 与 任务 间 依 赖 有 关 的 条 件 。 调 度 器 可 以 将 一 个 任务 交付 (给 任 
务 代理 ) 执 行 ， 也 可 以 要 求 中 止 一 个 先前 交付 执行 的 任务 。 在 多 数据 库 事务 的 情况 下 ， 任 务 是 子 事务 ， 
处 理 实体 是 本 地 的 数据 库 管 理 系统 。 调 度 器 依据 工作 流 说 明 ， 施 加 调度 依赖 并 负责 确保 任务 到 达 可 接 
受 的 终止 状态 。 

开发 工作 流 管理 系统 有 三 种 体系 架构 方法 。 集 中 式 体 系 结构 (centralized architecture ) 用 单个 调度 器 
去 调度 所 有 并 发 执行 工作 流 的 任务 。 部 分 分 布 式 体系 结构 ( partially distributed architecture ) 对 每 个 工作 
流 实例 化 一 个 调度 器 。 当 并 发 执行 问题 可 以 从 调度 功能 中 分 离 出 来 时 ， 后 一 种 是 很 自然 的 选择 。 完 全 
分 布 式 体系 结构 (fully distributed architecture) 没 有 调度 器 ， 而 由 各 个 任务 代理 通过 相互 之 间 的 通信 来 协 
调 它 们 的 执行 ， 以 满足 任务 间 的 依赖 关系 和 其 他 工作 流 执行 的 需求 。 - 

最 简单 的 工作 流 执行 系统 采用 前 述 的 完全 分 布 式 方式 ， 并 且 是 基于 消息 的 。 消 息 可 以 由 持久 消息 
机 制 来 实现 ， 以 提供 有 保证 的 传递 。 有 些 实现 使 用 电子 邮件 进行 消息 发 送 ， 这 种 实现 提供 持久 消息 的 
很 多 特点 ， 但 通常 不 保证 消息 发 送 和 事务 提交 的 原子 性 。 每 个 站 点 有 一 个 任务 代理 来 执行 通过 消息 接 
收 到 的 任务 。 执 行 中 也 可 能 会 将 消息 交 给 人 ， 由 人 随后 去 执行 某 些 动作 。 当 任务 在 一 个 站 点 上 完成 并 
需要 到 另 一 个 站 点 去 处 理 时 ， 任 务 代 理发 消息 给 下 一 个 站 点 。 消 息 中 包括 关于 待 执行 任务 的 所 有 相关 
信息 。 这 种 基于 消息 的 工作 流 系 统 对 于 在 部 分 时 间 内 可 能 会 断 开 连接 的 网 络 特 别 有 用 。 
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集中 式 方式 适用 于 数据 存储 在 中 央 数 据 库 中 的 工作 流 系统 。 调 度 器 通知 各 种 代理 (例如 人 或 计算 
机 程序 ) 有 任务 需要 执行 ， 并 且 跟 踪 任 务 的 完成 情况 。 在 集中 式 方 式 下 跟踪 工作 流 的 状态 比 在 完全 分 布 
式 方 式 下 要 更 容易 。 

调度 器 必须 保证 工作 流 终止 于 一 个 特定 的 可 接受 终止 状态 。 理 想 情 况 是 ， 在 打算 执行 工作 流 之 前 ， 
调度 器 应 该 检查 该 工作 流 ， 看 它 是 否 可 能 终止 于 一 个 不 可 接受 的 状态 。 如 果 调 度 器 不 能 保证 工作 流 将 
终止 于 一 个 可 接受 状态 ， 它 应 该 拒绝 这 样 的 工作 流 说 明 ， 而 不 应 该 试图 去 执行 它 。 作 为 一 个 例子 ， 我 
们 考虑 一 个 工作 流 ， 它 包括 两 个 任务 ， 表 示 为 子 事务 S 和 S,， 其 故障 原子 性 需求 指明 要 么 两 个 子 事务 
都 提交 ， 要 么 一 个 也 不 提交 。 如 果 S, 和 $ 没有 提供 (两 阶段 提交 的 ) 准备 提交 状态 ， 而 且 也 没有 补偿 
事务 ， 那 么 就 有 可 能 到 达 一 个 子 事务 提交 而 另 一 个 中 止 的 状态 ， 而 且 没 有 办 法 使 两 个 子 事务 到 达 同 一 
状态 。 因 此 ， 这 样 的 工作 流 说 明 是 不 安全 的 (unsafe) ， 应 该 拒绝 它 . 

在 调度 器 中 实现 诸如 上 述 的 安全 性 检查 可 能 是 不 可 能 的 或 者 不 现实 的 ， 这 样 保证 工作 流 的 安全 性 
就 变 成 了 工作 流 说 明 的 设计 者 的 责任 。 

26.2.4 TERRE 

TIERE (workflow recovery) 的 目标 是 保证 工作 流 的 故障 原子 性 。 恢 复 过 程 必须 保证 ， 如 果 任 何 
一 个 工作 流 处 理 构件 (包括 调度 器 ) 发 生 故障 ， 工 作 流 最 终 都 能 达到 一 个 可 接受 的 终止 状态 (中 止 的 或 
者 提交 的 ) 。 例 如 ， 在 故障 和 恢复 后 调度 器 可 以 继续 处 理 ， 就 像 什么 事 也 没 发 生 一 样 ， 从 而 提供 向 前 的 
可 恢复 性 。 和 否则 ， 调 度 器 可 以 中 止 整个 工作 流 ( 即 达到 一 个 全 局 中 止 状 态 ) 。 无 论 在 哪 种 情况 下 ， 都 可 
能 需要 提交 某 些 子 事务 或 者 甚至 将 某 些 子 事务 交付 执行 (例如 ， 补 偿 子 事务 ) 。 

我 们 假设 工作 流 中 涉及 的 处 理 实体 有 它们 自己 的 恢复 系统 ， 并 能 处 理 它们 的 本 地 故障 。 为 了 恢复 
执行 环境 的 上 下 文 ， 故 障 恢复 例 程 需 要 恢复 调度 器 在 发 生 故 障 时 的 状态 信息 ， 包 括 关 于 每 个 任务 执行 
状态 的 信息 。 因 此 ， 必 须 将 适当 的 状态 信息 作为 日 志 记录 到 稳定 存储 器 中 。 

我 们 还 需要 考虑 消息 队列 的 内 容 。 当 一 个 代理 将 任务 交 给 另 一 个 代理 时 ， 应 该 恰好 交接 一 次 。 如 
果 交 接 了 两 次 ,那么 一 个 任务 可 能 被 执行 了 两 次 ; 如 果 没 有 交接 ， 那么 任务 就 丢失 了 。 持久 消息 
(19.4.3 节 ) 恰 好 提供 了 保证 确实 是 单 次 交接 的 特性 。 

26.2.5 工作 流 管理 系统 

作为 应 用 系统 的 一 部 分 ， 工 作 流 常 常 是 手工 编码 的 。 例 如 ， 企 业 资 源 规划 (ERP) 系统 ， 用 于 帮助 
协调 整个 企业 内 部 的 活动 ， 其 内 部 就 嵌 有 许多 工作 流 。 

工作 流 管理 系统 的 目标 是 简化 工作 流 构造 并 使 得 它们 更 加 可 靠 ， 这 些 通过 人 允许 工作 流 以 高 层 的 形 
式 说 明 并 按照 相应 说 明 执 行 来 实现 。 有 大 量 商 用 的 工作 流 系统 ， 其 中 一 些 是 通用 的 工作 流 管理 系统 ， 
而 另 一 些 则 用 于 特殊 的 工作 流 ， 如 订单 处 理 或 错误 /失败 报告 系统 。 

当今 是 组 织 机 构 间 互联 的 世界 ， 只 在 一 个 组 织 机 构 内 部 管理 工作 流 是 不 够 的 。 跨 越 组 织 边界 的 工 
作 流 变 得 越 来 越 普 遍 。 例 如 ， 考 虑 由 某 个 组 织 下 达 订 单 ， 并 与 另 一 个 填充 该 订单 的 组 织 通信 。 在 每 个 
组 织 中 都 有 工作 流 与 此 订单 相 联系 ， 为 了 最 小 化 人 工 干预 ， 工 作 流 能 协同 工作 是 很 重要 的 。 

术语 业务 流程 管理 ( business process management) 用 来 指 跟 业务 流程 相关 的 工作 流 管理 。 如 今 ， 应 
用 越 来 越 多 地 把 它们 的 功能 变 成 可 以 被 其 他 应 用 调用 的 服务 ， 通 常 使 用 Web 服务 体系 结构 。 基 于 调用 
由 多 个 应 用 提供 的 服务 的 系统 体系 结构 称 为 面向 服务 的 体系 结构 ( Service Oriented Architecture, SOA), 
当今 的 工作 流 管理 是 在 这 些 服务 的 基层 之 上 实现 的 。 通 过 调用 服务 来 控制 工作 流 的 处 理 逻 辑 称 为 编排 
(orchestration ) 。 

基于 SOA 体系 结构 的 业务 流程 管理 系统 包括 Microsoft 的 BizTalk Server, IBM 的 WebSphere Business 
Integration Server Foundation 和 BEA 的 WebLogic Process Edition, “4%. 

Web 服务 业务 流程 执行 语言 (Web Services Business Process Execution Language, WS-BPEL) 是 基于 
XML 的 标准 ， 用 于 指定 Web 服务 和 基于 Web 服务 的 业务 流程 (工作 流 ) ， 可 以 通过 业务 流程 管理 系统 
执行 。 业 务 流程 建 模 标记 法 (Business Process Modeling Notation, BPMN) 是 为 工作 流 中 的 业务 流程 进行 
图 形 化 建 模 的 标准 。XML 流程 定义 语言 (XML Process Definition Language，XPDL) 是 业务 流程 定义 的 基 
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于 XML 的 表示 ， 它 基于 BPMN 图 。 


26.3 ”电子 商务 


电子 商务 指 通过 电子 手段 ( 主要 是 通过 因特网 ) 执行 与 商务 相关 的 各 种 活动 的 过 程 。 活 动 类 型 
包括 : 
© 预 售 活动 ， 需 要 将 待 出 售 的 产品 或 服务 告知 潜在 买 家 。 
。 销售 过 程 ， 包 括 价格 和 服务 质量 的 协商 ， 以 及 其 他 合同 事项 。 
© 市 场 : 当 同 一 个 产品 对 应 多 个 买 家 和 卖家 时 ， 市 场 (如 股票 交易 市 场 ) 有 助 于 协商 产品 的 销售 价 
格 。 当 只 有 一 个 卖家 和 多 个 买 家 时 ， 可 以 举行 拍卖 ;而 只 有 一 个 买 家 和 多 个 卖家 时 ， 可 以 举行 
反 向 拍卖 。 

。 销售 付款 。 

© 交付 产品 或 服务 的 相关 活动 。 一些 产品 和 服务 可 以 通过 因特网 交付 ; 对 于 其 他 的 ， 因 特 网 只 用 
于 提供 运送 信息 和 跟踪 产品 的 运送 。 

。 客户 支持 和 售后 服务 。 

数据 库 广 泛 应 用 于 支持 这 些 活 动 。 对 于 有 些 活动 ， 数 据 库 的 使 用 是 直接 的 ， 但 对 于 其 他 活动 还 存 
在 有 趣 的 应 用 开发 方面 的 问题 。 

26.3.1 电子 目录 

任何 电子 商务 站 点 都 给 用 户 提供 该 站 点 所 供应 的 产品 和 服务 目录 。 电 子 目录 提供 的 服务 可 以 有 很 
大 差别 。 

在 最 低 限 度 上 ， 电 子 目录 必须 提供 浏览 和 搜索 功能 ， 以 帮助 客户 发 现 他 们 寻找 的 产品 。 为 了 有 助 
于 浏览 ， 产 品 应 该 组 织 成 直观 的 层次 结构 ， 这 样 只 需要 点 击 很 少 次 的 超 链 接 就 可 以 引导 客户 找到 他 们 
感 兴趣 的 产品 。 客 户 提供 的 关键 词 ( 例 如 ,“ 数 码 相机 ”或 者 “计算 机 ”) 应 能 够 加 速 寻 找 所 需 产 品 的 过 
程 。 电 子 目录 还 应 该 提供 这 样 的 手段 ， 使 得 客户 能 够 容易 地 比较 从 竞争 产品 中 进行 的 不 同 选择 。 

电子 目录 可 以 为 客户 定制 。 比 如 ， 一 个 零售 商 可 能 同意 向 一 家 大 公司 打折 供应 一 些 产 品 。 这 家 公 
司 的 职员 在 为 公司 购买 产品 而 浏览 目录 时 ， 应 该 看 见 的 价格 单价 是 协商 好 的 打折 价格 ， 而 不 是 普通 价 
格 。 由 于 法 律 对 销售 某 些 类 型 的 商品 有 限制 ， 未 成 年 客户 或 者 来 自 特定 州 或 国家 的 客户 ， 就 不 应 该 看 
到 法 律 不 允许 卖 给 他 们 的 商品 。 对 于 个 人 用 户 ， 目 录 还 能 够 根据 以 前 的 购买 历史 进行 个 性 化 。 例 如 ， 
常客 可 以 在 某 些 商品 上 得 到 特殊 的 折扣 。 

支持 这 样 的 定制 ， 需 要 在 数据 库 中 存储 客户 信息 ， 以 及 特殊 的 价格 /折扣 信息 和 销售 限制 信息 。 在 
支持 很 高 的 事务 处 理 率 方面 还 有 一 些 挑战 ， 通 常用 对 查询 结果 或 所 生成 的 Web 页 面 进行 高 速 缓存 的 方 
式 来 处 理 。 


26.3.2 市 场 
当 同 一 个 产品 有 多 个 卖家 或 多 个 买 家 (或 两 者 都 有 ) 时， 市 场 有 助 于 协商 产品 的 销售 价格 。 存 在 几 
种 不 同类 型 的 市 场 : 
© 在 反 向 拍卖 (reverse auction) 系统 中 ， 买 家 提出 要 求 ， 卖 家 们 为 了 供应 商品 进行 投标 。 提 出 最 低 
价格 的 供应 商 获 胜 。 在 封闭 投标 系统 中 ， 出 价 是 不 公开 的 ， 而 在 公开 投标 系统 中 ， 出 价 是 公 
开 的 。 
© 在 拍卖 (auction) 中 ， 有 多 个 买 家 和 一 个 卖家 。 为 简单 起 见 ， 假 设 每 种 待 售 商品 只 有 一 件 实物 。 
买 家 为 待 售 商 品 进行 投标 。 为 商品 出 价 最 高 的 买 家 可 以 用 投标 价格 买 下 该 商品 。 
当 存 在 同一 商品 的 多 个 实物 时 ,情况 变 得 更 加 复杂 : 假设 有 四 件 商 品 ， 一 个 投标 者 愿意 用 
每 个 10 美元 的 价钱 买 下 3 个 ， 而 另 一 个 愿意 用 每 个 13 美元 的 价钱 买 下 2 个 。 显 然 不 可 能 同时 
满足 两 个 投标 者 。 如 果 商 品 没有 售 出 就 没有 任何 价值 (如 航班 座位 ， 必 须 在 飞机 起 飞 前 卖 出 ) ， 
卖家 就 简单 地 选 出 一 个 能 获得 最 大 收益 的 出 标 集合 。 和 否则 决策 就 更 为 复杂 。 
© 在 交易 (exchange) 中 ， 如 股票 交易 ， 存 在 多 个 卖家 和 多 个 买 家 。 买 家 提出 他 愿意 支付 的 最 高 价 
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钱 ， 卖 家 提出 他 期 望 的 最 低 价 钱 。 经 常 存在 一 个 做 市 商 ( market maker), ， 由 他 来 匹配 买 家 和 卖 
家 的 投标 ， 决 定 每 次 交易 的 价格 (如 按 卖家 的 出 标价 格 ) 。 
还 有 其 他 一 些 类 型 更 为 复杂 的 市 场 。 

在 处 理 市 场 类 型 中 遇 到 的 数据 库 方面 的 问题 有 : 

© 投标 者 在 被 允许 投标 之 前 需要 验证 身份 。 

© 出 价 ( 买 家 的 或 卖家 的 ) 需 要 安全 地 记录 在 数据 库 中 。 出 价 需要 很 快 通知 到 市 场 中 所 涉及 的 其 他 

人 (例如 所 有 的 买 家 和 卖家 ) ， 人 数 可 能 很 多 。 
o 广播 出 价 的 延误 可 能 导致 某 些 参与 者 的 财政 损失 。 
© 在 股票 市 场 波动 或 接近 拍卖 结束 时 ， 交 易 量 可 能 会 非常 巨大 。 因 此 ， 这 种 系统 使 用 高 度 并 行 
的 、 性 能 非常 高 的 数据 库 。 
26.3.3 ”订单 结算 

在 选 好 商品 (可 能 通过 电子 目录 ) 并 确定 价格 (可 能 通过 电子 市 场 ) 之 后 ， 就 需要 结算 订单 了 。 结 算 
包括 商品 支付 和 商品 运输 。 

一 种 简单 的 但 是 不 安全 的 电子 支付 方式 就 是 发 送信 用 卡号 。 这 里 存在 两 个 主要 问题 。 首 先 ， 可 能 
会 有 信用 卡 欺诈 。 当 买 家 支付 实物 商品 时 ， 公 司 要 确保 运送 地 址 和 持 卡 人 地 址 相 匹 配 ， 这 样 其 他 的 人 
不 能 收 到 该 商品 。 但 是 以 电子 方式 发 送 商 品 时 不 可 能 进行 这 种 检查 。 其 次 ， 必 须 信 任 卖 家 只 对 达成 协 
议 的 商品 进行 结账 ， 并 且 不 会 将 卡号 发 送 给 其 他 非 授权 的 人 滥用 。 

有 几 种 协议 可 用 于 避免 如 上 所 列 出 的 两 个 问题 的 安全 支付 。 另 外 ， 这 些 协 议 提 供 了 更 好 的 私密 性 ， 
据 此 卖家 不 会 得 到 有 关 买 家 的 任何 不 必要 的 细节 ， 且 信用 卡 公司 不 会 得 到 有 关 所 购 商 品 的 任何 不 必要 
的 信息 。 所 有 传送 的 信息 必须 加 密 ， 这 样 任 何在 网 络 上 拦截 数据 的 人 无 法 发 现 其 中 的 内 容 。 公 / 私 钥 加 
密 广 泛 应 用 于 这 项 任务 中 。 

这 些 协议 还 必须 能 防止 中 间 人 攻击 ( person-in-the-middle attack)， 即 有 人 冒充 银行 或 信用 卡 公司 ， 
其 至 卖家 或 买 家 ， 偷 取 秘密 信息 。 假 冒 可 以 通过 传递 一 个 伪造 的 密 钥 ， 作 为 其 他 人 的 公 钥 (银行 的 、 信 
用 卡 公 司 的 、 商 家 或 买 家 的 ) 。 数 字 证 书 ( digital certificate) 系统 可 以 防止 假冒 行为 ， 据 此 公 钥 由 一 个 认 
证 机 构 签 署 ， 认 证 机 构 的 公 钥 是 公认 的 (或 者 它 的 公 钥 由 另 一 所 认证 机 构 认 证 ， 以 此 类 推 ， 直 到 找到 一 
个 公认 的 公 钥 为 止 ) 。 从 公认 的 公 角 出发， 系统 可 以 通过 道 序 检查 证 书 的 方式 对 其 他 密 钥 授权 。 前 面 在 
9. 8. 3.2 节 已 经 对 数字 证 书 进行 了 描述 。 

几 个 新 的 支付 系统 是 在 Web 时 代 的 初期 开发 的 。 其 中 之 一 是 称 为 安全 电子 交易 (Secure Electronic 
Transaction ，SET) 协 议 的 安全 支付 协议 。 为 了 确保 交易 的 安全 性 ， 协 议 需 要 在 买 家 、 卖 家 和 银行 之 间 
进行 多 轮 通信 。 还 有 一 些 系统 提供 更 高 的 匿名 性 ， 就 如 同 实物 现金 提供 的 那样 。DigiCash 支付 系统 就 
是 这 样 的 一 个 系统 。 在 这 样 的 系统 中 ， 在 完成 支付 时 不 可 能 识别 购买 者 。 相 反 ， 使 用 信用 卡 可 以 很 容 
易 地 识别 购买 者 ， 即 便 在 SET 的 情况 下 ， 也 可 以 通过 与 信用 卡 公司 或 银行 的 合作 来 识别 购买 者 。 然 而 ， 
由 于 技术 和 非 技 术 两 方面 的 原因 ， 没 有 一 个 这 样 的 系统 在 商业 上 成 功 。 

目前 ， 许 多 银行 提供 安全 支付 网 关 ( secure payment gateway) ， 人 允许 买方 在 银行 的 网 站 上 在 线 支付 ， 
而 不 会 向 在 线 商 家 暴露 信用 卡 或 银行 账户 信息 。 当 从 在 线 商家 购买 商品 时 ， 买 方 的 Web 浏览 器 被 重 定 
向 到 支付 网 关 ， 通 过 提供 信用 卡 或 银行 账户 信息 完成 支付 ， 之 后 买方 再 次 被 重 定向 回 商家 的 网 站 以 完 
成 购买 。 与 SET 或 DigiCash 协议 不 同 ， 除 了 Web 浏览 器 ， 在 买方 的 机 器 上 没有 软件 运行 ; 其 结果 是 在 
先前 方法 失败 的 场合 ， 此 方法 取得 了 大 范围 的 成 功 。 

由 PayPal 系统 使 用 的 另 一 种 方法 是 ， 让 买方 和 商家 在 一 个 共同 的 平台 上 都 拥有 账户 ， 转 账 完全 发 
生 在 共同 的 平台 内 。 买 方 首先 使 用 信用 卡 往 他 的 账户 里 充值 ， 然 后 可 以 往 商 家 账户 里 转账 。 这 种 方法 
对 于 小 商家 已 经 非常 成 功 ， 因 为 它 不 需要 买方 或 商家 运行 任何 软件 。 


26.4 主 存 数 据 库 


为 了 获得 很 高 的 事务 处 理 率 (每 秒 数 百 或 数 千 的 事务 ) ， 我 们 必须 使 用 高 性 能 硬件 ， 而 且 必 须 使 用 
并 发 性 。 但 是 ， 仅 靠 这 些 技术 还 不 足以 获得 非常 快 的 响应 时 间 ， 因 为 磁盘 VO 仍然 是 瓶颈 一 一 每 次 1/ 
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0 需要 大 约 10 毫秒 ， 而 且 这 个 数据 并 没有 随 着 处 理 器 速度 的 增长 而 相应 减少 。 磁 盘 IO 通常 是 读 的 瓶 
颈 ， 也 是 事务 提交 的 瓶颈 。 长 时 间 的 磁盘 延迟 不 仅 增加 了 访问 数据 项 的 时 间 ， 而 且 限 制 了 每 秒 存 取 的 
我 们 可 以 通过 增 大 数据 库 缓 冲 区 来 减 小 数据 库 系统 受 磁盘 限制 的 程度 。 主 存 技术 的 进步 使 得 我 们 
能 够 以 相对 较 低 的 代价 构造 相当 大 的 主 存 。 现 在 的 商用 64 位 系统 能 提供 数 十 GB 的 主 存 。Oracle 
TimesTen 是 当前 可 用 的 主 存 数据 库 。 在 文献 注解 的 参考 文献 中 给 出 了 有 关 主 存 数据 库 的 更 多 信息 。 

对 于 某 些 应 用 ， 例 如 实时 控制 ， 必 须 将 数据 存储 在 主 存 中 以 满足 性 能 要 求 。 虽 然 至 少 有 几 个 应 用 
需要 将 几 个 GB 的 数据 驻 留 在 主 存 中 ,但 大 多 数 这 类 系统 对 于 主 存 大 小 的 要 求 并 不 是 异常 的 大 。 随 着 
主 存 大 小 的 快速 增长 ， 会 有 越 来 越 多 的 应 用 能 够 将 数据 存 到 主 存 中 。 

大 的 主 存储 器 能 使 数据 驻 留 在 内 存 中 ， 从 而 使 事务 处 理 更 快 。 然 而 ， 仍 然 存在 与 磁盘 有 关 的 限制 : 

© 在 事务 提交 前 必须 将 日 志 记 录 写 到 稳定 存储 器 中 。 由 于 大 的 主 存 所 带 来 的 性 能 提升 可 能 导致 日 
志 处 理 成 为 瓶颈 。 我 们 可 以 通过 使 用 非 易 失 性 RAM (例如 通过 有 电池 支持 的 内 存 来 实现 ) ， 在 
主 存 中 建立 稳定 的 日 志 缓 冲 区 ， 从 而 缩减 提交 时 间 。 由 于 日 志 带 来 的 开销 还 可 以 通过 本 节 后 面 
讨论 的 组 提交 (group-commit) 技术 来 减 小 。 吞 吐 量 (每 秒 的 事务 数目 ) 仍 然 受 日 志 磁 盘 的 数据 传 
输 率 的 限制 。 

为 了 减 小 在 恢复 的 时 候 必 须 重 新 执行 的 日 志 数量 ， 仍 然 有 必要 写 出 被 提交 事务 做 了 修改 标记 的 
缓冲 块 。 如 果 更 新 率 非 常 高 ， 那 么 磁盘 的 数据 传输 率 可 能 变 成 瓶颈 。 
如 果 系 统 崩 演 了 ， 所 有 的 主 存 数据 都 会 丢失 。 恢 复 时 ， 系 统 的 数据 库 缓冲 是 空 的 ， 对 数据 项 进 
行 访问 时 必须 从 磁盘 输入 。 因 此 ， 即 使 恢复 已 经 完成 了 ， 仍 然 需要 一 些 时 间 才 能 把 数据 库 完 
装 和 人 到 主 存 中 ， 并 恢复 对 事务 的 高 速 处 理 。 
另 一 方面 ， 主 存 数 据 库 为 优化 提供 了 机 会 : 
。 由 于 主 存 比 磁盘 空间 价格 高 ， 因 此 ， 设 计 主 存 数据 库 中 的 内 部 数据 结构 必须 注意 减 小 对 空间 的 
需求 量 。 然 而 ， 数 据 结 构 中 可 以 有 跨 多 个 页 面 的 指针 ， 这 与 磁盘 数据 库 不 同 ， 其 中 跨越 多 个 页 
面 的 VO 代价 会 非常 高 。 例 如 ， 主 存 数据 库 中 的 树 结 构 与 B 树 不 同 ， 深 度 可 以 相对 大 一 些 ， 
但 应 尽量 少 占 空 间 。 
然而 ， 高 速 缓冲 存储 器 和 主 存储 器 之 间 的 速度 差异 ， 以 及 在 主 存 和 高 速 缓存 之 间 的 数据 传 
输 是 以 高 速 缓存 行 (cache-line) (通常 约 64 字 节 ) 为 单位 的 事实 ， 导 致 了 这 样 的 情况 : 高 速 缓存 
和 主 存 之 间 的 关系 与 主 存 和 磁盘 之 间 的 关系 没有 什么 不 同 (虽然 有 更 小 的 速度 差异 )。 其 结果 
是 ， 即 使 在 主 存 数 据 库 里 ， 带 有 可 以 放 人 一 个 高 速 缓存 行 的 小 结 点 的 B' 树 被 发 现 是 相当 有 
用 的 。 
。 在 数据 存 取 前 没有 必要 钉 住 内 存 中 的 缓冲 页 ， 因 为 缓冲 页 从 来 不 会 被 替换 。 
。 查询 处 理 技术 应 该 设计 成 尽量 减 小 空间 开销 ， 从 而 在 执行 查询 时 不 会 超出 主 存 的 限制 ; 一 旦 发 
生 这 种 情况 会 导致 将 页 换 出 到 交换 区 中 ， 从 而 减 慢 查 询 处 理 速 度 。 
。 一 旦 消除 了 磁盘 VO 瓶颈 ， 诸 如 封锁 和 门 那样 的 操作 可 能 会 变 成 瓶颈 。 必 须 改进 这 些 操作 的 实 
现 来 消除 这 样 的 瓶颈 。 

© 可 以 对 恢复 算法 进行 优化 ， 因 为 很 少 会 需要 将 页 写 出 以 给 其 他 页 腾 出 空间 。 

处 理事 务 了 提交 的 过 程 中 需要 将 下 面 这 些 记录 写 人 稳定 存储 器 中 : 

。 还 没有 输出 到 稳定 存储 器 中 的 所 有 与 了 相关 的 日 志 记录 。 

。 <T commit > 日 志 记录 。 

这 些 输出 操作 经 常 需 要 输出 只 有 部 分 填充 的 块 。 为 了 保证 输出 接近 写 满 的 块 ， 我 们 采用 组 提交 
(group-commit) 技 术 。 系 统 不 是 在 了 完成 时 就 试图 提交 T， 而 是 等 到 有 几 个 事务 都 完成 了 ,或 者 从 事务 
执行 完 后 已 经 过 了 一 个 特定 的 时 间 段 。 然 后 将 等 待 的 这 组 事务 一 起 提交 。 写 出 到 稳定 存储 器 上 的 块 可 
能 包含 几 个 事务 的 记录 。 通 过 仔细 选择 组 的 大 小 和 最 大 等 待 时 间 ， 系 统 可 以 保证 当 块 写 到 稳定 存储 器 





O ”闪存 的 写 延 迟 取决 于 是 否 需要 先 执行 控 除 操作 。 
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时 是 满 的 ， 而 无 需 事务 等 待 过 长 的 时 间 。 平均 说 来 ， 此 技术 减少 了 每 个 提交 事务 的 输出 操作 。 

虽然 组 提交 减少 了 日 志 带 来 的 开销 ， 但 它 造 成 了 执行 更 新 的 事务 在 提交 时 的 轻微 延迟 。 延 迟 可 能 
很 小 (比方 说 ，10 毫秒 ) ， 这 对 许多 应 用 来 说 是 可 接受 的 。 如 果 磁 盘 或 磁盘 控制 器 对 写 操 作 支 持 非 易 失 
性 RAM 缓存 ， 这 个 延迟 可 以 消除 。 一 旦 在 非 易 失 性 RAM 缓冲 区 中 执行 了 写 操作 ， 事 务 就 可 以 提交 
在 这 种 情况 下 ， 没 有 必要 进行 组 提交 。 

注意 ,不 只 是 对 于 主 存 数据 库 ， 即 使 在 带 有 磁盘 驻 留 数据 的 数据 库 中 ， 组 提交 也 是 有 用 的 。 如 果 
用 闪存 代替 磁盘 来 存储 日 志 记 录 ， 提 交 延 迟 会 显著 减少 。 然 而 ， 组 提交 仍然 是 有 用 的 ， 因 为 它 最 大 限 
度 地 减少 了 写 出 的 页 数 ， 这 就 转化 为 内 存 中 的 性 能 优势 ， 因 为 页 不 能 被 覆盖 地 写 ， 而 且 擦 除 操 作 的 代 
价 是 昂贵 的 。( 闪存 存储 系统 将 逻辑 页 重新 映射 到 预先 擦 除 的 物理 页 ， 避 免 在 写 页 面 时 的 延迟 ， 但 最 终 
必须 执行 擦 除 操作 ， 作 为 页 面 旧版 本 的 垃圾 回收 的 一 部 分 。) 


26.5 ”实时 事务 系统 


至 此 我 们 所 考虑 的 完整 性 约束 与 存储 在 数据 库 中 的 值 有 关 。 在 特定 应 用 中 ,约束 条 件 还 包括 指定 
任务 必须 完成 的 截止 时 间 ( deadline) 。 这 类 应 用 的 例子 包括 工厂 管理 、 交 通 控制 以 及 调度 。 当 把 截止 时 
间 考 虑 在 内 时 ， 执 行 的 正确 性 就 不 再 仅仅 是 数据 库 一 致 性 的 问题 了 , 我们 还 关心 截止 时 间 延 误 了 多 少 
次 ， 以 及 延误 了 多 长 时 间 。 截 止 时 间 的 特性 如 下 : 

© 硬 截止 时 间 ( hard deadline) 。 如 果 任 务 不 能 在 其 截止 时 间 之 前 完成 ， 可 能 出 现 严 重 问题 ， 比 如 

系统 崩溃 。 

o 严格 截止 时 间 (firm deadline) 。 如 果 任 务 在 截止 时 间 之 后 完成 ， 它 的 价值 为 零 。 

© 软 截止 时 间 ( soft deadline) 。 如 果 任 务 在 截止 时 间 之 后 完成 ， 它 的 价值 逐渐 缩小 ， 随 着 延误 时 间 

的 增长 其 价值 趋 近 于 零 。 
具有 截止 时 间 的 系统 称 作 实时 系统 ( real-time system) 。 

实时 系统 中 的 事务 管理 必须 将 截止 时 间 考 虑 在 内 。 如 果 并 发 控制 协议 确定 让 事务 T, 等 待 ， 那 么 它 
可 能 导致 7. 错过 截止 时 间 。 在 这 种 情况 下 ， 可 能 最 好 是 抢占 持 有 锁 的 事务 ， 而 让 T, 进行 下 去 。 然 而 ， 
抢占 的 办 法 必须 慎重 使 用 ， 因 为 被 抢占 的 事务 所 失去 的 时 间 ( 由 于 回 深 和 重启 ) 可 能 导致 该 事务 延误 它 
的 截止 时 间 。 遗 憾 的 是 ， 在 给 定 情 况 下 很 难 确定 是 回 滚 更 好 还 是 等 待 更 好 。 

支持 实时 约束 的 一 个 主要 困难 来 自 事务 执行 时 间 的 差异 。 在 最 好 情况 下 ， 要 访问 的 所 有 数据 都 在 
数据 库 缓 冲 区 中 。 在 最 坏 情 况 下 ， 每 次 访问 都 导致 将 缓冲 页 写 到 磁盘 中 ( 还 要 先 写 必 不 可 少 的 日 志 记 
录 ) ， 然 后 再 从 磁盘 读 人 包含 待 访问 数据 的 页 面 。 由 于 最 坏 情况 下 所 需要 的 两 次 或 更 多 次 磁盘 访问 比 最 
好 情况 下 主 存 访 问 所 花 的 时 间 要 高 好 几 个 数量 级 ， 所 以 如 果 数 据 驻 留 在 磁盘 上 ， 那 么 事务 执行 时 间 的 
估算 就 非常 粗略 。 因 此 ， 如 果 需 要 满足 实时 约束 ， 常 常 采用 主 存 数据 库 。 

然而 ， 即 使 数据 驻 留 在 主 存 中 ， 还 会 由 于 等 竺 封锁、 事务 中 止 等 导致 执行 时 间 的 差异 。 研 究 者 投 
和 了 相当 大 的 精力 来 研究 实时 数据 库 的 并 发 控制 。 他 们 扩展 了 封锁 协议 ， 为 那些 截止 时 间 早 的 事务 提 
供 较 高 的 优先 级 。 他 们 发 现 优化 的 并 发 控制 在 实时 数据 库 中 执行 得 很 好 ， 即 这 些 协议 甚至 比 扩 展 的 封 
锁 协 议 更 能 减少 截止 时 间 的 延误 。 文 献 注解 中 给 出 了 在 实时 数据 库 领 域 中 的 研究 工作 的 参考 文献 。 

在 实时 系统 中 ， 最 重要 的 问题 不 是 绝对 速度 ， 而 是 截止 时 间 。 设 计 一 个 实时 系统 需要 保证 在 不 要 
求 过 多 硬件 资源 的 前 提 下 ， 有 足够 的 处 理 能 力 来 满足 截止 时 间 的 要 求 。 尽 管事 务 管理 会 导致 执行 时 间 
的 差异 ， 但 要 达到 这 一 目标 仍 是 一 个 挑战 性 的 问题 。 


26.6 长 事务 


事务 概念 原本 是 在 数据 处 理应 用 的 环境 中 提出 的 ， 在 此 环境 中 大 多 数 事务 不 是 交互 式 的 ， 并 且 持 

续 时 间 很 短 。 虽 然 在 此 以 及 前 面 的 第 14 15, 16 章 中 讨论 的 技术 能 够 很 好 地 支持 这 些 应 用 .但 当 事 务 
的 概念 应 用 到 涉及 人 机 交互 的 数据 库 系统 时 ， 就 出 现 了 严重 的 问题 。 这 些 事 务 具有 如 下 重要 特性 : 

© 持续 时 间 长 (long duration) 。 一 旦 人 介入 到 活跃 事务 中 ， 从 计算 机 的 角度 看 ， 该 事务 就 变 成 了 长 

事务 (long-duration transaction) ， 因 为 人 的 响应 时 间 比 计算 机 的 速度 慢 。 而 且 ， 在 设计 应 用 中 ， 
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人 的 活动 可 能 会 长 达 数 小 时 、 数 天 甚至 更 长 。 因 此 ， 从 人 的 观点 和 从 机 器 的 观点 看 ， 事 务 的 持 
续 时 间 都 很 长 。 
© 暴露 未 提交 数据 (exposure of uncommitted data) 。 由 于 事务 可 能 中 止 ， 长 事务 产生 并 显示 给 用 户 
的 数据 可 能 未 提交 。 因 此 ， 用 户 或 其 他 事务 可 能 被 迫 去 读 未 提交 的 数据 。 如 果 在 一 项 工程 中 有 
几 个 用 户 在 合作 ,那么 用 户 事务 可 能 需要 在 事务 提交 之 前 交换 数据 。 
© 子 任务 (subtask) 。 一 个 交互 式 事务 可 能 包括 一 组 由 用 户 启 动 的 子 任务 。 用 户 可 能 希望 中 止 其 中 
1109 一 个 子 任务 ， 而 不 必 导 致 整个 事务 的 中 止 。 
。 可 恢复 性 (recoverability) 。 由 于 系统 裔 溃 而 中 止 一 个 交互 式 的 长 事务 是 不 可 接受 的 。 活 牙 事务 
必须 恢复 到 崩溃 前 不 久 的 某 个 状态 ， 以 使 人 的 工作 丢失 得 相对 较 少 。 
© 性 能 ( performance) 。 在 交互 式 事务 系统 中 将 性 能 好 定义 为 响应 时 间 快 。 这 一 定义 与 非 交 互 式 系 
统 中 的 定义 不 同 ， 非 交互 式 事务 系统 的 目标 是 高 吞吐 量 ( 每 秒 的 事务 数目 ) 。 具 有 高 吞吐 量 的 系 
统 能 够 有 效 利 用 系统 资源 。 然 而 ， 在 交互 式 事务 的 情况 下 ， 价 格 最 高 的 资源 是 用 户 。 如 果 要 提 
高 用 户 效率 和 满意 程度 ， 响 应 时 间 就 应 该 快 (从 人 的 角度 看 ) 。 在 一 个 任务 持续 很 长 时 间 的 情况 
下 ， 响 应 时 间 应 该 是 可 预知 的 ( 即 响应 时 间 的 变化 应 该 不 大 ) ， 这 样 用 户 就 可 以 很 好 地 安排 自己 
的 时 间 。 
在 26.6. 1 FFF 26. 6.5 节 中 ， 我 们 会 看 到 为 什么 这 五 个 特性 与 迄今 所 讨论 的 技术 不 相 容 ， 还 将 讨 
论 如 何 对 这 些 技术 进行 修改 以 适应 交互 式 长 事务 。 
26.6.1 不 可 串 行 化 的 执行 ' 
我 们 所 讨论 的 这 些 特性 使 得 前 面 章节 中 所 用 的 只 允许 可 串 行 化 调度 的 要 求 变 得 不 切实 际 。 第 15 章 
中 的 每 种 并 发 控制 协议 对 于 长 事务 都 有 负面 影响 : 
© 两 阶段 封锁 (two-phase locking) 。 当 一 个 事务 请 求 封 锁 而 得 不 到 时 ， 它 就 被 迫 等 待 所 要 求 的 数据 
项 被 解锁 。 等 待 时 间 的 长 短 与 持 有 锁 的 事务 的 持续 时 间 成 比例 。 如 果 数 据 项 被 短 事务 封锁 ， 我 
们 预期 等 待 时 间 会 很 短 (除非 发 生 了 死 锁 或 系统 负载 极 重 ) 。 然 而 ， 如 果 数 据 项 被 长 事务 封锁 ， 
则 会 发 生长 时 间 的 等 待 。 长 时 间 等 待 导致 响应 时 间 长 ， 并 且 发 生死 锁 的 可 能 性 增 大 。 
。 基于 图 的 协议 ( graph-based protocol) 。 基 于 图 的 协议 使 得 锁 的 释放 比 两 阶段 封锁 协议 要 早 ， 并 且 
能 避免 死 锁 。 然 而 ， 它 对 数据 项 强加 了 一 个 顺序 。 事 务 对 于 数据 项 的 封锁 必须 以 与 该 顺序 一 致 
的 方式 进行 。 其 结果 是 ， 事 务 可 能 封锁 的 数据 比 它 实 际 需 要 的 要 多 。 而 且 ， 在 事务 确信 某 个 封 
锁 不 会 再 被 使 用 之 前 ， 必 须 持 有 该 封锁 ， 这 样 ， 就 可 能 发 生长 时 间 的 封锁 等 待 。 
。 基于 时 间 戳 的 协议 (timestamp-based protocol) 。 时 间 惟 协议 不 需要 事务 等 待 。 然 而 ， 在 某 些 情况 
下 ， 它 确实 需要 事务 中 止 。 如 果 一 个 长 事务 中 止 了 ， 就 会 丢失 大 量 实质 性 的 工作 。 对 于 非 交 互 
式 事务 来 说 ， 这 种 工作 的 丢失 是 性 能 问题 。 对 于 交互 式 事务 来 说 ， 这 还 是 个 用 户 满 意 度 的 问 
题 。 用 户 很 不 希望 发 现 他 几 个 小 时 的 工作 都 白 做 了 。 
© 有 效 性 检查 协议 (validation protocol) 。 与 基于 时 间 戳 的 协议 一 样 ， 有 效 性 检查 协议 通过 中 止 事 
务 来 保证 可 串 行 性 。 
由 此 看 来 ， 强 制 要 求 可 串 行 化 可 能 会 导致 长 时 间 的 等 待 、 长 事务 的 中 止 ， 或 者 两 者 同时 发 生 。 文 献 注 
解 中 引用 的 一 些 理论 结果 证 实 了 这 一 结论 。 
当 我 们 考虑 恢复 问题 时 ， 会 发 现 强 制 要 求 可 串 行 化 所 带 来 的 进一步 的 困难 。 前 面 我 们 讨论 过 级 联 
回 滚 问题 ， 即 一 个 事务 的 中 止 可 能 导致 其 他 事务 的 中 止 。 这 一 现象 是 我 们 所 不 希望 的 ， 尤 其 对 于 长 事 
务 而 言 。 如 果 使 用 封锁 ， 又 想 避 免 级 联 回 滚 ， 就 必须 保持 排他 锁 直 至 事务 结束 。 然 而 ， 这 样 保 持 排他 
锁 就 增加 了 事务 等 待 的 时 间 。 
由 此 看 来 ， 强 制 要 求 事务 的 原子 性 必然 导致 要 么 长 时 间 等 待 的 可 能 性 增 大 ， 要 么 产生 级 联 回 滚 的 
可 能 性 。 
在 15.7 节 描 述 的 快照 隔离 ， 可 以 提供 对 这 些 问 题 的 部 分 解决 方案 ， 在 15. 9. 3 节 中 描述 的 无 读 有 
效 性 检查 的 乐观 并 发 控制 (optimistic concurrency control without read validation ) 协议 也 可 以 。 后 一 种 协议 
实际 上 是 用 来 专门 处 理 涉 及 用 户 交互 的 长 事务 。 虽 然 无 读 有 效 性 检查 的 乐观 并 发 控制 并 不 能 保证 可 串 
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行 性 ， 但 它 得 到 了 相当 广泛 的 使 用 。 

然而 ， 当 事务 具有 长 的 持续 时 间 ， 就 更 有 可 能 产生 冲突 的 更 新 ， 进 而 导致 额外 的 等 待 或 中 止 。 以 
上 考虑 为 我 们 在 本 节 其 余部 分 考虑 的 另外 一 些 有 关 并 发 执行 正确 性 和 事务 恢复 的 概念 打下 了 基础 ， 
26. 6.2 并 发 控制 

数据 库 并 发 控制 的 基本 目标 是 确保 事务 的 并 发 执行 不 会 导致 数据 库 一 致 性 的 丢失 。 可 以 利用 可 串 
行 化 的 概念 来 达到 这 一 目标 ， 因 为 所 有 可 串 行 化 的 调度 都 能 保持 数据 库 的 一 致 性 。 然 而 ， 并 非 所 有 保 
持 数据 库 一 致 性 的 调度 都 是 可 串 行 化 的 。 例 如 ， 再 次 考虑 有 两 个 账户 4 和 有 的 银行 数据 库 ， 其 一 致 性 
BORE A+B 之 和 保持 不 变 。 虽 然 图 26-5 中 的 调度 不 是 冲突 可 串 行 化 的 ， 但 它 却 保持 了 4 +B 的 和 不 
变 。 此 例 还 说 明了 无 可 串 行 化 条 件 下 有 关 正 确 性 概念 的 两 个 重要 观点 。 

。 正确 性 依赖 于 特定 的 数据 库 一 致 性 约束 。 

。 正确 性 依赖 于 每 个 事务 所 执行 的 操作 的 性 质 。 





通常 ， 事 务 对 低层 次 操作 进行 自动 分 析 并 检测 这 些 操作 对 数据 | 
库 一 致 性 约束 的 影响 是 不 可 能 的 。 然 而 ,还 有 一 些 更 简单 的 技术 。 | reada) 
其 中 之 一 是 以 数据 库 一 致 性 约束 为 基础 ， 将 数据 库 划分 成 一 些 子 数 。 | itel4a)” 
据 库 ， 分 别管 理 每 个 子 数 据 库 上 的 并 发 。 另 一 种 技术 是 将 一 些 操作 | read(B) 
(包括 read 和 write) 看 作 是 基本 的 低层 次 操作 ， 并 且 对 并 发 控制 进 | 
行 扩展 以 处 理 这 些 操作 。 | read(B) 

文献 注解 中 引用 了 不 要 求 可 品行 性 而 保证 一 致 性 的 另外 一 些 技 Aten) ” 
术 。 这 些 技术 中 有 许多 都 开发 了 多 版 本 并 发 控制 (参见 15.6 节 ) 的 变 | RAY 
体 。 对 于 较 早 的 、 只 需要 一 个 版 本 的 数据 处 理应 用 来 说 ， 多 版 本 协 | write(A) 














议 为 存储 额外 的 版 本 导致 了 较 高 的 空间 开销 。 由 于 许多 新 的 数据 库 
”应 用 需要 维护 数据 的 多 个 版 本 ， 所 以 开发 多 版 本 的 并 发 控制 技术 是 
符合 实际 的 。 
26.6.3 ” 藤 套 事务 和 多 级 事务 

可 以 将 一 个 长 事务 看 成 一 组 相关 的 子 任务 或 子 事务 。 通 过 一 组 子 事务 来 构建 事务 ， 我 们 可 以 提高 
并 行 度 ， 因 为 有 可 能 并 行 地 运行 几 个 子 事务 。 而 且 ， 处 理子 事务 失败 (由 于 中 止 、 系 统 裔 溃 等 造成 ) 还 
可 以 不 用 回 滚 整 个 长 事务 。 

一 个 符 套 的 或 多 级 的 事务 了 包括 一 个 子 事务 的 集合 7 = |t, t, 0, 友和 了 上 的 一 个 偏 序 P。7 中 
的 一 个 子 事务 点 可 以 中 止 ， 而 无 需 强 制 7 中 止 。 反 过 来 ,7 可 以 重启 t;， 或 是 简单 地 选择 不 运行 i;,。 如 
果 提交 了 ， 这 一 动作 并 不 使 i; 成 为 永久 的 (与 第 16 章 中 的 情况 不 同 ) AE, t 向 7 了 提交， 如 果 7 了 中 
Jk, t, 可 能 仍 会 中 止 ( 或 者 需要 补偿 一 一 见 26. 6.4 节 )。7 的 执行 不 能 违反 偏 序 P。 也 就 是 说 ， 如 果 在 
优先 图 中 出 现 边 t,t, ABA t,t, 必定 不 能 在 P 的 传递 闭 包 中 。 

嵌 套 可 能 有 好 几 层 深 ,表示 将 事务 划分 为 子 任务 ， 子 任务 的 子 任务 ， 如 此 等 等 。 在 嵌 套 的 最 底层 ， 
是 我 们 前 面 用 到 的 标准 数据 库 操作 read 和 write。 

如 果 人 允许 7 的 子 任务 在 完成 的 时 候 释放 锁 ,那么 7 称 为 多 级 事务 (multilevel transaction) 。 当 一 个 多 
级 事务 代表 一 个 长 时 间 的 活动 时 ， 该 事务 有 时 称 作 一 个 传奇 (saga) 。 男 一 种 情况 是 ， 如 果 7 的 子 事 务 1 
所 持 有 的 锁 在 i; 完成 时 自动 地 赋 给 7， 那么 了 就 称 作 艇 套 事务 ( nested transaction) 。 

虽然 多 级 事务 的 主要 实用 价值 在 于 复杂 的 长 事务 ,但 我 们 将 用 图 26-5 的 简单 例子 来 说 明 如 何 用 髓 
套 来 建立 起 更 高 级 的 操作 ， 从 而 提高 并 发 度 。 我 们 用 子 事务 7, ,和 7 ,来 重 写 事务 7 ， 这 两 个 子 事务 执 
行 增加 或 减少 的 操作 : 

e T, 包括 : 

OTa EMA 中 减 掉 50。 
O T2; E B 中 加 上 50, 

类 似 地 ， 我 们 用 子 事务 TM T, ;来 重 写 事务 有 1 ， 这 两 个 子 事务 也 执行 增加 或 减少 的 操作 : 


图 26-5 一 个 非 冲突 可 品行 
化 的 调度 





[1112] 


628 第 八 部 分 高 级 主题 


1113 


1114 


e T, 包括 : 
OT,,, EAA B 中 减 掉 10, 
OT,,, ERA 中 加 上 10, 
对 于 四, ，7， ，7 ，， 刀 ,没有 说 明 顺 序 。 这 些 子 事务 的 任意 执行 都 会 产生 正确 结果 。 图 26-5 中 的 调度 
对 应 于 调度 < Ty, Tais Tzs Tr2>o 
26.6.4 补偿 事务 

为 减少 长 时 间 等 待 的 发 生 频率 ， 我 们 将 未 提交 的 更 新 暴露 给 其 他 并 发 执行 的 事务 。 事 实 上 ， 多 级 
事务 可 能 允许 这 种 曝光 。 然 而 ， 曝 光 未 提交 数据 产生 了 级 联 回 滚 的 可 能 性 。 补 偿 事务 compensating 
transaction ) 的 概念 有 助 于 我 们 处 理 这 一 问题 。 

设 事务 7 被 划分 为 几 个 子 事务 t,t, 7, to EF RS i 提交 之 后 ， 它 释放 了 它 的 封锁 。 现 在 ， 
如 果 必 须 中 止 外 层 事务 T7， 那 么 它 的 子 事务 所 造成 的 影响 必须 被 撤销 。 假 设 子 事务 1 ，…,， t 已 经 提交 
了 ,在 作出 中 止 决 定时 ,正在 执行 。 我 们 可 以 通过 中 止 子 事务 ,来 消除 它 的 影响 。 然 而 ， 不 可 能 中 
EFES t ，…，t， 因 为 它们 已 经 提交 了 。 

取而代之 ， 我 们 执行 一 个 新 的 子 事务 ( 称 作 补 偿 事 务 )ct; 去 撤销 子 事务 t; 的 影响 ,每 个 子 事务 1, 都 
需要 有 一 个 补偿 事务 ct;,。 补 偿 事务 必须 以 相反 的 顺序 ctp, =, cti 来 执行 。 下 面 给 出 几 个 补偿 的 例子 : 

。 考虑 图 26-5 的 调度 ， 我 们 已 经 说 明了 它 是 正确 的 ， 尽 管 它 不 是 冲突 可 串 行 化 的 。 每 个 子 事务 一 
旦 完成 就 释放 它 的 封锁 。 假 设 在 T, 即将 结束 前 ， 刀 :已 经 释放 了 它 的 封锁 之 后 ，7 失败 了 。 然 
后 我 们 就 运行 一 个 对 ;的 补偿 事务 ， 它 从 4 中 减 掉 10， 并 运行 一 个 对 7 ,的 补偿 事务 , 它 往 B 
中 加 上 10。 
考虑 事务 7, 所 做 的 一 个 数据 库 插入 ， 其 副作用 造成 了 B' 树 索引 的 更 新 。 该 插入 操作 可 能 修改 
了 B' 树 索引 的 几 个 结 点 。 其 他 事务 在 访问 数据 (不 是 7, 新 插入 的 记录 ) 时 可 能 已 经 读 过 这 些 结 
点 。 正 如 16.7 节 所 提 到 的 ,我们 可 以 通过 删除 7, 插入 的 记录 来 撤销 这 个 插入 的 影响 。 其 结果 
是 一 棵 正确 的 、 一 致 的 B' 树 ,但 不 一 定 与 7, 开始 之 前 的 结构 完全 相同 。 因 此 删除 是 插入 的 补 
偿 动作 。 
考虑 一 个 长 事务 7T,， 它 代表 旅行 预订 。 事 务 7 有 3 个 子 事务 : 也 ,预订 飞机 票 ; 了 ;预订 出 租车 ， 
四 3 预订 旅馆 房间 。 假 设 旅馆 取消 了 预订 。 我 们 不 用 撤销 整个 了， 对 也 ;失败 的 补偿 是 删除 原来 
的 旅馆 订单 ， 并 且 建 立 一 个 新 的 订单 。 

如 果 系 统 在 执行 外 层 事务 的 中 间 崩 演 了 ， 那 么 当 对 它 进行 恢复 时 必须 回 深 它 的 子 事务 。16.7 节 所 
描述 的 技术 可 以 用 于 这 一 目的 。 

对 事务 失败 的 补偿 需要 利用 失败 事务 的 语义 。 对 于 某 些 操作 ， 例 如 向 B’' 树 中 增加 或 插入 ， 很 容易 
定义 相应 的 补偿 。 对 于 更 复杂 的 事务 ， 可 能 需要 应 用 编程 者 在 对 事务 进行 编码 时 定义 补偿 的 正确 形式 。 
对 于 复杂 的 交互 事务 ， 可 能 需要 系统 与 用 户 进行 交互 ， 以 确定 补偿 的 正确 形式 。 

26. 6.5 实现 问题 

本 节 讨 论 的 事务 概念 为 实现 带 来 了 很 大 困难 。 我 们 在 这 里 列 出 了 其 中 的 几 个 ， 并 讨论 我 们 可 以 如 
何 处 理 这 些 问题 。 

长 事务 必须 能 够 免 遭 系统 崩溃 的 影响 。 我 们 能 够 确保 这 一 点 ， 办 法 是 对 已 提交 子 事务 执行 redo, 
对 于 崩溃 时 正 活跃 的 短 的 子 事务 执行 undo 或 补偿 。 然 而 ， 这 些 动作 仅 解决 了 部 分 问题 。 在 典型 的 数据 
库 系 统 中 ,， 诸 如 锁 表 、 事 务 时 间 戳 等 这 样 的 内 部 系统 数据 是 存放 在 易 失 性 存储 器 中 的 。 为 使 长 事务 在 
骨 溃 后 能 够 继续 ， 这 些 数 据 必须 恢复 。 因 此 ， 不 仅 需 要 对 数据 库 的 改变 记 日 志 ， 而 且 需 要 对 与 长 事务 
有 关 的 内 部 系统 数据 的 改变 记 日 志 。 

当 数 据 库 中 存在 特定 类 型 的 数据 项 时 ， 记 录 更 新 日 志 就 会 变 得 更 为 复杂 。 数 据 项 可 能 是 一 个 CAD 
设计 、 文 档 的 正文 或 者 另 一 种 复合 设计 的 形式 。 这 些 数 据 项 物理 上 很 大 。 因 此 我 们 不 希望 在 日 志 记 录 
中 既 存 储 这 种 数据 项 的 旧 值 ， 也 存储 其 新 值 。 

有 两 种 方法 可 以 减少 保证 大 数据 项 可 恢复 性 的 开销 : 
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© 操作 日 志 (operation logging) 。 在 日 志 中 只 存放 在 数据 项 上 执行 的 操作 和 数据 项 的 名 称 。 操 作 日 


志 也 称 作 逻辑 日 志 (logical logging) 。 对 每 个 操作 ， 必 须 存 在 一 个 逆 操 作 。 我 们 用 道 操作 执行 
undo， 用 操作 本 身 执 行 redo。 通 过 操作 日 志 进 行 恢复 更 为 困难 ， 因 为 redo 和 undo PERG 
的 。 而 且 ， 对 于 更 新 多 个 页 面 的 操作 使 用 逻辑 日 志 是 非常 复杂 的 ， 其 原因 是 更 新 过 的 某 些 页 面 
(但 并 不 是 所 有 页 面 ) 可 能 已 经 写 出 到 磁盘 中 了 ， 因 此 在 恢复 时 很 难 在 磁盘 镜像 上 进行 该 操作 的 
redo 或 undo。 如 16.7 节 描 述 的 那样 ， 使 用 物理 重 做 日 志和 逻辑 撤销 日 志 提 供 了 逻辑 日 志 并 行 
性 的 优点 ， 同 时 避免 了 上 述 缺 陷 。 

日 志和 影子 分 页 (logging and shadow paging) 。 日 志 用 于 对 小 数据 项 的 更 新 ， 而 大 数据 项 的 可 恢 
复 性 通常 通过 影子 分 页 或 复制 写 技术 来 实现 。 当 我 们 使 用 影子 分 页 时 ， 通 过 只 保存 那些 实际 上 
被 修改 过 的 页 面 的 副本 可 以 降低 开销 。 


尽管 采用 了 这 些 技术 ， 由 于 长 事务 和 大 数据 项 而 引入 的 复杂 性 仍然 使 恢复 过 程 复杂 化 。 因 此 ， 我 
们 希望 允许 对 于 特定 的 非 关键 数据 不 记 日 志 ， 而 依赖 于 脱 机 备份 和 人 工 干 预 。 














26.7 总 结 
© 工作 流 是 一 些 活动 ， 涉 及 由 不 同 处 理 实体 实现 的 多 个 任务 的 协同 执行 。 它 们 不 仅 存在 于 计算 机 应 用 
中 ， 也 存在 于 几乎 所 有 的 组 织 机 构 活动 中 。 随 着 网 络 的 发 展 ， 以 及 多 个 自治 数据 库 系 统 的 存在 ， 工 
作 流 提供 了 一 种 方便 的 方式 来 执行 涉及 多 个 系统 的 任务 。 
。 虽然 对 于 这 样 的 工作 流 应 用 来 说 ， 通 常 的 ACID 事务 性 要 求 太 强 了 ,或 者 不 可 能 实现 ， 但 是 工作 流 必 
须 满足 事务 特性 的 一 个 有 限 集合 ， 以 保证 进程 不 会 处 于 一 种 不 一 致 的 状态 。 
© 最 初 开 发 事务 处 理 监 控 器 是 作为 多 线程 服务 器 ， 由 一 个 单独 的 进程 为 大 量 终 端 服 务 。 由 此 演变 而 来 ， 
现在 事务 处 理 监控 器 为 建立 和 管理 有 大 量 客 户 端 和 多 个 服务 器 的 复杂 的 事务 处 理 系 统 提供 基础 设施 。 
它 提供 各 种 服务 ， 例 如 客户 端 请 求 和 服务 器 响应 的 持久 队列 、 客 户 端 消息 到 服务 器 的 路 由 、 持 久 消 
息 、 负 和 载 均衡 、 当 事务 访问 多 个 服务 器 时 的 两 阶段 提交 的 协调 。 
。 电子 商务 系统 已 成 为 商务 的 核心 部 分 。 在 电子 商务 系统 中 有 几 个 数据 库 方面 的 问题 。 目 录 管 理 ， 特 
别 是 个 性 化 目录 ， 需 要 利用 数据 库 实现 。 电 子 市 场 帮助 确定 拍卖 、 反 向 拍卖 或 交易 中 的 产品 的 价格 。 
处 理 这 类 交易 需要 高 性 能 的 数据 库 系 统 。 订 单 由 电子 支付 系统 结算 ， 这 同样 需要 有 非常 高 的 事务 处 
理 率 的 高 性 能 数据 库 系统 。 
© 某 些 系统 采用 开发 了 大 容量 主 存 以 达到 较 高 的 系统 吞吐 量 。 在 这 样 的 系统 中 ,日 志 成 为 瓶颈 。 依 据 
组 提交 的 概念 ， 可 以 减少 向 稳定 存储 器 输出 的 次 数 ， 从 而 缓解 这 个 瓶颈 。 
。 有 效 管理 持续 时 间 长 的 交互 式 事务 是 一 个 更 加 复杂 的 问题 ， 因 为 有 长 时 间 的 等 待 ， 还 因为 有 中 止 的 
可 能 性 。 由 于 第 15 章 采 用 的 并 发 控制 技术 使 用 等 待 或 中 止 ， 或 者 两 者 都 采用 ， 因 此 必须 考虑 另 一 些 
可 选 技术 。 这 些 技术 必须 在 不 要 求 可 串 行 性 的 条 件 下 保证 正确 性 ， 
。 长 事务 表示 为 柑 套 事务 ， 其 最 底层 是 数据 库 的 原子 操作 。 如 果 一 个 事务 失败 了 ， 只 有 活动 着 的 短 事 
务 中 止 。 一 旦 所 有 短 事务 恢复 了 ， 活 动 的 长 事务 就 继续 进行 。 如 果 外 层 事务 失败 ， 需 要 使 用 补偿 事 
务 对 已 提交 的 典 套 事务 的 更 新 进行 撤销 。 
。 在 具有 实时 约束 的 系统 中 ， 执 行 的 正确 性 不 仅 包括 数据 库 一 致 性 ， 而 且 还 包括 满足 截止 时 间 。 读 和 
写 操作 在 执行 时 间 上 的 巨大 差异 使 得 具有 时 间 约 束 的 系统 中 的 事务 管理 问题 复杂 化 了 。 
术语 回顾 
。 TP 监控 器 。 多 任务 调度 远程 过 程 调用 ( RPC) 
。 TP 监控 器 体系 结构 。 上 下 文 切换 。 事务 工作 流 
口 每 客户 进程 。 多 线程 服务 器 日 任务 
O 单 服 务 器 © 队列 管理 器 口 处 理 实体 
口 多 服务 器 单 路 由 器 © 应 用 协调 器 O 工作 流 说 明 
口 多 服务 器 多 路 由 器 口 资源 管理 器 工作 流 执行 
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。 工作 流 状态 口 部 分 分 布 式 。 实时 系统 
口 执行 状态 口 完全 分 布 式 。 截止 时 间 
口 输 出 值 。 业务 流程 管理 O BERRIENA 
口 外 部 变量 。 编排 D 严格 截止 时 间 
。 工作 流 的 故障 原子 性 。 电子 商务 口 软 截止 时 间 
。 工作 流 终止 状态 。 电子 目录 。 实时 数据 库 
口 可 接受 的 。 市 场 。 长 事务 
口 不 可 接受 的 口 拍卖 。 未 提交 数据 的 曝光 
口 提交 的 口 反 向 拍卖 。 不 可 串 行 化 执行 
口 中止 的 口交 易 。 REFS 
。 工作 流 恢复 。 订单 结算 。 多 级 事务 
。 工作 流 管理 系统 。 数字 证 书 。 传奇 (Saga) 
。 工作 流 管理 系统 体系 结构 。 主 存 数据 库 。 补偿 事务 
口 集中 式 。 组 提交 。 PRHE 
实践 习题 
1116| 26. 1 类 似 于 数据 库 系 统 ， 工 作 流 系统 同样 需要 并 发 和 恢复 管理 。 列 出 三 个 原因 说 明 为 什么 我 们 不 能 简单 地 
iti? 应 用 一 个 采用 2PL、 物 理 撤销 日 志和 2PC 的 关系 数据 库 系统 ，。 


26.2 考虑 系统 崩溃 后 的 主 存 数据 库 系 统 的 恢复 。 解 释 下 列 方法 的 相对 优越 性 : 
。 在 重新 开始 事务 处 理 之 前 将 整个 数据 库 载 人 到 主 存 中 。 
。 当 事 务 请 求 数据 时 将 该 数据 载 人 。 

26.3 高 性 能 事务 系统 一 定 是 实时 系统 吗 ? 为 什么 ? 

26.4 解释 为 什么 要 求 长 事务 可 串 行 化 可 能 是 不 现实 的 。 

26.5 考虑 从 持久 消息 的 持久 队列 中 发 送 消息 的 多 线程 处 理 过 程 。 不 同 线程 可 以 并 发 运行 ， 试 图 发 送 不 同 的 
消息 。 在 发 送 失 败 的 情况 下 ， 消 息 必须 重新 存 回 队列 中 。 像 多 级 事务 那样 模拟 每 个 线程 执行 的 动作 ， 
这 样 只 有 在 发 送 消息 时 才 需 要 持 有 该 队列 上 的 封锁 。 

26.6 ”如 果 我 们 允许 嵌 套 事务 ， 请 讨论 第 16 章 中 介绍 的 每 一 种 恢复 模式 需要 做 什么 修改 。 另 外 ， 如 果 我 们 
人 允许 多 级 事务 ， 请 解释 那 会 带 来 什么 不 同 。 


习题 


26.7 解释 TP 监控 器 在 管理 内 存 和 处 理 器 资源 方面 如 何 比 通 常 的 操作 系统 更 加 有 效 。 
26.8 比较 TP 监控 器 和 支持 servlet 的 Web 服务 器 (这 种 服务 器 的 昵称 叫 TP-lite ) 的 特征 。 
26.9 考虑 你 所 在 的 大 学 接收 新 学 生 ( 或 你 所 在 的 公司 接收 新 员工 ) 的 过 程 。 
a 从 学 生 申 请 手续 开始 ， 给 出 工作 流 的 高 层 描 述 。 
b. 指出 可 接受 终止 状态 以 及 需要 人 工 干预 的 步 又。 
c. 指出 可 能 的 错误 (包括 超过 截止 时 间 ) 以 及 如 何 处 理 它们 。 
d. 调查 你 所 在 的 学 校 里 工作 流 的 多 少 部 分 已 经 自动 化 了 。 
26.10 回答 下 面 关 于 电子 支付 系统 的 问题 ， 
a. 解释 为 什么 用 信用 卡号 码 执行 的 电子 事务 可 能 是 不 安全 的 。 
b. 另 一 种 选择 是 通过 信用 卡 公 司 维护 一 个 电子 支付 网 关 ， 接 受 支 付 业 务 的 站 点 将 客户 转 到 网 关 站 点 
来 完成 支付 。 
i. 解释 如 果 网 关 不 进行 用 户 鉴别 ， 那 么 这 样 的 系统 能 够 提供 哪些 好 处 。 
ii. 解释 如 果 网 关 有 用 户 鉴别 机 制 ， 那 么 还 能 够 提供 哪些 进一步 的 好 处 。 
c. 一 些 信用 卡 公司 提供 一 种 一 次 性 信用 卡号 码 作为 一 种 更 为 安全 的 电子 支付 方法 。 客 户 连接 到 信用 
卡 公司 的 网 站 得 到 一 个 一 次 性 号 码 。 解 释 与 使 用 普通 信用 卡号 码 相 比 ， 这 样 的 系统 能 够 提供 怎样 
的 好 处 。 也 请 解释 与 使 用 鉴别 机 制 的 电子 支付 网 关 相 比 ， 这 种 系统 有 哪些 好 处 和 不 足 。 
d 当 交 易 是 用 现金 进行 的 ， 上 面 所 说 的 系统 中 有 保证 同样 的 隐私 吗 ? 解释 你 的 答案 。 
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26.11 如果 整个 数据 库 能 放 入 主 存 ， 我 们 还 需要 数据 库 系统 来 管理 数据 吗 ” 解 释 你 的 答案 。 

26.12 ”在 组 提交 技术 中 ， 一 个 组 里 应 该 包括 多 少 个 事务 ? 解释 你 的 答案 。 

26. 13 在 使 用 先 写 日 志 的 数据 库 系统 中 ， 最 坏 情况 下 从 指定 磁盘 页 读 取 一 个 数据 项 所 需 的 磁盘 访问 次 数 是 
多 少 ? 解释 为 什么 这 对 于 实时 数据 库 系 统 设计 者 提出 了 一 个 问题 。 提 示 : 考虑 磁盘 缓冲 满 的 情况 。 

26.14 ”补偿 事务 的 目的 是 什么 ? 给 出 使 用 补偿 事务 的 两 个 例子 。 

26.15 解释 在 工作 流 和 长 事务 之 间 的 联系 。 


文献 注解 


Gray 和 Reuter[ 1993 ] 是 描述 事务 处 理 系统 详细 的 (并 且 极 好 的 ) 教 科 书 ， 包 括 有 关 TP 监控 器 的 几 个 章 
AT. X/Open[ 1991 ] 7E X T X/Open XA 接口 。 
Fischer[ 2006 ] 是 一 本 工作 流 系 统 的 手册 ， 由 工作 流 管理 协会 联合 出 版 。 该 协会 的 网 址 是 www. wfmc. org 
我 们 对 工作 流 的 描述 沿用 了 Rusinkiewicz 和 Sheth[ 1995 ] 的 模型 。 
Loeb[ 1998 ] 提供 了 安全 电子 交易 的 详细 描述 。 [1119 
Garcia-Molina 和 Salem[ 1992 ] 给 出 了 关于 主 存 数据 库 的 综述 。Jagadish 等 [ 1993 | 描述 了 为 主 存 数据 库 设 
计 的 一 个 恢复 算法 。Jagadish 等 [1994] 描 述 了 主 存 数据 库 的 存储 管理 。 
Lam 和 Kuo[ 2001] 讨 论 了 实时 数据 库 。Haritsa 等 [1990] Hong 等 [1993 ] Pang 等 [1995 ] 讨 论 了 实时 数 
据 库 中 的 并 发 控制 和 调度 。Ozsoyoglu 和 Snodgrass[ 1995 ] 是 对 关于 实时 数据 库 和 时 态 数 据 库 研 究 的 综述 . 
Moss[ 1985 ] Lynch 和 Merritt[ 1986 ] 、Moss[ 1987 ] 、Haerder 和 Rothermel[ 1987 ] 、Rothermel 和 Mohan 
[1989] 、Weikum 等 [1990 ] Korth 和 Speegle[ 1990] 、Weikum[ 1991 ] ， 以 及 Korth 和 Speegle[ 1994 | 介绍 了 
艇 套 事务 和 多 级 事务 。Lynch 等 [1988 ] 介 绍 了 多 级 事务 的 理论 层面 。Garcia-Molina 和 Salem[ 1987 | 介绍 了 
Saga 的 概念 。 [1120 
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本 部 分 描述 不 同 的 数据 库 系 统 如 何 将 本 书 前 面 所 描述 的 各 种 概念 相 融 合 。 我 们 首先 在 第 
27 章 介 绍 广 泛 使 用 的 开源 数据 库 系 统 PostgreSQL。 第 28、29、30 章 介 绍 三 种 广泛 应 用 的 商用 
数据 库 系 统一 一 IBM DB2 Oracle 和 Microsoft SQL Server。 这 三 个 系统 代表 了 三 种 应 用 最 为 广泛 
的 商用 数据 库 系统 。 

这 几 章 中 每 章 都 强调 了 各 个 数据 库 系 统 独 有 的 特性 : 工具 、SQL 变化 和 扩展 以 及 系统 体 
系 结 构 ， 包 括 存储 组 织 、 查 询 处 理 、 并 发 控制 与 恢复 以 及 复制 能 力 。 

这 几 章 只 包括 所 讲述 数据 库 产 品 的 关键 方面 ， 所 以 不 能 看 成 是 这 些 产品 的 全 面 介 绍 。 更 
何况 由 于 产品 经 常 改 进 ， 产 品 细节 会 发 生变 化 。 当 使 用 某 个 特定 版 本 的 产品 时 ， 对 于 特定 细 
节 一 定 要 参考 用 户 手 册 。 

记 住 本 部 分 章节 通常 使 用 的 是 工业 术语 而 不 是 学 术 术 语 。 例 如 ， 用 表 代 替 关系 ， 行 代替 | 
元 组 ， 列 代替 属性 。 
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PostgreSQL 是 一 个 开放 源 代码 的 对 象 -关系 数据 库 管 理 系 统 。 它 是 由 加 州 大 学 伯克利 分 校 的 
Michael Stonebraker 教授 主持 开发 的 Postgres 系统 的 后 代 。Postgres 系统 是 最 早 的 对 象 - 关系 数据 库 管 
理 系统 之 一 。 名 字 “ Postgres "来 自 于 关系 数据 库 系 统 的 先驱 之 一 Imgres， 它 同样 也 是 由 伯克利 的 
Stonebraker 主持 开发 的 。 目 前 PostgreSQL 支持 SQL:2003 的 许多 方面 并 提供 许多 特性 ， 如 复杂 查询 、 
外 码 、 触 发 器 、 视 图 、 事 务 一 致 性 、 全 文 检索 和 受 限 的 数据 复制 。 另 外 ， 用 户 可 以 为 PostgreSQL 扩 
展 新 的 数据 类 型 、 函 数 、 操 作 符 或 索引 方法 。PostgreSQL 支持 多 种 程序 设计 语言 (包括 C、C++、 
Java, Perl, Tcl 和 Python) 以 及 JDBC 和 ODBC 数据 库 接 口 。PostgreSQL 的 另 一 个 突出 点 是 ， 它 和 
MySQL 是 两 种 使 用 最 为 广泛 的 开源 关系 数据 库 系 统 。PostgreSQL 许可 证 是 BSD 许可 证 ， 这 就 允许 任 
何人 以 任何 目的 使 用 、 修 改 和 发 布 PostgreSQL 代码 和 文档 而 不 需要 付费 。 


27.1 概述 


在 二 十 年 中 ，PostgreSQL 有 过 几 次 大 的 发 布 。 最 早 的 原型 系统 ， 名 字 叫 做 Postgres， 在 1988 年 的 
ACM SIGMOD 会 议 上 演示 过 。1989 年 发 布 给 用 户 的 第 一 个 版 本 提供 了 许多 特征 ， 如 可 扩展 数据 类 
型 、 一 个 初步 的 规则 系统 和 名 为 Postquel 的 查询 语言 。 在 随后 的 多 个 版 本 中 增加 了 一 个 新 的 规则 系 
统 、 对 多 存储 管理 器 的 支持 以 及 改进 的 查询 执行 器 ， 然 后 系统 开发 者 关注 于 系统 的 便携 性 和 性 能 ， 
直到 1994 年 增加 了 SQL 语言 解释 器 。 之 后 系统 以 Postgres95 这 个 新 名 字 发 布 到 Web 上， 随后 被 
Illustra Information Technologies( 后 又 合并 到 Informix, Informix 现在 为 IBM PA) 商业 化 。 到 1996 年 ， 
PostgreSQL 这 个 名 字 取 代 了 Postgres95 ， 以 反映 原始 的 Postgres 和 兼容 SQL 的 最 新 版 本 之 间 的 关系 。 

PostgreSQL 实际 上 可 以 运行 在 所 有 类 UNIX 操作 系统 上 上， 包括 Linux 和 Apple Macintosh OS X, 
期 版 本 的 PostgreSQL 服务 器 能 运行 在 Cygwin 环境 中 的 Microsoft Windows 下 ， 这 个 环境 提供 Windows 
中 的 Linux 仿真 。 在 2005 年 1 月 发 布 的 版 本 8. 0 提供 了 对 Microsoft Windows 的 天 然 支持 

SR, PostgreSQL 用 于 实现 若干 不 同 的 研究 和 产品 应 用 (例如 用 于 地 理 信息 的 PostGIS 系统 ) tE 
在 一 些 大 学 作为 教学 工具 。 在 由 大 约 1000 名 开发 者 组 成 的 社区 的 努力 下 ， 系 统 在 向 前 持续 演进 。 在 
本 章 我 们 将 解释 PostgreSQL 怎样 工作 ， 从 用 户 界面 和 语言 开始 ， 直 到 系统 的 核心 (数据 结构 和 并 发 控 
制 机 制 ) 。 


27.2 用 户 界面 


PostgreSQL 标准 发 布 版 本 附带 有 管理 数据 库 的 命令 行 工具 。 然 而 ， 有 众多 支持 PostgreSQL 的 商业 
和 开源 的 图 形 管理 和 设计 工具 。 软 件 开发 人 员 也 可 以 通过 一 组 全 面 的 编程 接口 来 访问 PostgreSQL 
27.2.1 交互 式 终端 界面 

像 大 多 数 数 据 库 系 统一 样 PostgreSQL 为 数据 库 管 理 提供 命令 行 工具 。 其 主要 的 交互 式 终端 客户 
是 psql， 它 模仿 UNIX shell， 人 允许 在 服务 器 上 执行 SQL 命令 和 一 些 其 他 操作 ( 如 客户 端 复制 ) ， 它 的 一 
些 特性 包括 : 

e 变量 (variable) 。psql 提供 变量 替换 特征 ， 与 通常 的 UNIX 命令 解释 器 相似 。 

。 SQL 替换 ( SQL interpolation ) 。 通 过 在 变量 名 前 放 一 个 冒号 ， 用户 能 将 psal 中 的 变量 蔡 换 

(“interpolate”) 为 正规 的 SQL 语句 。 
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© 命令 行 编 辑 ( command-line editing) 。psql 调用 GNU 读 行 库 程序 以 进行 便捷 的 行 编辑 ， 同 时 支 
持 按 tab 键 自 动 补 全 输入 。 

PostgreSQL 还 可 以 通过 Tcl/Tk 解释 器 访问 ， 它 是 一 种 灵活 的 脚本 语言 ， 常 用 于 快速 实现 系统 原 
型 。 这 个 功能 通过 在 Tcl/Tk 中 加 载 pgtcl 库 来 实现 ， 并 作为 PostgreSQL 可 选 的 扩展 进行 发 布 。 
27.2.2 图 形 界 面 

PostgreSQL 的 标准 发 布 版 本 不 包含 任何 图 形 工具 。 然 而 已 经 有 一 些 图 形 化 的 用 户 界 面 工具 ， 用 户 可 
以 选择 商用 产品 或 者 开源 软件 。 许 多 此 类 工具 发 布 周 期 很 快 ， 下 面 所 介绍 的 反映 了 本 书写 作 时 的 情形 。 

用 于 管理 的 图 形 化 工具 包括 pgAccess 和 pgAdmin, 图 27-1 显示 了 后 者 。 数 据 库 设计 工具 包括 
TORA 和 Data Architect， 后 者 如 图 27-2 所 示 。PostgreSQL 可 以 与 若干 商用 表单 设计 和 报表 生成 工具 一 
起 使 用 。 可 供 选择 的 开源 替代 软件 包括 Rekall( 如 图 27-3 和 图 27-4 所 示 ) GNU Report Generator 和 一 
个 更 加 全 面 的 工具 包 GNU Enterprise, 
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图 27-3 Rekall; 表单 设计 CUI 


























图 27-4 Rekall: 报表 设计 GUI 


27.2.3 编程 语言 接口 

PostgreSQL 提供 支持 ODBC 和 JDBC 的 原生 接口 ， 同 时 为 大 多 数 编程 语言 提供 绑 定 接口 ,包括 C、 
C++, PHP, Perl, Tcl/Tk, ECPG, Python 和 Ruby. 

libpq FFA PostgreSQL 提供 了 C 的 API， 它 也 是 大 多 数 编程 语言 绑 定 的 基础 引 警 。 通过 可 重 人 的 和 
线程 安全 的 接口 ，libpq 库 同 时 支持 SQL 命令 和 准备 语句 的 同步 和 异步 执行 。libpq 的 连接 参数 可 以 用 
几 种 灵活 的 方式 来 设置 ， 如 设置 环境 变量 、 将 配置 信息 存储 在 本 地 文件 中 或 者 在 一 个 LDAP 服务 器 上 
创建 条 目 。 


27.3 SQL 变化 和 扩展 


PostgreSQL 的 当前 版 本 支持 几乎 所 有 的 初级 SQL92 特征 ， 以 及 许多 中 级 和 完全 级 SQL92 特征 。 它 
同时 支持 许多 SQL:1999 和 SQL:2003 特征 ， 包 括 第 22 章 所 描述 的 大 多 数 对 象 -关系 特征 和 第 23 章 摘 
述 的 用 于 解析 XML 数据 的 SQL/XML 特征 。 事 实 上 ， 当 前 SQL 标准 的 一 些 特 征 (例如 数组 、 晒 数 和 继 
承 ) 是 由 PostgreSQL 及 其 祖先 开创 的 。 它 没有 支持 OLAP 特征 (尤其 是 cube 和 rollup 操作 ) ， 但 是 来 自 
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PostgreSQL 的 数据 可 容易 地 导入 到 开源 的 外 部 OLAP 服务 器 (如 Mondrian ) 和 其 他 商用 产品 中 。 
27.3.1 PostgreSQL 类 型 


PostgreSQL 支持 一 些 对 于 特定 应 用 领域 非常 有 用 的 非 标准 类 型 。 进 一 步 说 ， 用 户 可 以 用 ereate type 
命令 定义 新 类 型 ， 包 括 新 的 低层 次 的 基本 类 型 ， 通 常用 C 书写 ( 见 27.3.3.1 节 )。 
27. 3. 1.1 PostgreSQL 类 型 系统 
' PostgreSQL 类 型 分 为 如 下 几 类 : 
基本 类 型 (base type) 。 基 本 类 型 又 称 为 抽象 数据 类 型 (abstract data type) ， 也 就 是 封装 状态 和 一 
组 操作 的 模块 。 它 们 在 SQL 层 以 下 实现 ， 通 常用 像 C 这 样 的 语言 来 实现 ( 见 27.3.3.1 节 )。 例 
如 int4( 已 经 包含 在 PostgreSQL 中 ) 或 complex( 包含 在 可 选 的 扩展 类 型 中 )。 一 个 基本 类 型 可 以 
表示 一 个 单独 的 标量 值 或 者 一 个 可 变 长 度 的 数组 值 。 对 于 数据 库 中 存在 的 每 个 标量 类 型 ， 
PostgreSQL 自动 创建 一 个 数组 类 型 用 于 存放 相同 标量 类 型 的 值 。 
复合 类 型 (composite type) 。 它 们 对 应 于 表 中 的 行 。 也 就 是 说 ， 它 们 是 字段 名 字 及 其 相应 类 型 的 
列表 。 当 创建 一 个 表 时 就 会 隐 式 创建 一 个 复合 类 型 ， 当 然 用 户 也 可 以 显 式 地 构造 它们 。 
ta (domain ) 。 域 类 型 是 通过 一 个 基本 类 型 关联 一 个 这 种 类 型 的 值 必须 满足 的 约束 来 定义 的 。 只 
要 满足 约束 ， 域 类 型 的 值 与 所 关联 的 基本 类 型 的 值 就 可 以 互 换 着 使 用 。 一 个 域 可 以 拥有 一 个 可 
选 的 默认 值 ， 其 含义 如 同 表 中 列 所 对 应 的 默认 值 。 
枚 举 类 型 (enumerated type) 。 它 们 类 似 于 如 C All Java 那样 的 编程 语言 中 使 用 的 enum 类 型 。 枚 举 
类 型 实质 上 是 一 个 指定 了 值 的 固定 列表 。 在 PostgreSQL 中 ， 枚 举 类 型 可 以 转换 成 它们 名 称 的 文 
本 表示 ， 但 是 这 种 转换 在 某 些 情况 下 必须 显 式 地 声明 以 确保 类 型 安全 。 例 如 ， 如 果 没 有 显 式 转 
换 成 相 容 类 型 ， 不 同 枚 举 类 型 的 值 就 不 可 以 进行 比较 。 
伪 类 型 (pseudotype) 。 当 前 ，PostgreSQL 支持 下 述 伪 类 型 : any. anyarray, anyelement, anyenum 、 
anynonarray cstring, internal, opaque, language_handler, record, trigger 和 void。 它 们 不 能 用 在 复 
合 类 型 中 ( 从 而 不 能 用 于 表 中 的 列 ) ,但 是 可 作为 用 户 自 定义 函数 的 参数 和 返回 类 型 。 
多 态 类 型 (polymorphic type), anyelement, anyarray, anynonarray 和 anyenum 四 种 伪 类 型 都 称 为 
多 态 (polymorphic) 类 型 。 携 带 此 类 参数 的 函数 (相应 地 称 为 多 态 函 数 ( polymorphic function ) ) 可 
以 用 在 任何 实际 类 型 上 。PostgreSQL 有 一 个 简单 的 类 型 解析 模式 ， 要 求 : (1) 在 一 个 多 态 函 数 
的 任意 一 次 调用 中 ， 一 个 多 态 类 型 的 所 有 出 现 必须 限制 在 相同 实际 类 型 上 (也 就 是 说 ， 定 义 为 
f(anyelement, anyelement) 的 图 数 只 可 以 运行 在 一 对 相同 的 实际 类 型 参数 上 ) ; (2) 如 果 返 回 类 型 
是 多 态 的， 那么 至 少 有 一 个 参数 必须 是 相同 的 多 态 类 型 。 
27.3.1.2 非 标准 类 型 
本 节 所 描述 的 类 型 包含 在 标准 发 布 版 本 中 。 进 而 言 之 ,感谢 PostgreSQL 开放 的 本 质 ， 还 有 一 些 贡 
献 出 来 的 扩展 类 型 ， 如 复数 和 ISBN/ISSN( 见 27. 3.3 节 )。 
几何 数据 类 型 (point、line、lseg、box、polygon、path、circle) 用 于 地 理 信息 系统 中 ， 用 来 表示 二 维 
空间 对 象 ， 如 点 、 线 段 、 多 边 形 、 路 径 和 圆 。PostgreSQL 中 提供 许多 函数 和 运算 符 来 执行 各 种 几何 运 
A, 例如 缩放 、 平 黎 、 旋 转 和 相交 判断 。PostgreSQL 进一步 用 R 树 来 支持 对 这 些 类 型 的 索引 ( 见 
25.3.5. 3. FAM 27. 5s 26 1 Fie 
PostgreSQL 中 的 全 文 检索 使 用 tsvector 类 型 来 表示 一 份 文档 ， 用 tsquery 类 型 表示 一 个 全 文 查询 。 在 
将 每 个 词 的 不 同 变 体 转换 到 一 种 共同 的 规范 形式 以 后 (例如 ， 去 除 词 干 )， 一 个 tsvector 存储 一 份 文档 中 
可 相互 区 分 的 词 。PostgreSQL 提供 函数 将 原始 文本 转换 到 一 个 tsvector， 并 连接 各 个 文档 。 一 个 tsquery 
声明 了 用 于 在 候选 文档 中 搜索 的 词 ， 这 些 词 之 间 通 过 布尔 运算 符 连 接 。 例 如 ， Æ H ‘index & ! (tree 
| hash) "是 寻找 包含 “index" 但 没有 用 词 “tree" 或 “hash" 的 文档 。PostgreSQL 本 身 的 设计 就 支持 在 全 文本 
类 型 上 的 运算 ， 包 括 语言 特征 和 索引 搜索 。 
PostgreSQL 提供 存储 网 络 地 址 的 数据 类 型 。 这 些 数据 类 型 允许 网 络 管理 应 用 程序 用 PostgreSQL 数 
据 库 来 存储 它们 的 数据 。 对 于 熟悉 计算 机 网 络 的 读者 ， 在 此 我 们 为 这 个 特征 提供 一 个 简要 的 概述 。 
IPv4 、IPv6 和 媒体 访问 控制 (MAC ) 地 址 都 有 单独 的 类 型 (分 别 是 cidr, inet 和 macaddr) , inet 和 cidr 类 
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型 都 能 存放 IPv4 和 IPv6 地 址 ， 并 附带 一 个 可 选 的 子 网 掩 码 。 它们 主要 的 差别 在 于 输入 /输出 的 格式 不 
同 ， 以 及 这 样 的 限制 : 无 类 别 域 间 路 由 (Classless Internet Domain Routing, CIDR) 地 址 不 接受 网 络 掩 码 
右边 带 非 零 位 的 值 。macaddr 类 型 用 于 存储 MAC 地 址 (典型 的 是 以 太 网 卡 硬 件 地 址 ) PostgreSQL 支持 
对 这 些 类 型 的 索引 和 排序 ， 以 及 一 组 操作 (包括 子 网 测试 和 将 MAC 地 址 映射 为 硬件 制造 商 名 称 ) 。 此 
外 ， 这 些 类 型 提供 输入 错误 校 验 。 因 此 它们 比 无 格式 的 文本 域 更 好 用 。 

PostgreSQL 的 bit 类 型 能 存储 固定 的 和 变 长 的 由 1 和 0 组 成 的 串 。 对 于 这 些 值 ，PostgreSQL 支持 位 
ee ics AE PL TE EIRE PRK 
27.3.2 规则 和 其 他 主动 数据 库 特征 

PostgreSQL 支持 SQL 约束 和 触发 器 (以 及 存储 过 程 ， 见 27. 3. 3 节 ) 。 此 外 ， 它 的 一 大 特色 是 可 在 服 
务 器 上 声明 查询 重 写 规则 。 

PostgreSQL 支持 check 约束 、 非 空 约束 、 主 码 和 外 码 约束 ( 带 受 限 删除 和 级 联 删 除 ) 。 

像 许多 其 他 关系 数据 库 系 统一 样 ，PostgreSQL 支持 触发 器 ， 它 可 用 于 非 平凡 约束 和 一 致 性 检查 或 
强制 执行 。 触 发 器 函 数 可 用 过 程 语言 如 PL/pgSQL( 见 27. 3.3.4 节 ) 或 C 语言 来 编写 ， 但 不 能 用 普通 
SQL 编写 。 触 发 融 可 以 在 insert, update 或 delete 操作 之 前 或 之 后 执行 ， 对 于 每 个 修改 行 执行 一 次 或 者 
每 条 SQL 语句 执行 一 次 。 

PostgreSQL 规则 系统 允许 用 户 在 数据 库 服务 器 上 定义 查询 重 写 规则 。 与 存储 过 程 以 及 触发 器 不 同 ， 
规则 系统 介 于 查询 解析 器 和 计划 器 之 间 ， 并 根据 规则 集 修 改 查询 。 当 原始 查询 树 转 换 成 一 个 或 多 个 树 
后 ， 传 递 到 查询 计划 器 。 因 此 ， 计 划 器 拥有 所 有 必要 的 信息 (需要 扫描 的 表 、 它 们 之 间 的 关系 、 限 定 条 
件 、 连 接 信息 等 等 ) ， 能 提出 一 个 有 效 的 执行 计划 ， 即 使 涉及 复杂 的 规则 。 

声明 规则 的 通用 语法 是 : 

create rule rule_name as 
on | select | insert | update | delete | 
to table [ where rule_qualification | 
do [ instead ] | nothing | command | (command ; command...) | 

本 节 其 他 部 分 提供 了 一 些 例子 来 展示 规则 系统 的 功能 。 关 于 规则 如 何 匹 配 查询 树 以 及 查询 树 随后 
如 何 转换 的 更 多 细节 ， 可 以 在 PostgreSQL 文档 中 找到 ( 见 文献 注解 )。 规 则 系统 在 查询 处 理 的 重 写 阶 段 
实现 ，27. 6. 1 节 将 对 此 进行 解释 。 

首先 ，PostgreSQL 使 用 规则 系统 来 实现 视图 。 如 下 定义 的 视图 


create view myview as select” from mytab; 
将 转化 为 下 述 规则 定义 : 
create table myview (same column list as mytab) ; 
create rule_return as on select to myview do instead 
select” from mytab; 
myview 上 的 查询 在 执行 前 转换 成 在 底层 表 mytab 上 的 查询 。create view 语法 在 这 种 情况 下 认为 是 
更 好 的 编程 形式 ， 因 为 它 更 简明 ， 也 防止 了 创建 相互 引用 的 视图 (如 果 在 声明 规则 时 不 小 心 ， 可 能 会 出 
现 这 种 情况 ， 导 致 潜在 的 、 让 人 迷惑 的 运行 时 错误 ) 。 然 而 ， 规 则 可 用 于 显 式 地 定义 视图 上 的 更 新 行为 
(create view 语句 不 允许 这 样 做 ) 。 
作为 另 一 个 例子 ， 考 虑 用 户 想 要 记录 所 有 教员 薪水 的 增 涨 情况 。 这 可 以 通过 下 面 的 规则 来 完成 


create rule salary_audit as on update to instructor 
where new. salary < > old. salary 
do insert into salary_audit 
values (current_timestamp, current_user, 
new. name, old. salary, new. salary) ; 


最 后 ， 我 们 给 出 一 条 稍微 更 复杂 的 插入/ 更 新 规则 。 假 设 即 将 到 来 的 薪水 增 涨 存放 在 salary _ 
increases( name ，increase ) 表 中 。 我 们 声明 一 个 具有 相同 域 的 “虚拟 ” 表 approved_increases ， 之 后 定义 如 下 
规则 : 
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create rule approved_increases_insert 
as on insert to approved_increases 
do instead 
update instructor 
set salary = salary + new. increase 
where name = new. name; 


然后 下 面 的 查询 


insert into approved_increases select’ from salary_increases ; 


将 立刻 更 新 instructor 表 中 的 所 有 薪水 。 由 于 规则 中 声明 了 instead 关键 字 ， 表 approved _increases 不 会 
改变 。 

规则 和 行 触 发 器 在 功能 上 有 一 些 重 释 之 处 。PostgreSQL 规则 系统 可 用 于 实现 大 部 分 触发 器 ， 但 某 
些 类 型 的 约束 (特别 是 外 码 ) 不 能 用 规则 来 实现 。 同 时 ， 和 触发 器 具有 附加 的 能 力 来 生成 错误 信息 以 发 出 
违反 限制 的 信号 ， 然 而 规则 仅 能 悄悄 地 通过 禁止 无 效 的 值 来 实施 数据 完整 性 。 另 一 方面 ， 触 发 器 不 能 
用 于 视图 上 的 更 新 (update ) 或 删除 ( delete) 行 为 ， 但 规则 却 能 。 既 然 在 视图 关系 中 没有 真正 的 数据 ， 触 
发 器 就 绝 不 会 被 调用 。 

触发 器 和 规则 的 一 个 重要 区 别 在 于 ， 触 发 器 对 于 每 个 受 影响 的 行 会 迭代 执行 。 男 一 方面 ， 规则 会 
在 查询 计划 之 前 操作 查询 树 。 因 此 如 果 一 条 语句 影响 了 许多 行 ， 那 么 规则 会 远 比 触发 器 高 效 得 多 。 

PostgreSQL 中 触发 器 和 约束 的 实现 机 制 将 在 27. 6. 4 节 中 简要 概述 。 

27.3.3 可 扩展 性 

像 大 多 数 关系 数据 库 系统 一 样 ，PostgreSQL 将 数据 库 、 表 、 列 等 信息 存储 在 通常 所 谓 的 系统 目录 
(system catalog) 中 ， 在 用 户 看 来 ， 它 们 和 普通 表 一 样 。 其 他 关系 数据 库 系 统 在 进行 扩展 时 ， 典 型 的 方 
式 是 通过 改变 源 代码 中 的 硬 编码 过 程 或 加 载 提 供 商 所 写 的 特殊 扩展 模块 。 

和 大 多 数 关系 数据 库 系统 不 同 ，PostgreSQL 更 进一步 ， 将 更 多 信息 存放 在 它 的 目录 中 : 不 仅 有 关 
于 表 和 列 的 信息 ， 还 包括 关于 数据 类 型 、 函 数 、 访 问 方法 等 方面 的 信息 。 因 此 ，PostgreSQL 更 容易 让 
用 户 扩展 ， 也 方便 了 快速 实现 新 的 应 用 和 存储 结构 的 原型 。 通 过 动态 加 载 共享 对 象 ，PostgreSQL 也 能 
将 用 户 编写 的 代码 合并 到 服务 器 中 。 这 提供 了 另 一 种 用 于 编写 扩展 的 途径 ， 它 可 以 在 基于 目录 的 扩展 
不 够 高 效 时 使 用 。 

此 外 ，PostgreSQL 发 布 版 本 中 的 contrib 模块 包括 许多 用 户 函 数 ( 如 数组 迭代 器 、 模 糊 串 匹配 、 加 密 
函数 ) 、 基 本 类 型 (如 加 密 的 密码 、ISBN/ISSN、n 维 立方 体 ) 以 及 索引 扩展 (如 RD 树 、 针 对 分 级 标记 的 
索引 ) 。 由 于 PostgreSQL 的 开源 特性 ， 有 一 个 由 PostgreSQL 专家 和 爱好 者 组 成 的 庞大 社区 也 在 积极 地 扩 
充 PostgreSQL， 几 乎 每 天 都 有 所 进展 。 扩 充 类 型 在 功能 上 和 内 置 类 型 是 一 样 的 ( 见 27.3,1.2 节 )， 只 是 
后 者 已 经 链接 到 服务 器 上 ， 并 在 系统 目录 中 预先 注册 好 了 。 类 似 地 ， 这 也 是 内 置 丽 数 和 扩充 冰 数 之 间 
的 唯一 区 别 。 

27.3.3.1 类 型 

PostgreSQL 允许 用 户 定 义 复合 类 型 、 枚 举 类 型 甚至 新 的 基本 类 型 。 

复合 类 型 的 定义 类 似 于 表 定 义 ( 事 实 上 ， 后 者 隐 含 了 前 者 ) 。 独 立 的 复合 类 型 一 般 用 于 函数 参数 
例如 ， 定 义 

create type city_t as (name varchar( 80), state char(2) ) ; 
允许 函数 接受 和 返回 ciy 的 元 组 ， 即 使 没有 表 显 式 地 包含 这 种 类 型 的 行 。 

枚 举 类 型 通过 简单 地 列 出 值 的 名 字 ， 可 以 很 容易 地 定义 。 下 面 的 例子 创建 了 一 个 枚 举 类 型 来 表示 
一 个 软件 产品 的 状态 。 


create type status_t as enum( ‘alpha’ ,，“beta”,，“release”) ; 


在 比较 一 个 枚 举 类 型 的 不 同 值 时 ， 所 列 出 名 字 的 顺序 是 很 重要 的 。 这 对 于 如 下 语句 是 有 用 的 : 


select name from products 
where status > ‘alpha’ ; 
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它 检 索 已 经 通过 了 alpha 阶段 的 产品 的 名 字 。 
可 以 直接 向 PostgreSQL 中 增加 基本 类 型 。 在 发 布 的 PostgreSQL 向 导 中 的 complex. sql 和 complex. c 
中 可 以 找到 一 个 例子 。 基 本 类 型 用 C 语言 声明 ， 例 如 : 
typedef struct Complex | 
double x; 
double y; 
| Complex; 
RAG REE LV SCS SUI SS rR AY) eB L 27.3.3.2 节 )。 随 后 ， 新 的 类 型 可 以 用 如 下 语句 
注册 : 
create type complex | 
internallength = 16, 
input = complex_in, 
output = complex_out , 
alignment = double 


假设 文本 LO PRL AEWA complex_in 和 complex_out , 
用 户 也 可 以 选择 定义 二 进 制 VO 函数 (为 了 更 高 效 的 数据 转 储 ) 。 扩 展 类 型 可 以 像 PostgreSQL 中 已 
有 的 基本 类 型 一 样 使 用 。 事 实 上 ， 它 们 唯一 的 不 同 在 于 扩展 类 型 是 动态 加 载 并 链接 到 服务 器 上 的 。 此 
外 ， 索 引 也 很 容易 扩展 以 处 理 新 的 基本 类 型 ， 请 参考 27. 3.3.3 节 。 
27.3.3.2 函数 
PostgreSQL 允许 用 户 定 义 在 服务 器 上 存储 和 执行 的 函数 。PostgreSQL 也 支持 函数 重 载 (也 就 是 说 ， 
多 个 函数 可 用 相同 的 名 称 声明 ， 但 是 参数 类 型 不 同 )。 函 数 可 写作 普通 SQL 语句 ， 也 可 以 用 几 种 过 程 
语言 (在 27. 3.3.4 节 讲 述 ) 来 编写 。 最 后 ，PostgreSQL 有 一 个 应 用 编程 接口 用 于 添加 用 C 语言 编写 的 函 
数 (在 本 节 解 释 ) 。 
用 户 自 定义 函数 可 以 用 C 语言 (或 者 一 种 具有 兼容 的 调用 约定 的 语言 ， 例 如 C++) 编写 。 实 际 编 
码 约定 对 于 动态 加 载 的 用 户 自 定义 函数 以 及 内 部 函数 (它们 被 静态 地 链接 到 服务 器 中 ) 而 言 本 质 上 是 一 
样 的 。 因 此 ， 标 准 内 部 函数 库 是 用 户 自 定义 C 函数 的 编程 样 例 的 丰富 资源 。 一 旦 包含 某 函 数 的 共享 库 
已 经 产生 ， 类 似 如 下 的 一 个 声明 会 将 其 注册 到 服务 器 上 : 
create function complex_out( complex) 
returns cstring 
as ‘ shared_object_filename’ 
language C immutable strict ; 
共享 对 象 文件 的 入 口 点 假设 与 SQL 函数 名 相同 (这 里 是 complex_out) ， 除 非 另外 特别 说 明 。 
这 里 继续 27. 3. 3. 1 节 中 的 那个 例子 。 应 用 编程 接口 隐藏 了 PostgreSQL 的 大 部 分 内 部 细节 。 因 此 ， 
上 述 complex 值 的 文本 输出 函数 的 实际 C 代码 非常 简单 : 
PG_FUNCTION_INFO_V1(complex_out) ; 
Datum complex_out( pg_function_args) | 
Complex“ complex = ( Complex* ) pg_getarg_pointer(0) ; 
“a ele ) palloc( 100) ; 
snprintf( result, 100,"(%g,%g)", complex- >x, complex- >y); 
pg_return_cstring( result) ; 
第 一 行 声明 了 complex_out 函数 ， 之 后 的 几 行 实现 了 这 个 输出 函数 。 代 码 中 使 用 了 几 个 PostgreSQL 特有 
的 结构 ， 比 如 palloc 函数 ， 它 用 于 动态 地 分 配 由 PostgreSQL 内 存 管 理 器 支配 的 内 存 。 更 多 的 细节 可 以 
在 PostgreSQL 的 文档 中 找到 (参见 文献 注解 ) 。 
PostgreSQL 中 的 聚集 函数 执行 时 ， 利 用 状态 转换 ( state transition ) K% E AKASH (state value), Xf 
于 聚集 组 中 的 每 个 元 组 值 ， 状 态 转 换 晴 数 都 会 被 调用 。 例 如 ，avg 操作 符 的 状态 由 累加 和 以 及 值 的 计 
数组 成 。 每 当 一 个 元 组 到 达 时 ， 转 换 函 数 简 单 地 将 它 的 值 增加 到 累加 和 中 ， 同 时 计数 增加 1。 有 时 需 
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要 调用 一 个 终结 函数 基于 状态 信息 计算 出 返回 值 。 例 如 ， 对 于 avg 的 终结 函数 将 简单 地 用 累加 和 除 以 
计数 ， 并 返回 结果 。 
因此 ， 定 义 一 个 新 的 聚集 就 如 同 定 义 这 两 个 函数 一 样 简单 。 以 complex 类 型 为 例 ， 如 果 complex_ 
add 是 一 个 用 户 自 定义 函数 ， 接 收 两 个 复杂 参数 并 返回 它们 的 和 ， 那 么 sum 聚集 运算 符 可 以 用 如 下 简 
单 的 声明 来 扩展 以 支持 复杂 类 型 的 数字 : (1134) 


create aggregate sum ( 
sfunc = complex_add, 
basetype = complex, 
stype = complex, 
initcond =* (0, 0)’ 
)3 
注意 函数 重 载 的 使 用 : PostgreSQL 将 根据 函数 调用 时 参数 的 实际 类 型 来 调用 适当 的 sum 聚集 函数 
这 里 的 basetype 是 参数 类 型 ， 而 stype 是 状态 值 类 型 。 在 这 个 例子 中 不 需要 终结 函数 ， 因 为 返回 值 就 是 
状态 值 本 身 (也 就 是 两 个 例子 中 的 累加 和 ) 。 
使 用 操作 符 语法 也 能 调用 用 户 自 定义 函数 。 除 了 用 于 函数 调用 的 简单 的 “语法 上 的 甜 涉 "外 ， 运 算 
符 声明 也 为 查询 优化 器 提供 了 提高 性 能 的 线索 。 这 些 线索 可 能 包括 的 信息 有 可 交换 性 、 约 束 、 连 接 选 
择 性 估计 以 及 与 连接 算法 相关 的 各 种 其 他 属性 。 
27.3.3.3 Kala A 
PostgreSQL 当前 支持 通用 的 B 树 和 散 列 索引 ， 还 有 两 种 PostgreSQL 特有 的 索引 方法 : 通用 搜索 树 
(GiST) 和 通用 倒 排 索引 (CGIN) ， 这 对 于 全 文 索引 是 有 用 的 (27. 5. 2. 1 节 将 对 这 些 索引 结构 进行 解释 ) 。 
最 后 ，PostgreSQL 提供 了 对 二 维 空间 对 象 的 R 树 索引 ， 它 背后 是 通过 使 用 GiST 索引 来 实现 的 。 所 有 这 
些 索引 都 很 容易 扩展 来 适应 新 的 基本 类 型 。 
为 一 个 类 型 添加 索引 扩展 需要 定义 一 个 操作 算 子 类 (operator class) ， 它 封装 如 下 信息 : 
。 索引 方法 策略 (index-method strategy) 。 在 where 子 句 中 可 以 用 一 组 运算 符 来 作为 限定 词 。 特 定 
的 运算 符 集合 取决 于 索引 类 型 。 例 如 ，B 树 索 引 能 够 检索 对 象 的 范围 ， 因 此 该 集合 由 五 个 运算 


符 组 成 (< ，<= ，=，>= 和 > )， 所 有 运算 符 都 可 以 出 现在 where 子 句 中 ， 同 时 包含 一 个 B 树 
索引 。 散 列 索引 只 允许 相等 性 测试 ， 而 R 树 索 引 支 持 许多 空间 关系 运算 (如 包含 、 在 左边 等 
等 ) 。 


© 索引 方法 支撑 例 程 (index-method support routine) 。 上 述 运 算 符 集合 通常 不 足以 支持 索引 的 操作 
例如 ， 散 列 索引 需要 一 个 函数 来 计算 每 个 对 象 的 散 列 值 。R 树 索 引 需 要 能 够 计算 交集 和 并 集 ， 
并 估计 索引 对 象 的 大 小 。 [1135] 
例如 ， 如 果 定 义 下 述 函数 和 运算 符 来 比较 两 个 复数 值 ( 见 27. 3.3.1 节 ) 的 大 小 ， 那 么 我 们 可 以 通过 
下 面 的 声明 来 使 得 这 种 对 象 可 被 索引 : 
create operator class complex_abs_ops 
default for type complex using btree as 
operator | < (complex, complex) , 
operator 2 <= (complex, complex) , 
operator 3 = (complex, complex) , 
operator 4 >= (complex, complex) , 
operator 5 > (complex, complex) , 
function 1 complex_abs_cmp( complex, complex) ; 
operator 语句 定义 了 策略 方法 ， 而 function 语句 定义 了 支撑 方法 。 
27.3.3.4 过程 化 语言 
存储 函数 和 过 程 可 以 用 许多 过 程 化 语言 编写 。 此 外 ，PostgreSQL 定义 了 一 个 应 用 编程 接口 ， 用 于 
连接 用 于 此 目的 的 任意 编程 语言 。 编 程 语言 可 以 按 需 注册 ， 要 么 是 可 信 的 (trusted)， 要 么 是 不 可 信 的 
(untrusted) 。 后 者 允许 对 DBMS 和 文件 系统 进行 非 受 限 访问 ， 同 时 用 它们 编写 存储 函数 需要 超级 用 户 
权限 。 
。 PL/pqSQL。 它 是 一 种 将 过 程 化 编程 能 力 ( 如 变量 和 控制 流 ) 添 加 到 SQL 中 的 可 信 语 言 ， 和 
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Oracle 的 PL/SQL 很 相似 。 尽 管 不 能 逐 字 地 将 一 种 语言 的 代码 变化 为 男 一 种 ,但 移植 通常 是 比 
较 简 单 的 。 

e PL/Tcl、PL/Perl 和 PL/Python。 这 些 语言 利用 了 Tel, Perl 和 Python 的 能 力 来 编写 服务 器 上 的 
存储 函数 和 过 程 。 前 两 种 既 有 可 信 的 版 本 也 有 不 可 信和 的 版 本 (分 别 为 PL/Tcl、PL/Perl 和 PL/ 
TclU 、PL/PerlU) ， 而 PL/Python 在 本 书写 作 时 是 不 可 信和 的 。 每 种 这 样 的 语言 都 有 人 允许 通过 特定 
语言 接口 来 访问 数据 库 系 统 的 绑 定 。 

27.3.3.5 服务 器 编程 接口 

服务 器 编程 接口 (Server Programming Interface, SPI) 是 一 种 应 用 编程 接口 ， 它 允许 用 户 自 定义 的 C 

函数 ( 见 27.3.3.2 节 ) 在 其 函数 内 部 运行 任意 的 SQL 命令 。 这 使 得 编写 用 户 自 定义 函数 的 用 户 只 需要 
用 C 语言 实现 必要 的 部 分 ， 而 很 方便 地 利用 关系 数据 库 系统 引擎 的 强大 功能 来 完成 大 部 分 工作 。 


27.4 PostgreSQL 中 的 事务 管理 


PostgreSQL 中 的 事务 管理 同时 使 用 快照 隔离 和 两 阶段 锁 协 议 。 采 用 哪 种 协议 取决 于 所 执行 语 
名 的 类 型 。 对 于 DML 语句 ”使 用 15.7 节 中 讲述 的 快照 隔离 技术 ， 这 个 快照 隔离 方案 被 认为 是 
PostgreSQL 中 的 多 版 本 并 发 控制 方案 (MVCC ) 。 另 一 方面 ，DDL 语句 的 并 发 控制 基于 标准 的 两 阶 
27.4.1 PostgreSQL 的 并 发 控制 

因为 PostgreSQL 使 用 的 并 发 控制 协议 取决 于 应 用 所 需要 的 隔离 性 级 别 (isolation level) ， 我 们 就 从 概 
IÈ PostgreSQL 所 提供 的 隔离 性 级 别 开 始 。 然 后 我 们 描述 隐藏 在 MVCC 方案 背后 的 关键 思想 ， 紧 接着 讨 
论 PostgreSQL 中 MVCC 的 实现 ， 以 及 MVCC 的 一 些 推论 。 我 们 以 概述 DLL 语句 的 锁 机 制 和 讨论 索引 的 
并 发 控制 来 结束 本 节 内 容 。 

27.4.1.1 PostgreSQL 隔离 性 级 别 

SQL 标准 定义 了 三 种 弱 一 致 性 级 别 以 及 一 致 性 的 可 串 行 化 级 别 ， 本 书 的 大 部 分 讨论 都 基于 此 ， 
一 些 应 用 并 不 需要 达到 可 串 行 化 所 提供 的 强 一 致 性 保证 ， 提 供 弱 一 致 性 级 别 的 目的 就 是 允许 这 些 
应 用 具有 更 高 的 并 发 度 。 此 类 应 用 的 例子 包括 收集 数据 库 的 统计 信息 并 且 不 需要 精确 结果 的 长 
事务 。 

根据 违反 可 串 行 化 的 三 种 现象 ，SQL 标准 定义 了 不 同 的 隔离 性 级 别 。 这 三 种 现象 称 作 : 读 脏 数 据 、 
不 可 重复 读 和 读 幻 象 ， 定 义 如 下 : 

© 读 脏 数 据 (dirty read) 。 事 务 读 了 由 另 一 个 尚未 提交 事务 所 写 的 值 。 

。 不 可 重复 读 ( nonrepeatable read) 。 一 个 事务 在 执行 过 程 中 对 同一 对 象 读 了 两 次 ， 第 二 次 得 到 了 

不 同 的 值 ， 尽 管 在 此 期 间 该 事务 并 没有 改变 其 值 。 
© 读 幻 象 (phantom read) 。 事 务 重 新 执行 返回 结果 为 满足 某 搜 索 条 件 的 行 集合 的 查询 ， 发 现 满 足 
条 件 的 行 集合 已 经 改变 ， 这 是 由 于 另 一 个 事务 最 近 提 交 了 。( 有 关 幻 象 现 象 更 详细 的 解释 ， 包 
括 幻象 冲突 的 概念 ， 见 15. 8. 3 节 ; 消除 幻象 读 不 一 定 就 能 消除 所 有 的 幻象 冲突 ,) 

很 显然 上 述 每 种 现象 都 破坏 了 事务 的 隔离 性 ， 因 此 违反 了 可 串 行 化 。 图 27-5 显示 了 SQL 标准 中 所 
指定 的 四 种 SQL 隔离 性 级 别 的 定义 一 一 读 未 提交 、 读 已 提交 、 可 重复 读 和 可 串 行 化 一 一 根据 上 面 这 些 
现象 所 进行 的 分 类 。PostgreSQL 支持 四 种 不 同 隔离 性 级 别 中 的 两 种 : 读 已 提交 ( 它 是 PostgreSQL 中 默认 
的 隔离 性 级 别 ) 和 可 串 行 化 。 然 而 ，PostgreSQL 使 用 快照 隔离 实现 了 可 串 行 化 的 隔离 性 级 别 ， 如 同 我 们 
之 前 在 15.7 节 所 看 到 的 那样 ， 这 并 不 真正 确保 可 串 行 化 。 








昌 一 条 DML 语句 是 在 一 个 表 中 更 新 或 读数 据 的 任何 语句 ， 也 就 是 select、insert、update fetch 和 copy. 
DDL 语句 影响 整个 表 ; 例如 ， 它 们 可 以 删除 一 个 表 或 改变 一 个 表 的 模式 。DDL 语句 和 其 他 一 些 PostgreSQL 
特定 的 语句 将 在 本 节 后 面 讨论 。 
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隔离 性 级 别 读 胜 数据 不 可 重复 读 幻象 | 











图 27-5 四 种 标准 SQL 隔离 性 级 别 的 定义 


27.4.1.2 DML 命令 的 并 发 控制 

PostgreSQL 中 使 用 的 MVCC 方案 是 我 们 在 15. 7 节 中 看 到 的 快照 隔离 协议 的 一 种 实现 。MVCC 背后 
的 关键 思想 是 维护 每 一 行 的 不 同 版 本 ， 而 不 同 版 本 对 应 着 在 不 同 的 时 间 点 上 该 行 的 实例 。 这 就 允许 事 
务 通过 选择 每 一 行 在 得 到 快照 之 前 提交 的 最 近 版 本 ， 来 查看 数据 的 一 致 性 快照 。MVCC 协议 使 用 快照 
来 确保 每 个 事务 看 到 数据 库 的 一 致 性 视图 : 在 执行 命令 之 前 ， 事 务 选择 数据 的 一 个 快照 ， 处 理 在 该 快 
照 中 或 是 被 同一 事务 的 更 早 命令 所 创建 的 行 版 本 。 由 于 完全 从 整个 事务 来 考虑 ， 数 据 的 视图 是 "一致 ” 
的 , 但 快照 没有 必要 和 数据 的 当前 状态 相同 。 

(E MVCC 的 动机 是 让 读者 从 不 阻塞 写 者 ， 反 之 亦 然 。 读 者 访问 行 的 最 近 版 本 ， 它 是 该 事务 快照 
的 一 部 分 。 写 者 创建 它们 自己 的 单独 的 行 拷贝 ， 用 于 更 新 。27. 4.1.3 节 显 示 只 有 当 两 个 写 者 试图 更 新 
相同 行 时 ， 才 会 出 现 使 得 事务 阻塞 的 冲突 。 相 反 ， 在 标准 的 两 阶段 锁 方 式 下 ， 读 者 和 写 者 都 可 能 被 阻 
塞 ， 因 为 每 个 数据 对 象 只 有 一 个 版 本 ， 读 操作 和 写 操 作 在 访问 任何 数据 前 都 需要 获得 相应 的 锁 : 

PostgreSQL 中 的 MVCC 方案 实现 了 快照 隔离 协议 的 最 先 更 新 者 获胜 (first-updater-wins ) 版 本 ， 通 过 
在 对 行进 行 写 时 获取 互 斥 锁 ， 但 对 行进 行 读 时 使 用 快照 (不 用 任何 锁 ) 。 如 同 前 面 在 15. 7 节 中 概述 的 那 


样 ， 在 获得 互 斥 锁 之 后 进行 附加 验证 。 fuk 





27.4.1.3 PostgreSQL 中 的 MVCC 实现 
PostgreSQL MVCC 的 核心 概念 是 元 组 可 见 性 (tuple visibility), PostgreSQL 的 元 组 指 行 的 一 个 版 本 。 
元 组 可 见 性 定义 了 在 给 定语 名 或 事务 的 上 下 文中 ， 表 中 行 潜在 的 多 个 版 本 中 哪个 是 有 效 的 。 基 于 在 执 
行 命令 前 所 选择 的 数据 库 快 照 ， 事 务 决定 了 元 组 的 可 见 性 。 
如 果 满 足 如 下 两 个 条 件 ， 一 个 元 组 对 于 事务 7 是 可 见 的 : 
1. 元 组 被 一 个 事务 创建 ， 该 事务 于 事务 7 了 得 到 快照 之 前 提交 ; 
2. 该 元 组 的 更 新 (如 果 存在 ) 由 一 个 事务 执行 ， 而 该 事务 要 么 : 
。 被 中 止 , 或 者 
。 在 事务 7 得 到 快照 之 后 开始 运行 ， 或 者 
。 在 7 得 到 快照 时 已 经 是 活跃 的 。 
更 准确 地 说 ， 如 果 一 个 元 组 是 由 7 创建 的 并 在 其 后 没有 被 了 更 新 ， 则 对 了 也 是 可 见 的 。 为 了 简单 起 见 ， 
我 们 忽略 了 这 种 特殊 情况 的 细节 。 
上 述 条 件 的 目标 是 为 了 确保 每 个 事务 看 到 的 都 是 数据 的 一 致 性 视图 。PostgreSQL 维护 如 下 状态 信 
息 来 高 效 地 检查 这 些 条 件 : 
© 事务 标识 (transaction ID ) ， 在 事务 启动 时 分 配给 每 个 事务 ， 同 时 也 被 当 作 时 间 戳 。PostgreSQL 
使 用 逻辑 计数 ( 见 15. 4. 1 节 中 的 描述 ) 来 分 配 事务 标识 。 
e 一 个 叫做 pg_clog 的 日 志文 件 ， 包 含 每 个 事务 的 当前 状态 。 状 态 分 为 : 处 理 中 、 已 提交 或 
已 中 止 。 
。 表 中 每 个 元 组 都 有 一 个 元 组 头 ， 包 括 三 个 域 : xmin， 包 含 创建 该 元 组 的 事务 标识 ， 因 此 又 称 为 
创建 事务 标识 ( creation-transaction ID); xmax， 包 含 替 换 或 删除 该 元 组 的 事务 标识 ( 如 果 没 有 删 
除 或 替换 则 为 null) ， 也 称 为 终止 事务 标识 (expire-transaction ID); 一 个 指向 相同 逻辑 行 的 新 版 
本 的 前 向 链接 (如 果 存 在 新 版 本 的 话 ) 。 
© 一 个 SnapshotData 数据 结构 要 么 在 事务 启动 时 创建 ， 要 么 在 查询 启动 时 创建 ， 这 取决 于 隔离 性 
级 别 ( 下 面 有 更 详细 的 阐述 )。 它 的 主要 目的 是 决定 一 个 元 组 对 当前 命令 是 否 可 见 
SnapshotData 存储 关于 一 个 事务 在 创建 时 的 状态 的 信息 ， 包 括 一 个 活跃 事务 的 列表 和 xmax， 其 
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值 等 于 1 加 上 到 目前 为 止 已 经 启动 的 事务 中 的 最 高 标识 。 

xmax 的 值 被 当 作 是 事务 可 能 被 看 作 是 可 见 的 一 个 "截止 ”。 

27-6 通过 一 个 简单 的 例子 演示 了 这 种 状态 信息 ， 包 括 一 个 只 有 一 个 表 的 数据 库 ， 即 图 27-7 中 的 
department K, department 表 有 三 列 : 系 的 名 称 、 系 所 在 的 建筑 和 系 的 预算 。 图 27-6 展示 了 department 
表 的 一 小 段 ， 只 含有 对 应 于 Physics 系 的 那些 行 (的 版 本 ) 。 元 组 头 中 的 信息 暗示 着 该 行 最 早 由 事务 100 
创建 ， 后 来 被 事务 102 和 事务 106 更 新 。 图 27-6 还 显示 了 相应 pg_clog 文件 的 一 小 段 。 根 据 pg_clog X 
件 ， 事 务 100 和 102 已 提交 ， 而 事务 104 和 106 正在 处 理 中 。 


数据 库 表 ee 


癌 前 ”xmin xmax department(dept_name, building, budget) XID ”状态 标志 

















100 
102 
Watson 
104 00 
Watson 


Physics 








106 








事务 104 
select budget FT 
from department 一 一 -一 
where dept_name = ‘Physics’ LY 
00 执行 中 
01 中 止 
10 提交 


图 27-6 PostgreSQL 用 于 MVCC 的 数据 结构 








给 定 上 述 状态 信息 ， 对 于 一 个 元 组 可 见 的 两 个 需要 满足 的 条 件 可 [SEE | building | bidget 

以 重 写 如 下 : | Biology | Watson | 90000 
L 元 组 头 中 的 创建 事务 标识 | 

a. 根据 pg_clog 文件 来 看 是 已 提交 事务 ， 并 且 Finance” | Painter | 120000 

aint 50006 

b. 小 于 被 SnapshotData 记录 在 smar HENRI, | Mey | peewee | sono 
c. 不 是 SnapshotData 中 存储 的 活跃 事务 之 一 。 Physics Watson 70000 | 














2. 终止 事务 标识 ， 如 果 它 存在 
a. 根据 pg_clog 文件 来 看 是 中 止 事 务 ， 或 者 
b. 大 于 或 等 于 被 SnapshotData 记录 在 xmax 中 的 截止 事务 标识 ， 或 者 
c. 存储 在 SnapshotData 中 的 活跃 事务 之 一 。 
考虑 图 27-6 中 的 数据 库 实 例 ， 假 设 事务 104 用 到 的 SnapshotData 简单 地 使 用 103 作为 截止 事务 标 
识 xmax， 并 且 没 有 出 现 更 早 的 活跃 事务 。 在 这 种 情况 下 ， 对 应 Physics 系 的 那 一 行 只 有 一 个 版 本 对 事 
务 104 是 可 见 的 ， 那 就 是 表 中 由 事务 102 所 创建 的 第 二 个 版 本 。 由 事务 100 所 创建 的 第 一 个 版 本 不 可 
见 ， 因 为 它 破坏 了 条 件 2: 这 个 元 组 的 终止 事务 标识 是 102 ， 这 是 一 个 并 未 中 止 的 事务 ， 并 且 它 的 事务 
标识 小 于 或 等 于 事务 103 。Physics 元 组 的 第 三 个 版 本 是 不 可 见 的 ， 因 为 它 由 事务 106 产生 ， 它 的 事务 
标识 大 于 事务 103 ， 这 意味 着 在 SnapshotData 被 创建 时 该 版 本 尚未 提交 。 此 外 ， 事 务 106 正在 运行 中 ， 
这 破坏 了 另 一 个 条 件 。 该 行 的 第 二 个 版 本 满足 元 组 可 见 性 的 所 有 条 件 。 
PostgreSQL MVCC 同 SQL 语句 执行 之 间 的 具体 交互 细节 取决 于 该 语句 是 insert, select, update 还 
是 delete 语句 。 最 简单 的 情况 是 insert 语句 ， 它 基于 语句 中 的 数据 简单 地 创建 一 个 新 元 组 ， 初 始 化 元 
组 头 (创建 标识 ) ， 然 后 把 这 个 新 元 组 插入 到 表 中 。 与 两 阶段 锁 的 情况 不 同 的 是 ， 这 不 需要 与 并 发 控制 
协议 进行 任何 交互 ， 除 非 插入 需要 检查 完整 性 条 件 ， 如 : 唯一 性 或 者 外 码 约束 。 
当 系 统 执行 select、update 或 delete 语句 时 ， 与 MVCC 协议 的 交互 取决 于 应 用 所 指定 的 隔离 性 级 
别 。 如 果 隔 离 性 级 别 是 读 已 提交 ， 那 么 新 语句 的 处 理 从 创建 一 个 新 的 SnapshotData 数据 结构 开始 (与 


图 27-7 department 关系 


#272 PostgreSQL 645 


该 语句 是 创建 一 个 新 事务 ， 还 是 它 只 是 现 有 事务 的 一 部 分 无 关 ) 。 接 着 ， 系 统 识别 目标 元 组 ， 就 是 关 
于 SnapshotData 可 见 且 匹配 语句 搜索 条 件 的 那些 元 组 。 对 于 select 语句 ， 目 标 元 组 集 构 成 查询 的 
结果 。 

对 于 读 已 提交 模式 下 的 update 或 delete 语句 的 情况 ,识别 目标 元 组 后 ， 在 实际 更 新 或 删除 操作 发 
生前 ， 还 需要 一 个 额外 的 步骤 。 原 因 是 元 组 的 可 见 性 保证 了 只 有 那些 在 进行 中 的 update/delete 语句 之 
前 已 提交 的 事务 所 创建 的 元 组 才 启 动 。 然 而 ， 可 能 自 查 询 开始 以 来 ,该 元 组 已 被 男 一 个 并 发 执行 的 事 
务 更 新 或 删除 。 通 过 查看 该 元 组 的 终止 事务 标识 可 以 检测 到 这 种 情况 。 如 果 终 止 事 务 标 识 对 应 着 一 个 
正在 处 理 的 事务 ， 有 必要 先 等 待 该 事务 完成 。 如 果 该 事务 中 止 ，update 或 delete 语句 继续 进行 并 执行 
实际 的 修改 。 如 果 该 事务 提交 ，update/ delete 语句 的 搜索 条 件 需 要 重新 计算 ， 只 有 元 组 仍然 满足 这 些 
条 件 ， 该 行 才 可 以 修改 。 如 果 是 对 行 的 删除 ， 则 主要 的 步骤 是 更 新 旧 元 组 的 终止 事务 标识 。 行 的 更 新 
也 同样 执行 这 个 步 又， 外 加 还 会 创建 行 的 一 个 新 版 本 ， 设 置 它 的 创建 事务 标识 ， 同 时 把 旧 元 组 的 前 向 
链接 指向 新 元 组 。 

回 到 图 27-6 中 的 例子 ， 仅 由 一 个 select 语句 组 成 的 事务 104 识别 Physics 行 的 第 二 个 版 本 为 目标 元 
组 并 将 其 立即 返回 。 如 果 事 务 104 是 一 条 更 新 语句 ， 比 如 试图 让 Physics 系 的 预算 增加 一 些 ， 那 么 它 将 
必须 等 竺 事务 106 完成 。 随 后 它 重 新 计算 搜索 条 件 ， 只 有 该 条 件 仍然 满足 时 更 新 才 会 进行 。 

使 用 上 面 描述 的 用 于 update 和 delete 语句 的 协议 只 提供 了 读 已 提交 隔离 性 级 别 。 在 某 些 方面 会 违 
反 可 串 行 化 。 首 先 ， 不 可 重复 读 是 可 能 的 。 因 为 事务 中 的 每 个 查询 可 能 会 看 到 数据 库 的 不 同 快 照 ， 那 
么 事务 中 的 一 个 查询 可 能 会 看 到 已 完成 的 update 命令 的 结果 ， 与 此 同时 ， 相 同事 务 中 更 早 的 查询 却 看 
不 到 。 同 理 ， 当 一 个 关系 在 查询 之 间 被 修改 时 ， 读 幻象 也 是 可 能 的 。 

为 了 提供 PostgreSQL 的 可 串 行 化 隔离 性 级 别 ，PostgreSQL MVCC 用 两 种 方式 来 避免 违反 可 串 行 化 : 
首先 ， 当 确定 元 组 的 可 见 性 时 ， 事 务 内 的 所 有 查询 都 使 用 事务 启动 时 的 快照 ， 而 不 是 单个 查询 启动 时 
的 快照 。 这 样 事务 中 的 后 续 查 询 总 是 看 到 相同 的 数据 。 

其 次 ， 在 可 串 行 化 模式 中 更 新 和 删除 的 处 理 方式 同 读 已 提交 模式 不 同 。 同 读 已 提交 模式 一 样 ， 当 
识别 出 一 个 满足 搜索 条 件 的 可 见 的 目标 行 ， 并 且 该 行 正 被 另 一 个 并 发 事务 所 更 新 或 者 删除 ， 则 事务 将 
等 待 。 如 果 执 行 更 新 或 者 删除 的 并 发 事务 中 止 ， 等 待 事务 可 以 继续 它 自己 的 更 新 。 然 而 ， 如 果 并 发 事 
务 提交 了 ，PostgreSQL 没 法 保证 等 待 事务 的 可 串 行 性 。 因 此 ， 等 待 事务 将 回 滚 并 返回 错误 信息 "由 于 并 
发 更 新 ， 不 能 串 行 化 访问 ”。 

如 何 适 当地 处 理 像 上 面 那样 的 错误 消息 取决 于 应 用 ， 可 以 中 止 当前 事务 并 从 起 点 开始 重启 整个 事 
务 。 注 意 由 于 可 串 行 化 问题 带 来 的 回 滚 只 可 能 出 现在 update 和 delete 语句 中 。select 语句 还 是 一 样 的 ， 
从 不 与 任何 其 他 事务 冲突 。 

27.4.1.4 使 用 MVCC 的 推论 

使 用 PostgreSQL MVCC 方案 有 三 个 不 同方 面 的 推论 : (1) 给 存储 系统 带 来 了 额外 的 负担 ， 因 为 需要 
维护 元 组 的 不 同 版 本 ; (2) 开 发 并 发 应 用 需要 更 小 心 一 些 ， 因 为 与 使 用 标准 的 两 阶段 封锁 的 系统 相 比 ， 
PostgreSQL MVCC 可 能 导致 并 发 事务 运行 方式 上 微妙 的 但 很 重要 的 不 同 。(3 ) PostgreSQL 的 性 能 取决 于 
运行 在 其 之 上 的 工作 负载 的 特点 。 下 面 将 对 PostgreSQL MVCC 的 推论 进行 更 详细 的 描述 。 

创建 和 存储 每 行 的 多 个 版 本 会 带 来 昂贵 的 存储 开销 。 为 了 缓解 这 个 问题 ，PostgreSQL 在 可 能 的 时 
候 释 放空 间 ， 识 别 和 删除 那些 对 于 任何 活跃 的 和 未 来 的 事务 不 再 可 见 的 ， 因 而 也 不 再 需要 的 元 组 的 版 
本 。 释 放空 间 的 任务 是 不 可 忽视 的 ， 因 为 索引 可 能 指向 不 再 需要 的 元 组 的 位 置 ， 所 以 在 重用 这 些 空间 
之 前 需要 删除 这 些 引 用 。 为 了 减轻 这 个 问题 ，PostgreSQL 避免 对 有 相同 索引 属性 的 元 组 的 多 个 版 本 建 
立 索引 。 这 就 允许 任何 发 现 了 非 索引 元 组 的 事务 有 效 地 释放 被 该 元 组 所 占用 的 空间 。 

为 了 进一步 重用 空间 ，PostgreSQL 提供 了 vacuum 命令 ， 它 可 以 为 每 个 被 释放 的 元 组 正确 地 更 新 索 
a|, PostgreSQL 利用 一 个 后 台 进 程 来 自动 地 清扫 ( vacuum ) 表 ， 但 是 这 个 命令 也 可 以 直接 由 用 户 来 执行 ， 
vacuum 命令 提供 两 种 操作 模式 : 普通 的 vacuum 简单 地 识别 不 再 需要 的 元 组 ， 并 使 得 这 些 空间 可 以 重 
用 ， 这 种 形式 的 命令 可 以 与 表 的 普通 读 写 并 行 执行 ; vacuum full 命令 进行 更 为 广泛 的 处 理 ， 包 括 在 块 
之 间 移 动 元 组 以 试图 把 表 压 缩 到 最 少数 量 的 磁盘 块 上 ， 这 种 形式 会 慢 许 多 ， 同 时 在 每 个 正在 处 理 的 表 
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上 都 需要 一 个 排他 锁 。 

由 于 PostgreSQL 中 使 用 了 多 版 本 并 发 控制 ， 从 其 他 环境 中 将 应 用 程序 移植 到 PostgreSQL 中 需要 更 
加 小 心 ， 以 确保 数据 的 一 致 性 。 举 个 例子 ， 考 虑 执行 一 条 select 语句 的 事务 7,。 既 然 PostgreSQL 中 的 
读者 不 需要 封锁 数据 ， 当 T, 仍 在 运行 时 ， 另 一 个 并 发 事务 T, 可 以 覆盖 T, 所 读 取 和 选择 的 数据 。 其 结 
果 是 ， 一 些 由 T 返回 的 数据 在 7, 完成 时 可 能 不 再 是 当前 值 了 。7 也 可 能 返回 那些 同时 已 被 其 他 事务 
改变 和 删除 的 行 。 为 了 确保 某 行当 前 的 有 效 性 并 防止 它 被 并 发 更 新 ， 应 用 程序 必须 使 用 select for 
share， 或 者 通过 恰当 的 lock table 命令 来 显 式 地 获得 封锁 。 

对 于 包含 的 读 操作 比 更 新 操作 多 得 多 的 工作 负载 来 说 ，PostgreSQL 的 并 发 控制 方法 性 能 最 好 。 因 

为 在 这 种 情况 下 ， 两 个 更 新 相 冲 突 ， 进 而 导致 事务 回 滚 的 几率 极 低 。 对 于 更 新 密集 的 工作 负载 来 说 ， 
两 阶段 锁 可 能 更 有 效 ， 但 这 依赖 于 许多 因素 ， 如 事务 长 度 和 死 锁 频率 

27.4.1.5 DDL 并 发 控制 

前 一 节 所 描述 的 MVCC 机 制 并 未 保护 事务 与 影响 到 整个 表 的 操作 不 冲突 ， 例 如 删除 表 或 者 改变 
表 模 式 的 那些 事务 。 朝 着 这 个 目标 ，PostgreSQL 提供 了 显 式 的 锁 ， 强 制 要 求 DDL 命令 在 执行 之 前 获 
得 这 些 锁 。 这 些 锁 是 基于 表 的 ( 而 不 是 基于 行 的 ) ， 并 且 获 取 和 释放 的 规则 同 严格 的 两 阶段 封锁 协议 
一 致 。 

图 27-8 列 出 了 PostgreSQL 所 提供 的 所 有 锁 类 型 、 与 之 相 冲 突 的 锁 以 及 使 用 它们 的 一 些 命令 (其 中 
create index concurrently 命令 在 27. 5. 2. 3 节 介 绍 )。 锁 类 型 的 取 名 通常 是 基于 历史 的 ， 未 必 反 映 锁 的 
使 用 情况 。 例 如 ， 所 有 的 锁 都 是 表 级 锁 ， 尽 管 一 些 锁 名 字 中 包含 单词 “ 行 ” DML 命令 只 获取 前 三 类 的 
锁 。 这 三 类 锁 相 互 兼 容 ， 因 为 MVCC 已 经 小 心地 保护 这 些 操作 互 不 冲突 。DML 命令 获取 这 些 锁 仅仅 只 
是 为 了 保护 与 其 他 DDL 命令 不 冲突 。 

它们 的 主要 目的 是 为 DDL 命令 提供 PostgreSQL 内 部 的 并 发 控制 ， 而 PostgreSQL 应 用 程序 也 可 以 通 
过 lock table 命令 来 显 式 地 获得 图 27-8 中 的 所 有 锁 。 


锁 名 称 与 之 冲突 的 锁 需要 该 锁 的 操作 






























ACCESS SHARE ACCESS EXCLUSIVE select query 
ROW SHARE EXCLUSIVE select for update query 
ACCESS EXCLUSIVE select for share query 


ROW EXCLUSIVE SHARE update 
SHARE ROW EXCLUSIVE delete 
EXCLUSIVE insert queries 
ACCESS EXCLUSIVE 


SHARE UPDATE EXCLUSIVE SHARE UPDATE EXCLUSIVE | vacuum 
SHARE analyze 
SHARE ROW EXCLUSIVE create index concurrently 
EXCLUSIVE 
ACCESS EXCLUSIVE 
ROW EXCLUSIVE 
SHARE UPDATE EXCLUSIVE 
SHARE ROW EXCLUSIVE 
EXCLUSIVE 
ACCESS EXCLUSIVE 
SHARE ROW EXCLUSIVE ROW EXCLUSIVE 
SHARE UPDATE EXCLUSIVE 
SHARE 
SHARE ROW EXCLUSIVE 
EXCLUSIVE 
ACCESS EXCLUSIVE 


EXCLUSIVE All except ACCESS SHARE fH | 


ACCESS EXCLUSIVE All modes drop table 
alter table 
vaccum full 


FA 27-8 表 级 锁 模 式 

锁 被 记录 在 锁 表 中 ， 锁 表 被 实现 为 一 个 放 在 共享 内 存 中 的 散 列 表 ， 以 标识 被 封锁 对 象 的 签名 作为 
关键 词 。 如 果 事 务 想 获得 某 对 象 上 的 锁 ， 而 该 锁 被 另 一 个 事务 以 冲突 模式 所 持 有 ， 则 它 需 要 等 待 锁 的 
释放 。 锁 等 待 用 信和 号 量 实现 。 每 个 信号 量 都 有 唯一 一 个 事务 与 之 关联 。 当 等 待 一 个 锁 时 ， 事 务实 际 上 
















create index 
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在 与 持 有 该 锁 的 那个 事务 相关 联 的 信号 量 之 上 等 待 。 一 旦 锁 持 有 者 释放 该 锁 ， 它 将 通过 信和 号 量 通知 (多 
个 ) 等 待 事务 。 通 过 基于 每 执 有 者 每 锁 实 现 锁 等 待 ， 而 不 是 基于 每 对 象 每 锁 ，PostgreSQL 对 于 每 个 并 发 
事务 最 多 获取 一 个 信号 量 ， 而 不 是 每 个 可 封锁 对 象 一 个 信和 号 量 。 

PostgreSQL 中 的 死 锁 检 测 是 基于 超时 机 制 的 。 默 认 情 况 下 ， 如 果 某 事务 等 待 一 个 锁 超 过 1 秒 就 会 
触发 死 锁 检测 机 制 。 死 锁 检 测算 法 基于 锁 表 中 的 信息 构造 一 个 等 竺 图， 并 搜索 此 图 中 的 循环 依赖 。 如 
果 发 现 了 任何 循环 依赖 ， 则 意味 着 检测 到 了 死 锁 ， 和 触发 死 锁 检测 的 事务 会 中 止 并 给 用 户 返回 一 个 错误 。 
如 果 没 有 检测 到 环 ， 则 事务 会 在 锁 上 继续 等 待 。 不 同 于 一 些 商用 系统 ，PostgreSQL 并 不 动态 调整 锁 超 
时 参数 ， 但 是 它 人 允许 管 理 员 手 动 调整 。 理 想 情 况 下 ， 这 个 参数 的 选择 应 该 与 事务 生命 周期 相似 ， 以 优 
化 死 锁 检测 所 耗费 的 时 间 和 不 存在 死 锁 时 运行 死 锁 检测 算法 所 空 耗 的 工作 之 间 的 权衡 。 

27.4.1.6 封锁 和 索引 

在 PostgreSQL 中 ， 所 有 当前 类 型 的 索引 允许 被 多 个 事务 并 发 访问 。 这 通过 页 级 封锁 通常 是 可 能 的 ， 
所 以 不 同事 务 如 果 不 请 求 同 一 页 上 的 冲突 锁 就 可 以 并 行 地 访问 索引 。 这 些 锁 通常 被 短 时 间 持 有 以 避免 
死 锁 ， 除 了 散 列 索引 之 外 ， 散 列 索引 封锁 页 面 时 间 更 长 ， 并 可 能 陷 人 死 锁 。 

27.4.2 恢复 

PEE, PostgreSQL 并 没有 将 先 写 日 志 ( WAL) 用 于 恢复 ， 因 此 在 发 生 崩 演 时 不 能 保证 一 致 性 。 崩 
省 潜在 地 会 导致 不 一 致 的 索引 结构 ， 更 糟 时 会 完全 破坏 表 内 容 ， 因 为 只 写 了 部 分 数据 页 。 因 此 ， 从 版 
本 7. 1 开始 ，PostgreSQL 采用 了 基于 WAL 的 恢复 机 制 。 此 方法 类 似 于 标准 的 恢复 技术 ， 比 如 ARIES 
(WL 16.8 45), 但 PostgreSQL 中 的 恢复 由 于 MVCC 协议 在 某 些 方式 上 简化 了 。， 

首先 ， 在 PostgreSQL 中 ， 人 恢复 不 是 必须 撤销 中 止 事务 的 影响 : 一 个 正中 止 的 事务 在 pg_clog 文件 中 
登记 一 项 ， 记 录 下 它 正 中 止 的 事实 。 结 果 ， 它 遗留 的 行 的 所 有 版 本 对 任何 其 他 事务 都 再 不 可 见 。 这 种 
方法 唯一 可 能 导致 问题 的 情况 是 ， 某 事务 因 相应 的 PostgreSQL 进程 崩溃 而 中 止 ， 而 PostgreSQL 进程 在 
AAAI A LS BIE pg_clog Ii, PostgreSQL 按 如 下 方式 处 理 此 问题 : 在 检查 pg_clog 文件 中 另 一 事务 
的 状态 之 前 ， 它 检查 该 事务 是 否 运行 在 某 个 PostgreSQL 进程 中 。 如 果 当 前 没有 任何 PostgreSQL 进程 运 
行 该 事务 ， 并 且 pg_clog 文件 表明 事务 还 在 运行 中 ， 则 可 以 安全 地 假定 事务 已 崩溃 ， 同 时 更 新 事务 的 
pg_clog 项 为 “已 中 止 ” 。 

其 次 ,恢复 被 简化 了 是 由 于 这 样 的 事实 : PostgreSQL MVCC 已 经 记录 了 WAL 日 志 所 需要 的 某 些 信 
息 。 更 准确 地 说 ， 没 有 必要 在 日 志 中 记录 事务 的 启动 、 提 交 和 中 止 ， 因 为 MVCC 在 pg_clog 中 记录 了 每 
个 事务 的 状态 。 


27.5 存储 和 索引 


PostgreSQL 的 数据 布局 和 存储 的 方法 是 为 了 实现 以 下 目标 : (1) 实 现 简洁 (2) 易 于 管理 。 为 了 实现 
这 样 的 目标 所 采取 的 一 个 措施 是 ，PostgreSQL 依赖 于 “已 建立 的 "文件 系统 ， 而 并 非 自 己 处 理 在 原始 磁 
盘 分 区 上 数据 的 物理 布局 。PostgreSQL 在 文件 层次 结构 中 维护 了 一 个 目录 列表 用 于 存储 ， 按 照 惯 例 被 
称 为 表 空间 。 每 个 PostgreSQL 在 安装 时 都 初始 化 一 个 默认 的 表 空间 ， 新 增 的 表 空 间 可 以 在 任何 时 候 添 
加 。 当 创建 表 、 索 引 或 整个 数据 库 时 ， 用 户 可 以 指定 任何 已 有 的 表 空间 来 存放 相关 的 文件 。 创 建 驻 留 
在 不 同 物理 设备 上 的 多 个 表 空 间 特 别 有 用 ， 这 样 速度 更 快 的 设备 可 以 专用 于 存放 有 更 高 需求 的 数据 。 
此 外 ， 存 放 在 分 离 磁盘 上 的 数据 可 以 被 更 高 效 地 并 行 访问 。 

由 于 PostgreSQL 和 文件 系统 之 间 的 冲突 ，PostgreSQL 存储 系统 的 设计 潜在 地 导致 了 一 些 性 能 上 的 
局 限 。 使 用 已 建立 的 文件 系统 导致 了 双 缓 冲 ， 从 磁盘 取出 的 块 首先 被 放 到 文件 系统 的 缓存 (在 内 核 空 
间 ) 中 ， 然 后 才 会 复制 到 PostgreSQL 的 缓存 池 。 人 性 能 也 会 因为 PostgreSQL 在 8KB 的 块 中 存放 数据 而 受 
到 限制 ， 这 可 能 和 内 核 使 用 的 块 大 小 不 匹配 。 在 服务 器 安装 的 时 候 可 以 改变 PostgreSQL 的 块 大 小 ,但 
这 可 能 带 来 不 期 望 的 结果 : 小 的 块 限制 了 PostgreSQL 有 效 存储 大 元 组 的 能 力 ， 而 当 只 有 一 小 部 分 文件 
被 访问 时 ， 大 的 块 也 是 浪费 的 。 

男 一 方面 ， 现 代 企 业 越 来 越 多 地 使 用 外 部 存储 系统 ， 比 如 网 络 附加 存储 和 存储 区 域 网 络 ， 而 不 是 
与 服务 器 相连 的 磁盘 。 此 处 的 观点 认为 存储 是 一 种 服务 ， 能 够 很 容易 地 根据 性 能 来 单独 管理 和 调试 它 。 
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这 些 系统 使 用 的 一 种 方法 是 RAID ， 如 同 10. 3 WTAE, EITC LAR tia. E A AR 
于 已 建立 的 文件 系统 ，PostgreSQL 可 以 直接 利用 这 些 技术 。 因 此 ， 许 多 PostgreSQL 开发 者 的 感觉 是 ， 
对 于 PostgreSQL 用 户 的 绝 大 多 数 应 用 而 言 ， 与 管理 的 轻松 和 实现 简单 相 比 ， 性 能 上 的 限制 是 微不足道 
和 合理 的 。 

27:5.1 $ 


PostgreSQL 中 的 基本 存储 单元 是 表 。 在 PostgreSQL 中 ， 表 存储 在 堆 文件 中 。 这 些 文件 采用 10.54 
中 介绍 的 一 种 标准 的 分 槽 的 页 (slotted-page) 格式 。PostgreSQL 的 格式 如 图 27-9 所 示 。 在 每 一 页 中 ， 一 
个 头 (header) 后 都 跟 有 一 组 “ 行 指针 ”。 一 个 行 指针 存储 了 该 页 中 一 个 特定 元 组 的 偏 移 量 ( 相对 于 每 一 页 
的 开始 位 置 ) 和 长 度 。 实 际 的 元 组 是 从 每 一 页 末尾 开始 ， 以 与 行 指针 相反 的 顺序 存储 。 

















Page header data linp, linp linp, linp, 
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图 27-9 PostgreSQL 表 的 分 槽 的 页 格式 


堆 文件 中 的 记录 通过 它 的 元 组 标识 符 (TID) 加 以 标识 。TID 包括 一 个 4 字 节 的 块 D( 块 人 D 指 明了 包 
含 此 元 组 的 文件 页 ) 和 一 个 2 SA ID. ID 是 对 行 指 针 数 组 的 索引 ， 通 过 它 可 以 访问 到 该 元 组 。 

尽管 这 种 架构 允许 向 一 页 中 添加 或 删除 元 组 ， 基 于 PostgreSQL 的 MVCC 方式 ， 这 些 操 作 都 不 会 真 
正 地 立即 删除 或 替换 行 的 旧版 本 。 如 同 在 27. 4. 1. 4 节 中 解释 的 ， 过 期 元 组 可 以 通过 之 后 的 命令 来 物理 
删除 ， 从 而 在 该 页 中 形成 空洞 。 通 过 行 指 针 数 组 来 间接 访问 元 组 的 策略 使 得 这 些 空洞 可 以 重用 。 

元 组 的 长 度 通常 受 数据 页 长 度 的 限制 。 这 使 得 要 存储 非常 长 的 元 组 很 困难 。 当 PostgreSQL 遇 到 如 
此 大 的 元 组 时 ， 它 尽力 “缩减 ”(toast) 单 个 的 大 属性 。 在 有 些 情况 下 ,缩减 一 个 属性 可 能 通过 对 值 的 压 
缩 来 实现 。 如 果 这 还 不 足以 使 元 组 缩减 到 可 以 放 入 页 中 (通常 的 情况 ) ， 则 被 缩减 属性 中 的 数据 被 一 个 
引用 所 取代 ， 它 指向 数据 在 该 页 之 外 的 拷贝 存储 。 
27.5.2 索引 


PostgreSQL 索引 是 一 种 数据 结构 ， 提 供 从 搜索 谓词 到 特定 表 的 元 组 标识 序列 的 动态 映射 。 被 返回 
的 元 组 倾向 于 匹配 搜索 谓词 ， 虽然 在 有 些 情况 下 谓词 必须 在 堆 文 件 中 复查 。PostgreSQL 支持 几 种 不 同 
的 索引 类 型 ， 包括 那些 基于 用 户 可 扩展 的 访问 方法 的 索引 。 尽 管 一 种 访问 方法 可 能 使 用 不 同 的 页 格式 ， 
PostgreSQL 中 的 所 有 可 用 索引 都 使 用 在 上 面 27. 5. 1 节 中 介绍 的 分 槽 的 页 格式 。 
27.5.2.1 索引 类型 
PostgreSQL 支持 如 下 几 种 类 型 的 索引 : 
。 BB 树 。 默 认 索 引 类 型 是 一 种 基于 Lehman 和 Yao 提出 的 B-link 树 的 B* 树 索引 (15. 10 节 中 介绍 了 
支持 高 并 发 性 操作 的 B-link 树 ) 。 该 类 索引 能 有 效 支 持 对 于 有 序数 据 的 等 值 查询 和 范围 查询 ， 
以 及 特定 的 模式 匹配 操作 ， 如 like 表达 式 。 
© 散 列 。PostgreSQL 的 散 列 索引 是 线性 散 列 的 一 种 实现 ( 想 了 解散 列 索引 的 更 多 内 容 ， 请 参见 
11.6.3 节 )。 该 类 索引 仅 对 简单 的 等 值 操作 有 用 。PostgreSQL 使 用 的 散 列 索引 并 未 显示 出 比 B 
树 更 好 的 查找 性 能 ， 但 它 还 需要 更 多 的 空间 开销 和 维护 代价 。 另 外 ， 散 列 索 引 是 PostgreSQL 中 
唯一 不 支持 灾难 恢复 的 索引 。 所 以 相对 于 散 列 索引 而 言 ， 人 们 几乎 总 是 更 愿意 使 用 B 树 索 引 。 
e GiST。PostgreSQL 支持 一 个 高 可 扩展 性 索引 ， 称 作 GiST， 或 者 通用 搜索 树 。GiST 是 一 种 平衡 的 
树 状 结构 的 访问 方法 ， 使 得 精通 特定 数据 类 型 (如 图 像 数 据 ) 的 领域 专家 可 以 无 需 关 注 数据 库 系 
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统 的 内 部 细节 就 可 以 容易 地 开发 出 增强 性 能 的 索引 。 使 用 GiST 构建 的 一 些 索 引 实 例 包括 了 B 
树 和 R 树 ， 还 有 用 于 多 维 立方 体 和 全 文 检索 的 不 那么 传统 的 索引 。 可 以 通过 创建 如 27.3.3.3 
节 中 介绍 的 操作 算 子 类 来 实现 一 个 新 的 GiST 访问 方法 。GiST 的 操作 算 子 类 不 同 于 B 树 ， 每 个 
GiST 操作 算 子 类 可 以 有 一 个 不 同 的 策略 集合 来 表示 通过 索引 实现 的 搜索 谓词 。GiST 还 依赖 七 
个 支撑 函数 来 进行 操作 ， 如 测试 集合 成 员 资 格 和 用 于 页 溢出 的 条 目 集 分 裂 。 1148) 
有 趣 的 是 PostgreSQL 原本 实现 的 R 树 ( 见 25.3.5.3 节 ) 在 8.2 版 中 被 GIST 算 子 类 所 取代 。 
这 使 得 R 树 可 以 利用 WAL 日 志和 在 8. 1 版 中 添加 到 GiST 中 的 并 发 能 力 的 优势 。 因 为 原来 实现 
的 RR 树 没有 这 些 特点 ， 这 种 改变 显示 了 可 扩展 索引 方法 的 好 处 。 更 多 关于 GIST 索引 的 信息 请 
参考 文献 注释 中 的 文献 。 
© GIN, PostgreSQL 中 索引 的 最 新 类 型 是 通用 倒 排 索引 (CIN ) 。 一 个 GIN 索引 把 索引 关键 字 和 搜 
索 关键 字 都 当 作 和 集合 ， 使 得 索引 类 型 适合 于 面向 集合 的 操作 。GIN 的 一 个 预期 的 应 用 是 为 全 文 
搜索 对 文档 进行 索引 ， 通 过 把 文档 和 查询 规约 为 搜索 项 的 集合 来 实现 。 类 似 于 GiST， 通 过 创建 
有 合适 支撑 函数 的 操作 算 子 类 ，GIN 索引 可 以 扩展 到 处 理 任何 比较 运算 。 
为 了 评估 一 个 搜索 ，GIN 有 效 地 识别 和 搜索 关键 字 重 又 的 索引 关键 字 ， 并 计算 一 个 位 图 表 
明 哪 些 被 搜索 元 素 是 索引 关键 字 的 成 员 。 这 实现 了 对 支撑 函数 的 使 用 ， 该 支撑 函数 从 一 个 集合 
中 提取 成 员 并 比较 单独 成 员 。 基 于 位 图 和 原始 的 断言 ， 另 一 个 支撑 函数 基于 位 图 和 初始 谓词 判 
定 是 否 满足 搜索 谓词 。 如 果 没 有 完全 索引 属性 就 不 能 决定 搜索 谓词 ， 则 判定 函数 必须 报告 一 个 
匹配 并 复查 在 堆 文件 中 的 谓词 。 
27.5.2.2 其 他 索引 变形 
对 于 上 述 某 些 索引 类 型 PostgreSQL 还 支持 更 复杂 的 变形 ， 比 如 : 
。 多 列 索引 。 该 类 索引 对 于 定义 在 一 个 表 中 多 个 列 上 的 谓词 的 合 取 很 有 效 。 多 列 索引 只 支持 B 树 
和 GiST 索引 。 
。 唯一 性 索引 。 在 PostgreSQL 中 ， 唯 一 性 和 主 码 约束 可 通过 使 用 唯一 性 索引 来 实现 。 只 有 B 树 索 
引 能 定义 为 唯一 性 的 。 
表达 式 上 的 索引 。 在 PostgreSQL 中 ， 可 以 在 列 的 任意 标量 表达 式 上 创建 索引 ， 而 不 局 限于 表 中 
特定 的 列 。 当 讨论 中 的 表达 式 “ 代 价 特别 大 ”时 一 一 比如 包含 复杂 的 用 户 自 定义 运算 一 一 这 种 索 
引 特 别 有 用 。 举 例 来 说 ， 通 过 在 表达 式 lower( column) 上 定义 索引 ， 并 在 查询 中 使 用 谓词 lower 
(column) = ‘value’ ， 就 能 支持 不 区 分 大 小 写 的 比较 操作 。 但 表达 式 上 的 索引 的 一 个 缺点 是 其 维 
护 成 本 高 。 [1149] 
。 操作 算 子 类 。 用 于 建立 、 维 护 和 使 用 列 上 索引 的 特定 比较 函数 ， 是 与 该 列 的 数据 类 型 密切 相关 
的 。 每 种 数据 类 型 都 有 与 之 关联 的 默认 “操作 算 子 类 ” (在 27.3.3.3 节 中 介绍 ) ， 它 标识 了 通常 
使 用 的 实际 操作 。 大 多 数 情况 下 ， 默 认 操 作 算 子 类 通常 是 够 用 的 ， 一 些 数 据 类 型 还 可 能 拥有 多 
个 “有 意义 "的 类 。 例 如 ， 在 处 理 复 数 时 ， 可 能 需要 对 实 部 或 虚 部 建立 索引 。 对 于 那些 不 使 用 标 
准 的 、 面 向 现场 校对 规则 的 文本 数据 上 的 模式 匹配 操作 ( 例如 like 操作 ) PostgreSQL 提供 了 一 
些 内 置 的 操作 算 子 类 ( 换 名 话说， 特定 于 语言 的 排序 顺序 ) 。 
部 分 索引 。 这 类 索引 建立 在 表 的 一 个 子 集 上 ， 该 子 集 用 谓词 定义 。 该 索引 只 包含 对 应 于 表 中 那 
些 满足 此 谓词 的 元 组 的 项 。 部 分 索引 适用 于 列 包含 很 少量 的 值 ,但 又 可 能 多 次 出 现 的 情况 。 在 
这 种 情况 下 ， 常 见 的 值 就 不 值得 索引 了 ， 因 为 对 于 需要 基 表 大 部 分 数据 的 查询 来 说 索引 扫描 是 
无 益 的 。 而 排除 了 常见 值 的 部 分 索引 很 小 ， 且 只 引发 少量 IO 操作 。 由 于 不 需要 对 部 分 索引 进 
行 大 量 的 插入 操作 ， 它 的 维护 成 本 也 较 小 。 
27.5.2.3 索引 构建 
使 用 create index 命令 可 以 为 数据 库 添加 索引 。 例 如 ， 下 面 的 DDL 语句 在 教员 工资 上 创建 了 一 个 
B 树 索引 。 








create index inst_sal_idx on instructor (salary) ; 


该 语句 的 执行 是 通过 扫描 instructor 关系 ， 找 到 可 能 对 将 来 事务 可 见 的 行 版 本 ， 然 后 把 它们 的 索引 属性 
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进行 排序 ， 并 构建 索引 结构 。 在 这 个 过 程 中 ， 创 建 索引 的 事务 持 有 instructor 关系 上 的 锁 ， 防 止 并 发 的 
insert, delete 和 update 语句 。 一 旦 这 个 过 程 完 成 ， 索 引 就 已 准备 好 可 以 使 用 了 ， 表 上 的 锁 也 被 释放 
通过 create index 命令 获得 的 锁 对 于 某 些 应 用 来 说 可 能 会 带 来 很 大 的 不 便 ， 在 这 些 应 用 中 很 难 在 创 
建 索引 时 挂 起 更 新 操作 。 对 于 这 种 情况 ，PostgreSQL 提供 了 create index concurrently 变 体 ， 它 允许 在 
构建 索引 时 进行 并 发 的 更 新 。 这 由 一 个 更 复杂 的 、 扫 描 两 次 基 表 的 构建 算法 来 实现 。 第 一 次 表 的 扫描 
建立 起 索引 的 初始 版 本 ， 类 似 于 前 面 描述 的 普通 索引 的 构建 方式 。 如 果 表 上 有 并 发 的 更 新 ， 这 个 索引 
就 可 能 缺失 一 些 元 组 ， 但 该 索引 具有 良好 的 形式 ， 所 以 它 在 准备 好 进行 插入 时 会 被 标记 。 最 后 ， 算 法 
第 二 次 扫描 表 , 插入 其 找到 的 还 需要 被 索引 的 所 有 元 组 。 这 个 扫描 同样 也 会 缺失 并 发 更 新 的 元 组 ， 但 
算法 与 其 他 事务 同步 以 保证 在 第 二 次 扫描 中 更 新 的 元 组 ， 将 由 一 个 更 新 事务 添加 到 索引 中 。 因 此 ， 在 
第 二 次 扫描 表 之 后 索引 就 可 以 使 用 了 。 由 于 这 种 两 遍 扫 描 的 算法 是 耗 时 的 ， 如 果 容 易 临 时 挂 起 表 的 更 
新 ， 最 好 选择 普通 的 create index 命令 。 


27.6 查询 处 理 和 优化 


当 PostgreSQL 收 到 一 个 查询 请 求 时 ， 它 首先 将 其 解析 为 一 种 内 部 表示 ， 然 后 通过 一 系列 的 变换 ， 
得 到 能 被 执行 器 用 于 查询 处 理 的 一 个 查询 计划 。 

27.6.1 ”查询 重 写 

查询 转换 的 第 一 个 阶段 是 重 写 (rewrite) ， 这 一 步 由 PostgreSQL 的 规则 系统 负责 。 正 如 27. 3 节 中 所 
述 ， 在 PostgreSQL 中 ， 用 户 可 以 创建 被 不 同事 件 ( 如 update, delete, insert 和 select 语句 ) 所 触发 的 规 
则 。 视 图 是 系统 通过 将 视图 定义 转换 为 select 规则 来 实现 的 。 当 收 到 涉及 视图 上 的 select 语句 的 查询 请 
求 时 ， 有 关 该 视图 的 select 规则 被 触发 ， 查 询 将 根据 视图 的 定义 进行 重 写 。 

使 用 create rule 命令 将 在 系统 中 注册 一 条 规则 ， 此 时 该 规则 的 信息 存储 在 目录 中 。 在 进行 查询 重 
写 时 ， 这 一 目录 将 用 于 找 出 与 给 定 查询 相关 的 所 有 候选 规则 。 

在 重 写 阶 段 将 首先 处 理 所 有 的 update 、delete 和 insert 语句 ， 这 通过 触发 所 有 相关 规则 来 实现 。 这 
些 语 句 可 能 很 复杂 ， 并 包含 select 子 句 。 然 后 ， 剩 下 的 所 有 只 涉及 select 语句 的 规则 被 触发 。 因 为 触发 
一 条 规则 所 引发 的 查询 重 写 可 能 需要 和 触发 另外 的 规则 ， 每 次 重 写 的 查询 形式 都 要 反复 地 进行 规则 检查 ， 
直到 不 需要 再 触发 规则 为 止 。 

在 PostgreSQL 中 没有 默认 规则 ， 只 有 用 户 显 式 定义 的 规则 和 视图 定义 中 隐 含 的 规则 。 

27. 6.2 查询 规划 和 优化 

一 旦 查询 被 重 写 后 ， 就 进入 到 查询 规划 和 优化 阶段 。 在 这 个 阶段 ， 每 个 查询 块 被 单独 处 理 ， 并 为 
之 生成 一 个 查询 计划 。 这 个 规划 过 程 由 重 写 的 查询 的 最 内 层 子 查询 开始 ， 自 底 向 上 产生 ， 直 至 到 达 最 
外 层 的 查询 块 。 

在 大 多 数 情况 下 PostgreSQL 中 的 优化 器 是 基于 代价 的 。 其 思想 是 为 每 个 查询 计划 生成 一 个 估计 
开销 最 小 的 访问 计划 。 代 价 模型 包括 的 参数 有 : 顺序 和 随机 页 面 存 取 的 IO 代价 ， 以 及 处 理 堆 元 组 、 
索引 元 组 和 简单 谓词 的 CPU 开销 。 

实际 的 优化 过 程 是 基于 以 下 两 种 形式 之 一 的 : 

。 标准 规划 器 ( standard planner) 。 标 准 的 规划 器 采用 自 底 向 上 的 动态 规划 算法 来 进行 连接 顺序 的 
优化 , 在 IBM 研究 机 构 于 20 世纪 70 年 代 开 发 的 早期 关系 数据 库 系 统 Syetem R 中 最 早 使 用 
13. 4. 1 节 详 细 介 绍 了 System R 的 动态 规划 算法 ， 该 算法 每 次 用 于 一 个 单一 的 查询 块 上 

© 遗传 查询 优化 器 ( genetic query optimizer) 。 当 查询 块 中 的 表 数 量 很 多 时 ，System R 的 动态 规划 算 
法 代价 会 非常 大 。 与 其 他 默认 使 用 贪心 法 或 基于 规则 方法 的 商用 系统 不 同 ，PostgreSQL 使 用 了 
一 种 更 激进 的 方法 : 一 种 最 初 为 了 解决 旅行 商 问 题 而 开发 出 的 遗传 算法 。 有 证 据 表 明 ， 遗 传 查 
询 优化 在 具有 涉及 大 约 45 个 表 的 查询 的 生产 系统 中 有 成 功 应 用 。 

由 于 规划 器 以 自 底 向 上 的 方式 运行 在 查询 块 上 ， 它 能 够 在 查询 计划 构建 时 进行 一 些 转换 工作 .一 
个 实例 是 在 许多 商用 系统 中 常见 的 子 查询 - 连接 转换 (通常 在 查询 重 写 阶段 实现 ) 。 当 PostgreSQL 遇 到 
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一 个 非 关 联 子 查询 (比如 由 一 个 视图 上 的 查询 所 引发 的 子 查询 ) 时 ,通常 可 以 把 规划 好 的 子 查询 “上 
移 ”， 与 高 层 的 查询 块 融合 。 但 是 ， 在 PostgreSQL 中 将 消除 重复 操作 下 推 到 更 低层 的 查询 块 的 转换 通常 
不 可 能 实现 。 

查询 优化 阶段 产生 了 一 个 查询 计划 ， 它 是 一 棵 关系 操作 算 子 的 树 。 每 个 操作 算 子 代表 在 一 个 或 多 
个 元 组 集合 上 的 一 种 特定 操作 。 这 些 操作 算 子 可 以 是 一 元 的 (比如 排序 、 聚 集 ) 、 二 元 的 (比如 髓 套 循 
HEF), 或 者 nn 元 的 (比如 集合 的 并 )。 

对 于 代价 模型 来 说 ， 关 键 是 要 精确 估计 出 查询 计划 中 每 次 操作 所 要 处 理 的 元 组 总 数 。 这 可 以 由 优 
化 器 根据 系统 中 为 每 个 关系 所 维护 的 统计 信息 来 推算 。 这 些 统计 信息 指明 了 每 个 关系 的 元 组 总 数 和 关 
系 的 每 个 列 的 具体 信息 ， 比 如 列 的 基数 (cardinality) ， 表 中 最 常见 的 数值 和 该 数值 出 现 次 数 的 列表 ， 以 
及 将 列 的 值 划 分 到 若干 有 相同 数量 值 的 组 中 的 直方 图 ( 即 在 13.3.1 节 中 描述 的 等 深 直 方 图 ) 。 另 外 ， 
PostgreSQL 还 维护 着 列 的 值 在 物理 行 次 序 和 逮 辑 行 次 序 之 间 的 统计 相关 性 一 一 它 指 出 了 利用 索引 扫描 
来 检索 出 满足 该 列 上 谓词 的 元 组 的 代价 。 数 据 库 管 理 员 通 过 周期 性 地 运行 analyze 命令 ， 来 确保 这 些 统 
计数 据 都 是 当前 最 新 的 。 

27.6.3 ”查询 执行 器 
执行 模块 负责 处 理 优化 器 产生 的 查询 计划 。 执 行 器 遵循 迭代 器 (iterator ) 模型 ， 该 模型 为 每 个 操作 
算 子 提供 了 四 个 实现 函数 (open next, rescan 和 close) 集 。 在 12.7.2.1 节 中 ， 将 迭代 器 作为 需求 驱动 
流水 线 的 一 部 分 进行 了 介绍 。PostgreSQL 的 迭代 器 还 支持 一 个 额外 的 函数 rescan， 它 通过 设置 诸如 索引 
码 范 围 这 样 的 参数 来 重 置 一 个 子 计 划 ( 比如 连接 的 内 循环 ) 。 
对 执行 器 支持 的 重要 的 操作 算 子 分 类 如 下 : 
1. 访问 方法 (access method), PostgreSQL 中 实际 用 于 从 磁盘 对 象 中 检索 数据 的 访问 方法 是 堆 文件 
的 顺序 扫描 、 索 引 扫 描 和 位 图 索引 扫描 。 
。 顺序 扫描 (sequential scan) 。 关 系 中 的 元 组 是 从 文件 的 第 一 块 到 最 后 一 块 顺序 扫描 。 只 有 根据 
27.4. 1.3 节 所 介绍 的 事务 隔离 性 规则 是 “可 见 的 "元 组 才 会 返回 给 调用 者 。 

© 索引 扫描 (index scan) 。 给 定 一 个 搜索 条 件 ， 如 一 个 范围 或 等 式 谓词 ， 这 种 访问 方法 会 从 相关 的 
堆 文 件 中 返回 匹配 的 元 组 集 。 该 算 子 一 次 处 理 一 个 元 组 ， 开 始 是 从 索引 中 读 取 一 个 项 ， 然 后 从 
堆 文 件 中 取 相 应 的 元 组 。 在 最 坏 情 况 下 ， 这 可 能 导致 对 于 每 个 元 组 都 要 随机 地 取 一 次 页 面 。 

© 位 图 索引 扫描 (bitmap index scan) 。 位 图 索引 扫描 减少 了 在 索引 扫描 中 过 多 的 随机 取 页 面 的 风 
险 。 这 通过 在 两 个 阶段 中 处 理 元 组 来 实现 。 第 一 个 阶段 读 取 所 有 的 索引 项 并 在 一 个 位 图 中 存储 
堆 元 组 的 标识 ， 第 二 个 阶段 按 顺序 取 匹 配 上 的 堆 元 组 。 这 保证 了 每 个 堆 页 面 只 访问 一 次 ， 并 增 
加 了 顺序 取 页 面 的 机 会 。 另 外 ， 由 多 个 索引 建立 的 位 图 可 以 合并 或 求 交 ， 以 便 在 访问 堆 之 前 计 
算 复 杂 的 布尔 谓词 。 

2. 连接 方法 (join method), PostgreSQL 支持 三 种 连接 方法 : 排序 归并 连接 、 符 套 -循环 连接 (包括 
对 于 内 层 的 索引 艇 套 循环 变 体 ) 和 混合 散 列 连接 ( 见 12.5 节 ) 。 

3. 排序 (sort) 。PostgreSQL 中 外 排序 通过 12. 4 节 介 绍 的 算法 来 实现 。 输 入 被 划分 成 若干 排 好 序 的 
归并 段 ， 然 后 这 些 归 并 段 将 被 多 路 归并 。 初 始 归并 段 使 用 选择 替换 算法 ( replacement selection ) 来 生成 ， 
然而 PostgreSQL 使 用 了 优先 级 树 ， 而 不 是 固定 了 内 存 记录 中 数目 的 数据 结构 。 这 是 因为 PostgreSQL 可 
以 处 理 大 小 变化 很 大 的 元 组 ， 它 努力 确保 对 配置 的 排序 内 存 空 间 的 充分 使 用 。 

4, 聚集 (aggregation ) PostgreSQL 中 的 分 组 聚集 要 么 是 基于 排序 的 ， 要 么 是 基于 散 列 的 。 当 估计 到 
不 同 分 组 的 数目 很 大 时 ， 会 使 用 基于 排序 的 聚集 ， 否 则 使 用 基于 散 列 的 聚集 。 

27.6.4 ”触发 器 和 约束 

在 PostgreSQL 中 (不 同 于 某 些 商用 数据 库 系 统 ) ， 在 查询 重 写 阶段 没有 实现 诸如 触发 器 和 约束 那样 
的 动态 数据 库 特 性 。 相 反 ， 它 们 是 作为 查询 执行 器 的 一 部 分 实现 的 。 当 用 户 注册 触发 器 和 约束 时 ， 它 
们 的 细节 都 与 每 一 个 相应 的 关系 和 索引 的 目录 信息 联系 在 一 起 。 执 行 器 通过 对 关系 反复 生成 元 组 的 修 
改 ， 来 执行 update, delete 和 insert 语句 。 对 每 一 行 的 修改 ,执行 器 显 式 地 在 所 需要 的 改变 之 前 或 其 后 
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识别 、 触 发 和 实施 候选 的 触发 器 和 约束 。 
27.7 系统 结构 


PostgreSQL 的 系统 结构 遵循 每 事务 每 进程 ( process-per-transaction ) 模式 。 每 一 个 运行 中 的 PostgreSQL 
站 点 由 一 个 集中 式 的 、 称 作 postmaster 的 协调 进程 来 管理 。 这 个 postmaster 进程 负责 初始 化 和 关闭 服务 
器 ， 以 及 处 理 来 自 新 客户 端的 连接 请 求 。postmaster 为 每 个 新 连接 的 客户 端 分 配 一 个 后 台 服 务 器 进程 ， 
该 进程 负责 代表 客户 端 执 行 查询 ， 并 将 结果 返回 客户 端 。 该 系统 结构 如 图 27-10 所 示 。 
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客户 端 应 用 程序 能 够 连接 到 PostgreSQL 服务 器 ， 并 通过 PostgreSQL 支持 的 多 种 数据 库 应 用 编程 接 
口 ( 如 libpqg、JDBC、0DBC 和 Perl DBD) 之 一 来 提交 查询 请 求 ， 这 些 数 据 库 应 用 编程 接口 是 作为 客户 端 
库 形式 提供 的 。 一 个 客户 端 应 用 程序 的 例子 是 包含 在 标准 PostgreSQL 发 布 里 的 命令 行 形式 的 psql 程序 ， 
postmaster 负责 处 理 初 始 的 客户 端 连接 。 为 此 ， 它 在 一 个 已 知 端口 上 不 断 监听 新 的 连接 请 求 。 在 完成 诸 
如 用 户 认证 这 样 的 初始 化 步骤 后 ，postmaster 将 生成 一 个 新 的 后 台 服 务 器 进程 来 处 理 新 客户 端 。 在 这 种 
初始 连接 之 后 ， 客 户 端 将 只 与 后 台 服 务 器 进程 交互 ,提交 查询 请 求 并 接收 查询 结果 。 这 就 是 
PostgreSQL 采用 的 每 连接 每 进程 模式 的 核心 。 

后 台 服 务 器 进程 负责 执行 客户 端 提交 的 查询 请 求 ， 执 行 一 系列 必要 的 查询 步 又 ,包括 解析 、 优 化 
和 执行 。 每 个 后 台 服 务 器 进程 一 次 只 能 处 理 一 条 查询 。 为 了 能 够 并 发 处 理 多 条 查询 ， 应 用 程序 必须 维 
护 与 服务 器 的 多 个 连接 。 

在 任 一 给 定时 刻 ， 可 能 有 多 个 客户 端 连接 到 系统 ， 因 此 可 能 有 多 个 后 台 服 务 器 进程 并 发 执行 。 后 
台 服 务 器 进程 通过 主 存 缓存 池 来 访问 数据 库 中 的 数据 ， 而 该 缓存 池 位 于 共享 内 存 区 ， 因 此 所 有 进程 都 
有 相同 的 数据 视图 。 共 享 内 存 也 用 于 实现 服务 器 进程 间 的 其 他 形式 的 同步 ， 比 如 对 数据 项 的 封锁 。 

要 使 用 共享 内 存 作为 通信 媒介 ， 就 要 求 PostgreSQL 服务 器 运行 于 一 台 机 器 上 ; 在 没有 第 三 方 软件 
包 ( 如 Slony 复制 工具 ) 的 帮助 下 ， 一 个 单 服 务 器 站 点 不 能 分 散 于 多 台 机 器 上 。 但 是 ， 可 以 构建 一 个 无 
共享 的 并 行 数 据 库 系统 ， 其 中 每 个 结 点 上 都 运行 一 个 PostgreSQL 实例 ;事实 上 ， 有 几 个 商用 并 行 数据 
库 系统 就 是 采用 这 种 体系 结构 构建 的 ， 如 18. 8 节 所 述 。 


文献 注解 


在 www. postgresql. org 上 有 大 量 有 关 PostgreSQL 的 在 线 文 档 。 这 个 网 站 是 关于 PostgreSQL 最 新 版 本 的 权 
威 的 信息 源 ， 它 定期 更 新 有 关 PostgreSQL 的 内 容 。 直 到 PostgreSQL 版 本 8 之 前 ， 在 微软 Windows 平台 上 运行 
PostgreSQL 的 唯一 方式 是 使 用 Cygwin。Cygwin 是 一 个 类 似 于 Linux 的 环境 ， 它 允许 从 源 程序 开始 重新 构建 
Linux 应 用 以 运行 于 Windows 之 上。 详细 信息 请 参考 www. cygwin. com。 有 关 PostgreSQL 的 书包 括 Douglas 和 
Douglas[ 2003 ] 以 及 Stinson [ 2002 ] 。Stonebraker 等 [ 1990 ] 介绍 了 PostgreSQL 所 采用 的 规则 。GiST 结构 在 
Hellerstein 等 [1995 ] 里 有 介绍 。 

PostgreSQL 的 许多 工具 和 扩展 被 pgFoundry 文档 化 在 www. pgfoundry. org 上 。 其 中 包括 pgtcl 库 和 本 章 提 
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到 的 pgAccess 管理 工具 。pgAdmin 工具 在 网 站 www. pgadmin. org 上 有 描述 。 数 据 库 设计 工具 TORA 和 Data 
Architect 分 别 在 tora. sourceforge. net 和 www. thekompany. com/products/dataarchitect 上 有 人 介绍。 报表 生成 工具 
GNU Report Generator 和 GNU Enterprise 分 别 在 www. gnu. org/software/grg 和 www. gnuenterprise. org 上 有 介绍 。 
开源 的 Mondrian OLAP 服务 器 在 mondrian. pentaho. org 上 有 介绍 。 

除 PostgreSQL 之 外 ， 还 有 一 个 开源 的 MySQL, CE GNU 通用 公共 许可 ( General Public License) 下 可 用 于 [1154 
非 商 业 应 用 。MySQL 可 以 嵌入 到 不 免费 发 布 源码 的 商业 软件 中 ， 但 这 需要 购买 一 个 特别 的 许可 证 。 关 于 这 
两 个 系统 最 新 版 本 的 比较 在 网 上 已 有 介绍 。 = 
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“41977 年 Larry Ellison, Bob Miner 和 Ed Oates 成 立 Oracle 软件 开发 实验 室 时 ， 还 没有 商品 化 的 关 
系数 据 库 产品 存在 。 这 家 公司 ， 后 来 更 名 为 Oracle， 开 始 构建 作为 商用 产品 的 关系 数据 库 管 理 系统 ， 
并 成 为 RDBMS 市 场 的 先驱 ， 至 此 一 直 在 关系 数据 库 市 场 上 保持 领导 地 位 。 这 些 年 以 来 ， 它 的 产品 和 提 
供 的 服务 已 经 超越 了 关系 数据 库 服 务 器 的 范畴 ， 还 包括 中 间 件 和 应 用 软件 。 

除了 公司 内 部 开发 的 产品 以 外 ，Oracle 的 产品 还 包括 被 它 兼 并 的 公司 原本 开发 的 软件 。Oracle 兼 
并 的 公司 范围 从 小 公司 到 大 型 公开 上 市 交易 的 公司 ， 包 括 Peoplesoft, Siebel, Hyperion 和 BEA, ix #63 
并 的 结果 ， 使 得 Oracle 拥有 了 非常 广阔 的 企业 软件 产品 的 系列 。 

本 章 重 点 描述 Oracle 主要 的 关系 数据 库 服 务 器 和 密切 相关 的 产品 。 产 品 的 新 版 本 还 在 不 断 开发 ， 
因此 产品 的 所 有 说 明 也 会 跟着 改变 。 这 里 表述 的 特征 集 是 基于 Oraclellg 的 第 一 个 发 行 版 本 ， 它 是 
Oracle 的 旗舰 数据 库 产 品 。 


28.1 数据 库 设 计 和 查询 工具 


Oracle 提供 各 种 工具 来 进行 数据 库 设 计 、 查 询 、 报 表 生 成 和 数据 分 析 ， 包 括 联机 分 析 处 理 。 这 些 
工具 ,包括 各 种 其 他 应 用 开发 工具 ， 是 被 称 作 Oracle Fusion Middleware( Oracle 融合 中 间 件 ) 的 软件 产品 
系列 的 一 部 分 。 产 品 既 包括 使 用 Oracle 的 PL/SQL 编程 语言 的 传统 工具 ， 也 包括 基于 Java/J2EE 技术 的 
更 新 的 工具 。 软 件 支持 开放 的 标准 ， 如 SOAP, XML, BPEL 和 UML. 

28.1.1 数据 库 和 应 用 设计 工具 

Oracle 应 用 开发 框架 (Oracle Application Development Framework, ADF) 是 一 个 端 到 端的 基于 J2EE 的 
开发 框架 ， 用 于 Model-View-Control ( 模型 -视图 - 控制) 设计 模 式 的 。 在 这 个 框架 中 ， 一 个 应 用 程序 由 
多 层 组 成 。 模 型 和 业务 服务 层 处 理 与 数据 源 的 交互 ， 并 包含 业务 逻辑 。 视 图 层 处 理 用 户 接 口 ， 控 制 层 
处 理应 用 流 以 及 与 其 他 层 之 间 的 交互 。 

Oracle ADF 主要 的 开发 工具 是 Oracle JDeveloper， 它 提供 了 一 个 支持 Java, XML, PHP, HTML, 
JavaScript, BPEL, SQL 和 PL/SQL 开发 的 集成 开发 环境 ， 拥 有 对 UML 建 模 的 内 置 支持 。 

Oracle Designer 是 一 个 数据 库 设计 工具 ， 它 将 业务 逻辑 和 数据 流转 换 成 由 应 用 逻辑 的 模式 定义 和 过 
程 脚本 。 它 支持 诸如 E-R 图 、 信 息 工 程 、 对 象 分 析 和 设计 那样 的 建 模 技术 。 

Oracle 还 有 一 个 用 于 数据 仓库 的 应 用 开发 工具 ， 即 Oracle Warehouse Builder, Warehouse Builder 是 
对 数据 仓库 的 所 有 方面 进行 设计 和 部 署 的 工具 ， 包括 模式 设计 、 数 据 映 射 和 转换 、 数 据 加 载 处 理 以 及 
元 数据 管理 。Oracle Warehouse Builder 既 支 持 3NF( 第 三 范式 ) 和 星 型 模式 ， 又 能 从 Oracle Designer 导 人 
设计 。 这 个 工具 再 加 上 数据 库 特性 (如 外 部 表 和 表 函 数 ) ， 通 常 能 消除 对 第 三 方 抽 取 、 转 换 和 加 载 工具 
(ETL) 的 需求 。 

28.1.2 查询 工具 

Oracle 提供 用 于 即席 查询 、 报 表 生 成 、 数 据 分 析 ( 包 括 联机 分 析 处 理 ) 的 工具 。 

Oracle 商务 智能 套件 ( Oracle Business Intelligence Suite, OBI) 是 一 套 综合 工具 ， 这 些 工 具 共 享 共同 
的 面向 服务 体系 架构 。 组 件 包 括 一 个 商务 智能 服务 器 和 用 于 即席 查询 、 仪 表盘 (dashboard ) 生 成、 报表 


和 警报 (alerting) 的 工具 。 这 些 组 件 共享 用 于 数据 访问 和 元 数据 管理 的 基础 设施 和 服务 ， 有 一 个 共同 的 
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安全 模型 和 管理 工具 

Oracle BI Answers 组 件 用 于 即席 查询 ， 是 一 个 交互 式 工具 ， 它 给 用 户 提 供 数据 的 逻辑 视图 ， 隐 藏 物 
理 实现 的 细节 。 用 户 可 用 的 对 象 以 图 形 化 的 方式 显示 ， 用 户 可 以 通过 点 和 点 击 (point-and-click ) 接口 来 
构造 查询 。 这 种 逻辑 查询 被 发 送 到 Oracle BI 服务 器 组 件 ， 该 组 件 接着 生成 物理 查询 。 查 询 支 持 多 个 物 
理 数 据 源 ， 查 询 可 以 合并 存储 在 关系 数据 库 OLAP 源 和 Excel 表单 中 的 数据 。 结 果 可 以 显示 为 图 表 、 
报表 、 转 轴 (pivot) 表 或 者 可 钻 取 的 仪表 板 ， 并 可 以 保存 和 进行 后 续 修 改 。 


28.2 SQL 的 变化 和 扩展 


除了 功能 一 致 性 (features-and-conformance ) 视 图 以 外 ，Oracle 全 部 或 部 分 支持 SQL: 2003 的 所 有 核 
心 特 性 。 此 外 ，Oracle 支持 大 量 的 其 他 语言 结构 ， 其 中 有 些 遵从 SQL Foundation; 2003 的 可 选 特 性 ， 而 
其 余 的 在 语法 或 功能 上 是 Oracle 特有 的 。 
28.2.1 对 象 -关系 特性 
Oracle 广泛 支持 对 象 -关系 结构 ， 包 括 : 
© 对 象 类 型 (object type)。 类 型 层次 中 支持 单 继 承 模型 . 
© 集合 类 型 (collection type). Oracle 支持 变 长 数组 varray AREK. 
© 对 象 表 (object table) 。 它 们 用 于 存储 对 象 ， 同 时 提供 对 象 属性 的 关系 视图 。 
© RAH (table function )。 这 些 函 数 可 以 生成 行 集 合作 为 输出 ， 可 用 于 查询 的 from 子 句 中 
Oracle 中 的 表 函 数 可 以 舱 套 。 如 果 用 一 个 表 哺 数 来 表示 某 种 数据 变换 ， 那 么 租 套 的 多 层 函 数 允 
许 在 一 条 语句 中 表达 多 重 变换 。 
© 对 象 视图 ( object view). 它们 为 存储 在 常规 关系 表 中 的 数据 提供 虚拟 的 对 象 表 视 图 。 它 们 使 得 
数据 可 以 以 面向 对 象 的 方式 访问 或 显示 ， 即 使 这 些 数据 实际 上 以 传统 关系 格式 存储 . 
e 方法 (method) 。 它 们 可 以 用 PL/SQL, Java 或 C 来 编写 。 
e 用 户 自 定义 聚集 函数 (user-defined aggregate function ) 。 它 们 可 以 像 sum 和 count 那样 的 内 置 函 数 
一 样 用 于 SQL 语句 中 。 
28.2.2 Oracle XML DB 


Oracle XML DB 为 XML 数据 提供 了 数据 库 内 的 存储 ， 并 支持 包括 XML Schema 和 XQuery 在 内 的 丰 
富 的 XML 功能 集 。 它 建立 在 被 当 作 原生 的 Oracle 数据 类 型 的 XMLType 抽象 数据 类 型 之 上 。XML DB 
提供 了 关于 这 种 数据 类 型 的 数据 在 数据 库 中 如 何 存储 的 若干 选项 ， 包 括 : 

© 结构 化 为 对 象 关系 格式 存储 。 这 种 格式 通常 有 效 利用 了 空间 ， 人 允许 使 用 各 种 标准 的 关系 特征 ， 

如 B 树 索引 ， 但 在 XML 文档 和 存储 格式 之 间 的 映射 上 带 来 了 一 些 开销 。 它 主要 适合 于 高 度 结 
构 化 的 XML 数据， 并且 映 射 中 包含 可 控 数 量 的 关系 表 和 连接 。 

© 作为 文本 串 的 非 结构 化 存储 。 这 种 表示 不 需要 任何 映射 ， 当 插入 或 检索 一 份 完整 的 XML 文档 
时 提供 了 高 吞吐 量 。 可 是 它 通 常 不 能 非常 有 效 地 利用 空间 ， 并 且 当 操作 XML 文档 的 部 分 时 提 
供 欠 智能 化 的 处 理 。 

o 二 进 制 XML 存储 。 这 种 表示 方式 是 一 种 后 解析 ( post-parse ) 的 、XML 模式 已 知 的 二 进 制 格式 
它 比 非 结构 化 存储 的 空间 利用 更 高 效 ， 可 以 处 理 针对 XML 文档 部 分 的 操作 。 在 处 理 高 度 非 结 
构 化 数据 时 也 比 结构 化 格式 更 好 ， 但 不 是 总 能 有 效 利 用 空间 。 对 于 XQuery 语句 的 处 理 ， 这 种 
格式 可 能 比 使 用 结构 化 格式 低 效 。 

二 进 制 和 非 结构 化 的 表示 形式 都 可 以 用 一 种 称 为 XMLIndex 的 特殊 类 型 的 索引 来 索引 。 这 种 类 型 
的 索引 人 允许 文档 片段 基于 它们 相应 的 XPath 表达 式 来 索引 。 

在 数据 库 内 部 存储 XML 数据 意味 着 可 以 得 到 很 多 方面 的 Oracle 功能 上 的 优势 ， 如 备份 、 恢 复 、 安 
全 和 查询 处 理 。 它 允许 把 关系 数据 的 访问 作为 XML 处 理 的 一 部 分 ， 也 允许 把 XML 数据 的 访问 作为 
SQL 处 理 的 一 部 分 。 一 些 XML DB 的 非常 高 级 的 特点 包括 : 

© 支持 XQuery 语言 (W3C XQuery 1. 0 推荐 的 ) 。 
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© XSLT 处 理 使 得 可 以 在 数据 库 内 部 完成 XSL 转换 
© XPath 重 写 优化 可 以 加 速 以 对 象 关系 形式 存储 的 数据 上 的 查询 。 通 过 把 XQuery 中 使 用 的 表达 式 
翻译 为 直接 作用 在 对 象 -关系 列 上 的 条 件 ， 这 些 列 上 的 常规 索引 就 可 用 于 加 快 查询 处 理 。 

28.2.3 ”过 程 化 语言 

Oracle 有 两 种 主要 的 过 程 化 语言 ， 分 别 是 PL/SQL 和 Java, PL/SQL 是 Oracle 存储 过 程 最 初 使 用 的 
语言 ， 其 语法 类 似 于 Ada 语言 。Java 是 通过 数据 库 引 擎 内 部 的 Java 虚拟 机 来 支持 的 。Oracle 提供 了 一 
个 程序 包 来 把 相关 的 过 程 、 函 数 和 变量 封装 为 独立 的 单元 。Oracle 支持 SQLJ (Java A HK AY) SQL) 和 
JDBC， 并 提供 一 个 工具 来 生成 对 应 于 用 户 自 定义 数据 库 类 型 的 Java 类 定义 。 
28.2.4 维度 

对 于 关系 星 型 模式 和 多 维 数据 库 ， 维 度 建 模 是 一 种 常用 的 设计 技术 。 为 了 支持 基于 这 种 技术 设计 
的 数据 库 上 的 查询 处 理 ，Oracle 支持 创建 维度 ( dimension ) 作为 元 数据 对 象 。 这 些 元 数据 对 象 用 于 存放 
关于 一 个 维度 的 各 种 类 型 的 属性 信息 ， 但 更 重要 的 可 能 是 关于 关系 的 层次 信息 。 参 见 28. 3. 10 节 中 的 
例子 。 
28.2.5 联机 分 析 处 理 

Oracle 以 若干 种 不 同 的 方式 为 分 析 型 数据 库 处 理 提供 支持 。 除 了 支持 一 个 丰富 的 分 析 型 SQL 构造 
集合 (立方 体 、 上 卷 、 集 合 分 组 、 窗 口 函 数 等 ) Oracle 还 支持 关系 数据 库 服务 器 内 部 原生 的 多 维 存储 。 
多 维 数据 结构 允许 基于 数组 的 数据 访问 ， 并 且 在 正确 情况 下 ， 这 类 访问 比 传统 关系 访问 方式 有 效 得 多 。 
使 用 这 种 数据 结构 作为 关系 数据 库 的 一 个 完整 部 分 提供 了 以 关系 的 或 多 维 的 格式 存储 数据 的 一 种 选择 ， 
同时 还 利用 了 Oracle 在 诸如 备份 与 恢复 、 安 全 和 管理 工具 方面 的 优势 。 

Oracle 为 多 维 数据 提供 了 称 为 分 析 型 工作 空间 (analytic workspace) 的 存储 容器 。 一 个 分 析 型 工作 空 
间 同 时 包含 了 OLAP 立方 体 的 维 数据 和 度量 (或 事实 ) ， 并 存储 在 一 个 Oracle 表 中 。 从 传统 关系 的 观点 
来 看 ， 存 放 在 一 个 表 中 的 立方 体 可 以 是 一 个 不 透明 的 对 象 ， 当 中 的 数据 通常 不 能 直接 根据 表 的 行 和 列 
这 些 术 语 来 解释 。 不 过 ， 数 据 库 内 部 的 Oracle 的 OLAP 服务 器 知道 如 何 解释 和 访问 数据 ， 使 得 可 以 用 
SQL 来 访问 数据 ， 就 像 数 据 是 以 常规 的 表格 式 来 存储 的 一 样 。 因 此 ， 可 以 用 多 维 格式 或 传统 关系 格式 
来 存放 数据 ， 这 取决 于 哪个 最 适合 ， 还 可 以 在 单条 SQL 查询 中 连接 以 两 种 表示 形式 存储 的 数据 。 物 化 
视图 可 以 使 用 任何 一 种 表示 形式 。 

除了 在 Oracle 关系 数据 库 中 支持 OLAP, Oracle 的 产品 套件 包括 Essbase, Essbase 是 一 个 广泛 使 用 
的 多 维 数据 库 ， 随 着 对 Hyperion 的 兼并 成 为 Oracle 的 一 部 分 。 
28.2.6 和 触发 器 

Oracle 提供 若干 类 型 的 触发 器 和 激活 这 些 触发 器 的 时 间 和 方式 的 几 种 选择 。( 见 5.3 节 关 于 SQL 中 
触发 器 的 介绍 。) 触 发 器 可 以 用 PL/SQL 或 Java 语言 , 或 者 C 程序 (callout ) 来 编写 。 

对 于 在 插入 、 更 新 和 删除 这 样 的 DML 语句 上 执行 的 触发 器 ，Oracle 支持 行 触发 器 (row trigger) 和 语 
句 触发 器 ( statement trigger) 。 行 触发 器 为 每 个 受 DML 操作 影响 (譬如 更 新 或 删除 ) 的 行 执行 一 次 。 一 个 
语句 触发 器 在 每 条 语句 中 只 执行 一 次 。 在 每 种 情况 下 ， 根 据 触发 器 是 在 DML 操作 执行 之 前 或 之 后 激 
活 ， 可 以 将 触发 器 定义 为 前 触发 器 或 后 触发 器 。 

Oracle 允许 为 不 能 执行 DML 操作 的 视图 创建 替代 ( instead of) 触发 器 。 依 赖 于 视图 的 定义 ，Oracle 
可 能 无 法 将 一 条 针对 视图 的 DML 语句 明确 地 翻译 成 对 底层 基 表 的 修改 。 因 此 ， 视 图 上 的 DML 操作 受 
到 许多 限制 。 用 户 可 以 在 视图 上 创建 替代 触发 器 来 人 工 指定 在 基 表 上 该 执行 何 种 操作 以 响应 视图 上 的 
DML 操作 。Oracle 执行 触发 器 而 不 是 DML 操作 ， 因 此 提供 了 一 种 绕 过 视图 上 对 DML 操作 限制 的 机 制 | 

Oracle 还 有 一 些 在 各 种 其 他 事件 上 执行 的 触发 器 ， 这 些 事件 包括 启动 或 关闭 数据 库 、 服 务 器 错误 
信息 、 用 户 登 录 或 退出 ， 以 及 如 create, alter 和 drop 语句 那样 的 DDL 语句 。 


28.3 存储 和 索引 
根据 Oracle 的 说 法 ， 一 个 数据 库 ( database ) 是 由 存储 在 文件 中 的 信息 组 成 的 ， 并 且 通 过 一 个 实例 
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(instance) 来 访问 ， 它 是 一 个 共享 存储 区 和 一 组 与 文件 中 的 数据 交互 的 进程 。 控 制 文件 ( control file) 是 
一 个 小 文件 ， 包 含 一 些 启动 或 操作 实例 所 需 的 非常 高 层 的 元 数据 。 下 一 节 将 讲述 正规 数据 和 元 数据 的 
存储 结构 。 

28.3.1 表 空 间 

数据 库 由 一 个 或 多 个 称 作 表 空间 (table space) 的 逻辑 存储 单元 组 成 。 而 每 个 表 空 间 又 由 一 个 或 多 个 
称 作 数 据 文件 (data file) 的 物理 结构 组 成 。 数 据 文件 可 能 是 文件 系统 的 一 部 分 ， 或 是 原始 的 设备 。 

一 个 Oracle 数据 库 通常 会 包括 以 下 表 空间 : 

© 系统 (system ) 表 空间 和 辅助 的 sysaux 表 空间 总 是 被 创建 ， 它 们 包含 数据 字典 表 、 触 发 右 和 存储 

过 程 的 存储 器 。 

。 创建 的 存储 用 户 数 据 的 表 空间 。 虽 然 用 户 数据 可 以 存储 在 系统 表 空 间 ， 但 将 用 户 数据 与 系统 数 
据 分 离 一 般 是 值得 的 。 通 常 ， 决 定 要 创建 另外 哪些 表 空 间 是 基于 性 能 、 可 用 性 、 可 维护 性 以 及 
易于 管理 来 考虑 的 。 譬 如， 拥有 多 个 表 空 间 对 于 局 部 备份 和 恢复 操作 比较 有 用 

© HSH (undo) 表 空 间 ， 它 仅仅 用 于 存放 事务 管理 和 恢复 的 撤销 信息 。 

© 临时 (temporary ) 表 空间 。 许 多 数据 库 操作 需要 对 数据 进行 排序 ， 如 果 排 序 不 能 在 内 存 中 完成 ， 
排序 例 程 可 能 需要 将 数据 暂时 保存 在 硬盘 上 。 为 排序 和 散 列 操作 分 配 临 时 表 空 间 ， 能 够 使 得 涉 
及 将 数据 溢出 到 磁盘 的 空间 管理 操作 更 加 高 效 。 

表 空 间 也 可 以 作为 在 数据 库 之 间 转 移 数据 的 一 种 方式 。 辟 如， 通常 每 隔 一 段 时 间 就 要 把 数据 从 事 
务 系统 转移 到 数据 仓库 中 去 。Oracle 通过 简单 地 复制 数据 文件 并 导出 和 导入 少量 的 数据 字典 元 数据 ， 
就 允许 将 一 个 表 空间 中 的 所 有 数据 从 一 个 系统 转移 到 另 一 个 系统 。 这 些 操作 比 从 一 个 数据 库 缉 载 数 据 ， 
然后 用 一 个 加 载 器 将 数据 插入 到 另 一 个 数据 库 中 要 快 得 多 。Oracle 的 这 个 特性 称 为 可 移动 表 空 间 [1162 
(transportable table space) 。 

28.3.2 & 

表 空 间 中 的 空间 被 划分 成 一 个 个 单元 ， 称 为 段 (segment) ， 每 个 段 包含 一 种 特定 数据 结构 的 数据 。 
一 共有 四 种 类 型 的 段 : 

© 数据 段 (data segment) 。 表 空间 中 的 每 个 表 都 有 自己 的 数据 段 ， 除 非 表 被 划分 ， 表 数据 就 存储 在 

这 里 ; 若 表 被 划分 ， 每 个 分 区 都 有 一 个 数据 段 。( Oracle 中 的 划分 在 28. 3. 9 节 中 描述 。) 

。 索引 段 (index segment) 。 除 了 被 划分 的 索引 ， 每 个 表 空 间 中 的 索引 都 有 自己 的 索引 段 ， 被 划分 
的 索引 在 每 个 分 区 有 一 个 索引 段 。 

© 临时 段 (temporary segment) 。 这 些 段 用 于 当 排序 操作 需要 将 数据 写 到 硬盘 上 时 ， 或 者 将 数据 择 
入 到 临时 表 中 时 。 

© 撤销 段 (undo segment) 。 这 些 段 包含 了 撤销 信息 ， 使 未 提交 事务 可 以 回 深 。 在 特殊 的 撤销 表 空 
间 中 ， 这 些 段 是 自动 分 配 的 。 它 们 也 在 Oracle 的 并 发 控制 模型 和 数据 库 恢复 中 起 重要 作用 ， 这 
将 在 28.5.1 节 和 28.5. 2 节 中 讲 到 。 为 了 实现 Oracle 的 撤销 管理 ， 使 用 “ 回 深 段 "这 个 术语 。 

在 段 这 一 层 以 下 ， 空 间 以 盘 区 (extent) 的 粒度 级 别 进行 分 配 。 每 个 盘 区 由 一 组 连续 的 数据 库 块 
(block) 组 成 。 数 据 库 块 是 Oracle 进行 磁盘 VO 的 最 低 的 粒度 级 别 。 数 据 库 块 的 大 小 不 必 和 操 作 系 统 中 
的 块 相 同 ， 但 必须 是 它 的 倍数 。 

Oracle 提供 存储 参数 ， 人 允许 对 如 何 分 配 和 管理 空间 进行 详细 控制 。 这 样 的 参数 如 下 : 

。 为 给 插入 表 中 的 行 提供 空间 而 即将 被 分 配 的 新 盘 区 的 大 小 。 

。 空间 利用 的 百分比 ， 用 该 比例 确定 一 个 数据 库 块 已 满 ， 并 且 不 允许 更 多 的 行 插入 到 这 个 块 中 

(在 块 中 留 一 些 自由 空间 ， 可 以 允许 已 有 的 行 通过 更 新 而 增 大 ， 却 不 会 溢出 这 个 块 的 空间 。) 
28.3.3 表 

Oracle 中 的 标准 表 是 以 堆 组 织 的 ; 也 就 是 说 ， 表 中 行 的 存储 位 置 不 是 由 该 行 所 包含 的 值 决定 的 ， 
而 是 在 行 被 插入 时 确定 的 。 但 是 ， 如 果 这 个 表 被 划分 ， 行 的 内 容 影响 到 该 行 被 存储 到 哪个 分 区 中 。 这 
当中 有 几 个 特点 和 变化 。 如 同 28. 3. 3. 2 节 介 绍 的 ， 堆 表 可 以 选择 为 被 压缩 。 [1163] 
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Oracle CHFMRER; 也 就 是 说 ， 表 中 列 的 数据 类 型 可 以 是 另 一 个 表 。 藤 套 表 不 是 有 序 地 存储 在 父 
表 中 ， 而 是 存储 在 单独 的 表 中 。 

Oracle 支持 临时 表 ， 临 时 表 中 数据 的 持续 时 间 要 么 是 插入 这 个 数据 的 事务 的 时 间 ， 要 么 是 用 户 会 
话 的 时 间 。 数 据 对 于 会 话 而 言 是 私有 的 ， 并 且 在 其 持续 时 间 结 束 时 自动 删除 - 

f& ( cluster) 是 表 数 据 的 另 一 种 文件 组 织 形 式 ， 在 前 面 的 10.6.2 节 中 描述 过 ， 当 时 称 为 多 表 聚 禾 。 
这 里 用 到 “ 簇 " 这 个 术语 ， 不 要 与 cluster 这 个 词 的 其 他 意思 混淆 了 ， 如 那些 与 硬件 体系 结构 相关 的 意 
思 。 在 一 个 艇 的 文件 组 织 中 ， 基 于 某 些 共同 的 列 ， 来 自 不 同 表 中 的 行 被 一 起 存储 在 相同 的 块 中 。 辟 如， 
一 个 部 门 表 和 一 个 雇员 表 可 以 聚 簇 在 一 起 ， 这 样 部 门 表 中 的 每 行 与 所 有 在 该 部 门 工 作 的 雇员 对 应 的 雇 
员 行 存储 在 一 起 。 主 码 / 外 码 的 值 用 于 确定 存储 位 置 。 

簇 的 组 织 暗 示 了 行 属 于 一 个 特定 的 位 置 ; 譬如 ， 一 个 新 的 雇员 行 必 须 与 相同 部 门 的 其 他 的 行 插 
和 人 到 一 起 。 所 以 ， 簇 列 上 的 索引 是 强制 性 的 。 另 一 种 可 选 的 组 织 方式 是 散 列 簇 (hash cluster) 。 这 里 ， 
Oracle 通过 将 一 个 散 列 函数 作用 到 簇 列 的 值 上 ， 以 计算 出 一 个 行 的 位 置 。 散 列 函 数 将 行 映射 到 散 列 
簇 中 一 个 特定 的 块 。 由 于 根据 簇 列 的 值 来 访问 一 个 行 时 不 需要 索引 遍历 ， 这 种 组 织 可 以 节省 大 量 的 
磁盘 1/0, 

28.3.3.1 按 索引 组 织 的 表 

在 一 个 按 索 引 组 织 的 表 (Index-Organized Table，IOT) 中 ， 记 录 存 储 在 Oracle 的 B 树 索引 中 ， 而 不 是 
在 堆 中 。 之 前 在 11.4. 1 节 介 绍 了 这 种 文件 组 织 ， 当 时 称 为 B 树 文件 组 织 。 一 个 IOT 需要 一 个 可 识别 
的 唯一 的 关键 字 用 作 索 引 关键 字 。 虽 然 常 规 索引 中 的 条 目 包 含 了 索引 行 的 关键 字 值 和 行 标识 ,但 IOT 
用 行 中 剩余 列 的 列 值 来 代替 行 标识 。 与 将 数据 存储 在 常规 堆 表 中 并 在 关键 字 列 上 创建 索引 相 比 ， 使 用 
IOT 可 以 同时 提高 性 能 和 空间 利用 率 。 给 定 主 码 值 ， 考 虑 查找 一 个 行 的 所 有 列 值 。 对 于 堆 表 ， 需 要 在 
探测 索引 之 后 再 通过 行 标识 访问 表 。 对 于 IOT， 只 需要 探测 索引 。 

按 索引 组 织 的 表 中 非 关 键 字 列 上 的 辅助 索引 与 常规 堆 表 上 的 索引 不 同 。 在 堆 表 中 ， 每 行 有 一 个 固 
定 不 变 的 行 标识 。 但 是 ，B 树 在 插入 或 删除 条 目 后 会 因 增 长 或 缩小 而 重新 组 织 ， 并 且 不 能 保证 IOT 中 
的 行 会 留 在 固定 的 地 方 。 所 以 ，IOT 上 的 辅助 索引 不 包含 通常 的 行 标识 ， 而 是 逻辑 行 标识 (logical row- 
id) 。 人 逻辑 行 标识 由 两 部 分 组 成 : 对 应 于 在 创建 索引 时 或 在 上 次 重建 索引 时 行 的 存储 位 置 的 物理 行 标 
识 ， 以 及 唯一 性 关键 字 的 值 。 物 理 行 标识 作为 “猜测 "来 引用 ， 因 为 它 在 行 移动 后 可 能 是 错 的 。 如 果 这 
样 的 话 ， 逻 辑 行 标识 的 另 一 部 分 ， 行 的 关键 字 的 值 就 被 用 于 访问 该 行 ; 但 是 ， 此 访问 比 猜测 正确 时 要 
慢 ， 因 为 它 涉 及 对 IOT 的 B 树 从 根 到 叶 结 点 的 所 有 路 径 的 遍历 ， 潜 在 地 导致 了 一 些 磁盘 IO。 然 而 ， 
如 果 一 个 表 是 易 变 的 并 且 大 部 分 猜测 可 能 是 错 的 ， 那 么 只 用 关键 值 来 创建 辅助 索引 要 更 好 一 些 (如 
11.4.1 节 所 述 ) ， 因 为 使 用 不 正确 的 猜测 会 导致 磁盘 O 的 浪费 。 

28.3.3.2 压缩 

Oracle 的 压缩 特性 允许 数据 以 压缩 格式 存储 ， 压 缩 极 大 地 降低 了 存储 数据 所 需 的 空间 和 检索 数据 
所 需 的 IO 操作 数 。Oracle 的 压缩 方法 是 一 种 无 损 的 、 基 于 字典 的 算法 ， 它 单独 地 压缩 每 个 块 。 所 有 
用 来 解压 一 个 块 的 信息 就 包含 在 那个 块 自身 中 。 算 法 把 在 块 中 重复 出 现 的 值 替 换 为 指向 块 中 符号 表 
(或 字典 ) 中 该 值 所 对 应 项 的 指针 。 项 可 以 基于 单独 的 列 或 者 列 的 组 合 中 重复 的 值 。 

Oracle 最 初 的 表 压 缩 是 当 数 据 被 批量 加 载 到 表 中 时 生成 压缩 的 块 格式 ， 主 要 是 用 于 数据 仓库 环境 。 
更 新 的 OLTP 压缩 特性 还 支持 与 常规 DML 操作 相关 的 压缩 。 在 后 一 种 情况 下 ，Oracle 只 在 达到 了 特定 
闵 值 量 的 数据 被 写 人 到 块 中 之 后 才 压 缩 块 。 因 此 ， 只 有 导致 超过 阅 值 的 事务 才 会 产生 压缩 数据 块 的 任 
何 开 销 。 

28.3.3.3 数据 安全 

除了 通常 的 诸如 密码 、 用 户 权 限 和 用 户 角 色 这 样 的 访问 控制 特性 ，Oracle 还 支持 一 些 防止 数据 被 
非 授 权 访 问 的 特性 ， 包 括 : 

© 加 密 (encryption) 。Oracle 可 以 自动 地 以 加 密 格式 存储 表 数 据 ， 并 能 使 用 AES 和 3DES 算法 透明 

地 加 密 和 解密 数据 。 可 以 对 整个 数据 库 加 密 ， 也 可 以 只 对 表 中 的 单个 的 列 加 密 。 此 特性 的 主要 
动机 是 在 通常 的 保护 环境 之 外 保护 敏感 数据 ， 如 当 备 份 媒质 被 发 送 到 远 地 。 
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© 数据 库 保险 库 ( database vault) 。 此 特性 的 目的 是 为 用 户 访问 数据 库 提供 职责 分 离 。 数 据 库 管理 
员 是 有 高 度 特权 的 用 户 ， 通常 几 乎 可 以 在 数据 库 中 做 任何 事情 。 可 是 ， 让 这 样 的 人 访问 敏感 的 
公司 财务 数据 或 关于 其 他 员工 的 个 人 信息 可 能 是 不 合适 的 或 违法 的 。 数 据 库 保险 库 包括 多 种 机 
制 ， 可 用 于 限制 或 监视 高 特权 的 数据 库 用 户 对 敏感 数据 的 访问 。 
© 虚拟 私人 数据 库 (virtual private database) 。 在 前 面 9. 7. 5 节 描 述 过 此 特性 ， 它 允许 附加 的 谓词 被 
自动 添加 到 访问 一 个 给 定 表 或 视图 的 查询 的 where 子 名 上。 典型 地 ， 使 用 此 特性 使 得 附加 谓词 
过 滤 掉 所 有 用 户 无 权 看 到 的 行 。 例 如 ， 两 个 用 户 可 以 提交 相同 的 查询 来 找 出 在 整个 员工 表 中 所 
有 员工 的 信息 。 可 是 ， 如 果 存 在 一 种 策略 限制 了 每 个 用 户 只 能 看 到 员工 号 与 用 户 标识 匹配 的 信 
息 ， 自 动 添加 的 谓词 确保 每 个 查询 只 返回 提交 查询 的 用 户 所 对 应 的 员工 信息 。 因 此 ， 给 每 个 用 
户 留 下 的 印象 是 访问 一 个 只 包含 了 物理 数据 库 中 一 个 数据 子 集 的 虚拟 数据 库 。 
28.3.4 索引 
Oracle 支持 几 种 不 同类 型 的 索引 。 最 常 使 用 的 类 型 是 建立 在 一 列 或 多 列 上 的 B 树 索 引 。 注 意 在 
Oracle( 也 在 其 他 几 种 数据 库 系统 中 ) 的 术语 中 ，B 树 索引 就 是 第 11 章 中 所 说 的 B 树 索引 。 索 引 项 有 以 
下 格式 : 对 于 在 列 col, col, 和 col, 上 的 索引 ， 表 中 每 个 至 少 在 一 个 这 样 的 列 上 取 非 空 值 的 行 可 以 形成 


<col, > <col, > <col, > <row-id > 


这 里 < col, > 表示 第 i 列 上 的 取 值 ，< row-id > 是 行 的 行 标识 。Oracle 可 以 有 选择 地 压缩 项 的 前 级 以 节省 
空间 。 譬 如， 如 果 有 许多 重复 的 <co > <col, > 值 的 组 合 ， 则 每 个 不 同 的 < co > <col, > 前 缀 表示 就 
可 以 在 具有 该 值 组 合 的 项 之 间 共 享 ， 而 不 是 为 每 个 这 样 的 项 显 式 存储 。 前 级 压缩 可 以 带 来 实质 性 的 空 
间 节 省 。 
28.3.5 位 图 索引 

位 图 索引 (在 11. 9 节 中 讲 到 ) 使 用 位 图 表示 索引 项 ， 当 被 索引 的 列 有 适中 数量 的 不 同 值 的 时 候 ， 这 
种 表示 可 以 实质 性 地 节省 空间 (同样 也 节省 了 磁盘 VO), Oracle 中 的 位 图 索引 使 用 与 常规 索引 相同 类 
型 的 B 树 结 构 来 存储 项 。 然 而 ， 列 上 的 常规 索引 的 项 形 如 <col, > <row-id> ,位 图 索引 的 项 形 如 : 


<col, > <start row-id > <end row-id > < compressed bitmap > 


位 图 在 概念 上 代表 表 中 起 始 行 标识 至 终止 行 标识 之 间 所 有 可 能 的 行 占用 的 空间 。 一 个 块 中 这 种 可 
能 的 行 的 数量 取决 于 块 中 可 以 容纳 多 少 行 ， 它 是 关于 表 中 列 的 数量 及 其 数据 类 型 的 一 个 函数 。 位 图 中 
每 个 位 (bit) 表 示 块 中 这 样 一 个 可 能 的 行 。 如 果 该 行 在 列 上 的 取 值 等 于 索引 项 的 值 ， 这 一 位 就 设置 为 1。 
如 果 该 行 取 其 他 值 ， 或 者 这 一 行 根本 不 在 表 中 存在 ， 这 一 位 就 设置 为 0。( 某 行 在 表 中 实际 上 并 不 存在 
是 可 能 的 ， 因 为 一 个 表 的 块 中 的 行 数 可 能 比 由 计算 得 到 的 最 大 可 能 的 行 数 要 少 。) 如 果 差 异 很 大 ， 可 能 
导致 位 图 中 出 现 长 串 连续 的 0， 但 是 压缩 算法 能 够 处 理 这 种 0 串 ， 因 而 负面 影响 是 有 限 的 。 

压缩 算法 是 一 种 叫做 字 节 对 齐 位 图 压缩 (Byte-Aligned Bitmap Compression, BBC) 的 压缩 技术 的 变 
体 。 本 质 上 ， 位 图 中 两 个 连续 的 1 之 间 的 距离 足够 小 的 部 分 存储 为 逐 字 位 图 (verbatim bitmap) 。 如 果 两 
个 1 之 间 的 距离 足够 大 ， 也 就 是 说 ,它们 之 间 有 大 量 邻 接 的 0， 则 存储 的 是 0 的 长 度 ， 也 即 0 的 个 数 ， 

如 果 在 查询 的 where 子 句 中 ， 在 索引 列 上 有 多 个 条 件 时 ， 位 图 索引 允许 把 同一 个 表 上 的 多 个 索引 
合并 在 同一 个 访问 路 径 中 。 根 据 where 子 句 中 的 条 件 ， 使 用 布尔 运算 来 合并 从 不 同 索 引 中 检索 到 的 位 
图 。 所 有 布尔 运算 都 是 直接 在 位 图 的 压缩 形式 上 进行 的 ， 无 需 解压 缩 ， 并 且 结 果 ( 压 缩 的 ) 位 图 表示 匹 
配 所 有 逻辑 条 件 的 那些 行 。 

使 用 布尔 运算 来 合并 多 个 索引 的 能 力 并 不 只 限于 位 图 索引 。Oracle 可 以 把 行 标识 转化 为 压缩 位 图 
形式 ， 所 以 它 能 在 位 图 运算 的 布尔 树 中 的 任何 地 方 使 用 常规 的 B 树 索引 ， 只 要 简单 地 在 执行 计划 中 把 
行 标识 - 位 图 操作 符 放 在 索引 访问 之 上 即 可 。 

根据 经 验 ， 如 果 不 同 码 值 数目 少 于 表 中 行 数 的 一 半 ， 位 图 索引 应 该 比 常规 B 树 索引 空间 利用 率 更 
高 。 例 如 ， 在 一 个 具有 100 万 行 的 表 中 ， 如 果 在 少 于 50 万 个 不 同 取 值 的 列 上 创建 的 是 位 图 索引 ， 可 能 
更 节省 空间 。 对 于 取 很 少 的 、 不 同 值 的 列 ， 例 如 ， 对 于 表示 国家 、 州 、 性 别 、 婚 姻 状 况 以 及 各 种 状态 
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标志 属性 的 列 ， 位 图 索引 可 能 只 需要 常规 B 树 索引 所 用 空间 的 一 小 部 分 。 在 扫描 索引 的 时 候 ， 任 何 这 
样 的 空间 优势 都 能 以 更 少 的 磁盘 IO 带 来 相应 的 性 能 优势 。 
28.3.6 基于 函数 的 索引 

除了 在 表 的 一 个 或 多 个 列 上 创建 索引 外 ，Oracle 还 允许 在 包含 一 个 或 多 个 列 的 表达 式 上 创建 索引 ， 
比如 col, + col *5。 例如， 在 表达 式 upper( name) 上 创建 一 个 索引 ， 其 中 upper 是 一 个 函数 ， 它 返回 字符 
串 的 大 写 形式 ， 而 name 是 一 个 列 ， 这 就 可 以 对 name 列 执行 大 小 写 不 敏感 的 搜索 。 为 了 高 效 地 找到 含 
有 名 称 "van Gogh” 的 所 有 行 ， 条 件 : 

upper( name) = “VAN GOGH’ 
将 在 查询 的 where 子 句 中 使 用 。Oracle 随后 将 该 条 件 与 索引 定义 相 匹 配 ， 并 且 不 管 存储 在 数据 库 中 时 
name 的 大 小 写 如 何 ， 最 后 该 索引 都 能 用 于 检索 出 匹配 “van Cogh "的 所 有 行 。 基 于 函数 的 索引 可 以 创建 
为 位 图 索引 或 者 B 树 索引 。 
28.3.7 ”连接 索引 

连接 索引 是 这 样 一 种 索引 : 索引 中 行 标识 所 指向 的 关键 字 列 并 不 在 表 中 。Oracle 支持 位 图 连接 索 
引 ， 主 要 用 于 星 型 模式 ( 见 20.2.2 节 )。 例 如 ， 如 果 产 品 维 表 中 有 一 个 产品 名 字 的 列 ， 事 实 表 中 在 该 关 
键 字 列 上 的 位 图 连接 索引 可 用 于 检索 出 对 应 于 特定 名 称 产品 的 事实 表 中 的 行 ， 虽 然 产品 名 称 并 没有 存 
储 在 事实 表 中 。 事 实 表 和 维 表 两 个 表 中 的 行 是 如 何 对 应 的 ， 取 决 于 创建 索引 时 指定 的 连接 条 件 ， 并 成 
为 索引 元 数据 的 一 部 分 。 当 处 理 查询 时 ， 优 化 器 从 查询 的 where 子 句 中 查找 相同 的 连接 条 件 ， 以 决定 
是 否 可 以 应 用 连接 索引 。 

Oracle 能 够 借助 布尔 位 图 运算 的 操作 符 ， 把 事实 表 上 的 位 图 连接 索引 与 同一 个 表 上 的 其 他 索引 (无 
论 是 否 为 连接 索引 ) 合 并 。 

28.3.8 域 索 引 

Oracle 允许 非 Oracle 原生 的 索引 结构 对 表 进 行 索引 。Oracle 服务 器 的 这 种 扩展 特性 允许 软件 厂商 
为 特定 应 用 领域 ， 如 文本 、 空 间 数据 和 图 像 ， 开 发 所 谓 插 卡 式 ( cartridge ) 的 功能 ， 以 提供 标准 Oracle 索 
引 类 型 未 提供 的 索引 功能 。 在 实现 索引 的 创建 、 维 护 和 搜索 逻辑 时 ， 索 引 设 计 者 必须 确保 索引 与 
Oracle 服务 器 进行 交互 时 遵循 特定 的 协议 。 

域 索引 必须 连同 它 所 支持 的 操作 符 一 起 在 数据 字典 中 注册 。Oracle 优化 器 认为 域 索 引 是 表 可 能 的 
访问 路 径 之 一 。Oracle 允许 为 操作 符 注册 代价 函数 ， 据 此 优化 器 可 以 比较 使 用 域 索 引 和 使 用 其 他 访问 
路 径 的 代价 。 

例如 ， 高 级 文本 搜索 的 域 索 引 可 能 支持 contains 操作 符 。 一 旦 注册 这 个 操作 符 ， 该 域 索 引 就 会 当 作 
是 形 如 下 述 查 询 的 一 条 访问 路 径 : 

select ` 


from employees 
where contains( resume, ‘LINUX’ ); 


其 中 resume 是 employee 表 中 的 一 个 文本 列 。 域 索引 既 可 以 存储 在 外 部 数据 文件 中 ， 也 可 以 存储 在 
Oracle 的 按 索 引 组 织 的 表 内 部 。 
借助 于 在 行 标识 和 位 图 表示 之 间 的 转换 以 及 使 用 布尔 位 图 运算 ， 域 索引 可 以 与 在 同一 访问 路 径 下 
的 其 他 索引 (位 图 索引 或 者 B 树 索引 ) 合并 。 
28.3.9 划分 
Oracle 支持 多 种 对 表 和 索引 的 水 平 划分 方式 ， 并 且 这 种 特性 在 Oracle 支持 特大 数据 库 的 能 力 中 发 
挥 着 重要 作用 。 对 表 或 索引 进行 划分 的 能 力 有 许多 方面 的 优点 。 
© 备份 和 恢复 更 容易 也 更 快速 ， 因 为 可 以 对 单独 的 分 区 进行 而 不 是 对 整个 表 进 行 。 
© 数据 仓库 环境 下 的 加 载 操 作 不 那么 生硬 : 数据 可 以 添加 到 新 创建 的 分 区 ， 然 后 把 分 区 添加 到 表 
中 ， 这 是 一 种 瞬时 性 操作 。 同 样 地 ， 在 维护 历史 数据 滚动 窗口 的 数据 仓库 中 ， 从 表 中 丢 奔 存放 
废弃 数据 的 分 区 非常 容易 。 
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。 查询 性 能 获得 实质 性 受益 ， 因 为 处 理 查询 时 优化 器 可 以 识别 只 需要 访问 表 的 分 区 的 一 个 子 集 
(分 区 裁剪 ，partition pruning) 。 同 样 ， 在 连接 时 优化 器 可 以 识别 ， 不 必 把 一 个 表 的 所 有 行 和 另 
一 个 表 的 所 有 行进 行 匹 配 ， 而 只 需要 在 匹配 的 分 区 对 之 间 进 行 连接 ( 按 分 区 连接 ) 。 

被 划分 的 表 上 的 索引 可 以 是 全 局 索引 ( global index) ,或 者 是 局 部 索引 (local index )。 全 局 索引 中 的 
项 可 以 指向 任何 分 区 中 的 行 。 局 部 索引 的 表 对 每 个 划分 有 一 个 物理 索引 ， 它 只 包含 该 分 区 中 的 项 。 除 
非 分 区 裁剪 限制 了 查询 只 能 在 单个 分 区 上 ， 通 过 局 部 索引 访问 的 表 需 要 对 多 个 独立 的 物理 索引 进行 探 
查 。 可 是 ,在 数据 仓库 环境 下 局 部 索引 具有 这 样 的 优势 : 新 的 数据 可 以 加 载 到 一 个 新 的 分 区 中 并 被 索 
引 ， 无 需 维 护 任何 已 有 索引 。!( 在 数据 加 载 中 ， 加 载 后 创建 索引 远 比 维护 已 有 索引 更 高 效 。) 类 似 地 ， 
删除 一 个 旧 的 分 区 及 其 局 部 索引 的 物理 部 分 也 不 需要 维护 任何 索引 。 

被 划分 表 中 的 每 一 行 都 与 某 一 特定 分 区 相关 联 。 该 关联 基于 划分 列 或 被 划分 的 表 定义 的 部 分 列 。 
有 几 种 方法 将 列 值 映射 到 分 区 ， 这 就 形成 了 几 种 类 型 的 划分 : 范围 划分 、 散 列 划 分 、 列 表 划 分 以 及 复 
合 划分 。 每 种 划分 都 有 不 同 的 特征 。 

28.3.9.1 范围 划分 

在 范围 划分 中 ， 划 分 标准 是 值 的 范围 。 此 划分 类 型 特别 适合 于 日 期 列 ， 其 中 在 同一 个 日 期 范围 内 
的 所 有 行 ， 比 如 一 天 或 者 一 个 月 ， 都 属于 同一 个 分 区 。 在 数据 仓库 中 ， 数 据 以 固定 间隔 从 事务 型 系统 
中 导入 ,使 用 范围 分 区 可 有 效 实现 历史 数据 的 滚动 窗口 。 每 次 数据 加 载 都 有 其 自己 的 新 分 区 ， 这 使 得 
加 载 过 程 更 快 更 有 效 。 系 统 实际 上 把 数据 装载 到 和 被 划分 表 具 有 相同 列 定 义 的 单独 表 中 。 然 后 它 可 以 
检查 数据 的 一 致 性 ， 清 理 数 据 ， 并 为 数据 建立 索引 。 之 后 ， 系 统 只 要 简单 地 改动 数据 字典 中 的 元 数据 ， 
就 可 以 把 这 个 单独 的 表 作为 被 划分 表 的 一 个 新 分 区 ， 此 操作 几乎 是 瞬时 的 。 

直到 元 数据 改变 之 前 ， 加 载 过 程 并 不 以 任何 方式 影响 被 划分 表 中 已 存在 的 数据 。 加 载 中 不 需要 对 
已 有 索引 进行 任何 维护 。 旧 数据 可 以 通过 简单 丢弃 其 分 区 而 从 表 中 删除 ; 此 操作 并 不 影响 其 他 分 区 。 

此 外 ,数据 仓库 环境 中 的 查询 通常 包含 将 查询 限定 在 特定 时 间 段 内 的 条 件 ， 比 如 一 个 季度 或 者 一 
个 月 。 如 果 使 用 数据 范围 划分 ， 查 询 优 化 器 可 以 把 数据 访问 限定 到 和 查询 相关 的 那些 分 区 中 ， 从 而 避 
免 全 表 扫 描 。 

划分 既 可 以 通过 显 式 地 设置 一 个 结束 点 来 创建 ， 也 可 以 基于 一 个 固定 范围 来 定义 ， 如 一 天 或 一 个 
月 。 后 一 种 情况 称 为 区 间 划 分 (interval partitioning) ， 当 试图 插 和 人 一 个 行 ， 且 它 的 值 没有 落 在 之 前 存在 
的 区 间 内 时 ， 包 含 该 值 的 分 区 会 自动 创建 。 

28.3.9.2 散 列 划分 

在 散 列 划 分 中 ， 散 列 函数 根据 划分 列 中 的 值 把 行 映射 到 分 区 中 。 这 种 划分 类 型 主要 用 在 当 把 行 均 
匀 分 布 到 各 分 区 中 很 重要 时 ,或 者 当 按 分 区 的 连接 对 查询 性 能 而 言 很 重要 时 ， 

28. 3.9.3 列表 划分 

在 列表 划分 中 ， 与 特定 分 区 相关 的 值 在 一 个 列表 中 声明 。 如 果 在 划分 列 上 的 数据 具有 相对 较 小 的 
离散 值 的 集合 ， 则 这 种 划分 类 型 是 有 用 的 。 例 如 ， 如 果 每 个 分 区 列表 具有 属于 相同 区 域内 的 州 ， 一 个 
带 有 州 的 列 的 表 无 疑 可 以 按照 地 理 区 域 进行 划分 。 

28. 3.9.4 复合 划分 

在 复合 划分 中 ， 被 范围 、 区 间或 列表 划分 的 表 可 以 进行 范围 、 列 表 或 者 散 列 子 划分 。 例 如 ， 一 个 
表 可 以 在 日 期 列 上 进行 范围 划分 ， 并 在 频繁 用 于 连接 的 列 上 进行 散 列 子 划 分 。 这 样 的 子 划 分 允许 在 表 
连接 时 采用 按 分 区 的 连接 。 

28.3.9.5 参照 划分 

在 参照 划分 中 ， 划 分 关键 字 是 基于 男 一 个 表 的 外 键 约束 来 定 的 。 这 种 表 之 间 的 依赖 允许 自动 、 级 
联 地 进行 维护 操作 。 
28.3.10 ”物化 视图 

物化 视图 特性 ( IL 4. 2.3 节 ) 允许 SQL 查询 结果 存储 在 一 个 表 中 ， 并 用 于 以 后 的 查询 处 理 。 此 外 ， 
Oracle 维护 这 种 物化 结果 ， 在 查询 涉及 的 表 更 新 时 对 物化 结果 进行 更 新 。 在 数据 仓库 中 使 用 物化 视图 
来 加 快 查询 处 理 ， 但 这 种 技术 还 用 于 分 布 式 或 移动 环境 中 的 复制 。 
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在 数据 仓库 中 ， 物 化 视图 的 一 个 通常 用 途 是 汇总 数据 。 例 如 ， 一 种 常用 的 查询 类 型 是 询问 “过 去 两 
年 中 每 个 季度 的 销售 总 额 "。 预 先 计算 这 种 查询 的 结果 或 者 部 分 结果 ， 与 从 头 开始 从 详细 的 销售 记录 中 
层 层 聚集 得 到 结果 相 比 ， 可 以 极 大 地 加 快 查 询 处 理 。 

Oracle 在 处 理 查 询 时 ， 可 以 利用 任何 有 用 的 物化 视图 来 支持 自动 查询 重 写 。 这 种 重 写 包括 改变 查 
询 ， 以 利用 物化 视图 来 代替 查询 中 原来 的 表 。 此 外 ， 这 种 重 写 可 能 会 添加 额外 的 连接 或 者 聚集 处 理 ， 
然而 为 了 得 到 正确 结果 而 可 能 需要 它们 。 例 如 ， 如 果 查 询 需 要 季度 的 销售 信息 ， 查 询 重 写 可 以 利用 物 
化 的 月 销售 视图 ， 增 加 额外 的 聚集 完成 从 月 到 季度 的 上 卷 。Oracle 具有 一 类 叫做 维 ( dimension ) 的 元 数 
据 对 象 ， 它 允许 定义 表 中 的 层次 关系 。 例 如 ， 对 于 星 型 模式 中 的 时 间 维 表 ，Oracle 能 够 定义 一 个 维 元 
数据 对 象 来 指定 如 何 从 日 上 卷 到 月 ， 从 月 上 卷 到 季度 ， 从 季度 上 卷 到 年 ， 诸 如 此 类 。 同 样 地 ， 可 以 指 
定 与 地 理 相关 的 层次 属性 一 一 例如 ， 销 售 区 域 如 何 上 卷 到 销售 地 域 。 查 询 重 写 逻 辑 之 所 以 关注 这 些 关 
系 ， 是 因为 它们 允许 在 更 广泛 的 查询 类 别 中 使 用 物化 视图 。 

物化 视图 的 容器 对 象 是 表 ， 这 意味 着 可 以 对 物化 视图 进行 索引 、 划 分 或 者 其 他 控制 ， 以 提高 查询 

当 定 义 物化 视图 的 查询 所 涉及 表 中 的 数据 发 生变 化 时 ， 必 须 刷新 物化 视图 以 反映 这 些 变化 。Oracle 
支持 物化 视图 的 完全 刷新 ， 也 支持 快速 的 增 量 刷新 。 在 完全 刷新 中 ，Oracle 从 头 开始 重 新 计算 物化 视 
图 ， 如 果 底 层 表 发 生 重大 变化 这 可 能 是 最 佳 选择 ， 如 因 批 量 加 载 导 致 的 变化 。 在 快速 刷新 中 ，Oracle 
使 用 底层 表 中 发 生变 化 的 记录 来 更 新 视图 。 对 视图 的 刷新 可 以 按 提交 (on commit) 作为 改变 底层 表 的 事 


务 的 一 部 分 来 执行 ， 也 可 以 按 需 要 (on demand) 在 之 后 的 某 个 时 间 点 执行 。 如 果 表 中 发 生 改 变 的 行 数量 
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较 少 ， 快 速 刷新 可 能 是 更 好 的 。 关 于 物化 视图 能 否 被 增 量 刷 新 ， 在 查询 类 别 上 是 有 一 些 限 制 的 ( 另 有 其 
他 关于 物化 视图 何 时 才能 创建 的 限制 ) 。 

物化 视图 与 索引 的 相似 之 处 在 于 能 够 提高 查询 性 能 ， 但 它 占 用 空间 ， 其 创建 和 维护 要 消耗 资源 。 
为 了 帮助 处 理 这 种 权衡 ，Oracle 提供 了 一 个 向 导 ， 在 给 定 特定 的 查询 工作 负载 作为 输入 的 条 件 下 ， 它 
可 以 帮助 用 户 创建 一 个 最 划算 的 物化 视图 。 


28.4 查询 处 理 和 优化 


Oracle 在 其 查询 处 理 引 苟 中 支持 大 量 的 处 理 技 术 。 在 这 里 对 一 些 更 重要 的 技术 进行 简要 描述 。 
28.4.1 ”执行 方法 
数据 可 以 通过 多 种 访问 方法 来 访问 : 
。 全 表 扫 描 (full table scan) 。 查 询 处 理 器 扫描 全 表 : 它 根 据 区 块 映 射 获 取 关 于 构成 表 的 块 的 信息 ， 
并 扫描 这 些 块 。 
© 索引 扫描 (index scan) 。 处 理 器 根据 查询 中 的 条 件 创 建 起 始 键 和 /或 终止 键 ， 并 使 用 它 扫描 索引 
中 的 相关 部 分 。 如 果 有 需要 检索 出 的 列 ， 而 这 些 列 不 是 索引 的 一 部 分 ， 则 在 索引 扫描 之 后 再 通 
过 索引 行 标识 进行 表 访 问 。 如 果 没 有 起 始 键 或 停止 键 可 用 ， 扫 描 就 成 为 全 索引 扫描 
© 索引 快速 全 扫描 (index fast full scan) 。 处 理 器 扫描 区 块 的 方式 与 全 表 扫 描 中 扫描 表 的 区 块 相同 ， 
如 果 索 引 包含 了 表 中 所 需要 的 所 有 表 列 ， 并 且 没 有 好 的 起 始 / 终 止 键 可 以 显著 地 减少 常规 索引 
扫描 中 所 需 扫 描 的 索引 部 分 ， 这 种 方法 可 能 是 访问 数据 最 快 的 途径 . 这 是 因为 快速 全 扫描 能 充 
分 利用 多 个 块 的 磁盘 IO。 然 而 ， 不 像 常规 全 扫描 那样 顺序 遍历 索引 叶 块 ， 快 速 全 扫描 并 不 保 
证 其 输出 保持 索引 排序 的 顺序 。 
。 索引 连接 (index join) 。 如 果 查 询 只 需要 宽 表 ( wide table) 的 一 个 小 的 列 的 子 集 ， 但 没有 单个 索引 
包含 所 有 这 些 列 ， 处 理 器 能 够 使 用 索引 连接 来 产生 相关 信息 ， 而 不 用 访问 表 ， 方 法 是 把 几 个 共 
同 包含 所 需 列 的 索引 连接 起 来 。 它 执行 连接 的 方式 是 在 不 同 索引 的 行 标识 上 进行 散 列 连接 
© $= Al ALFIE i (cluster and hash cluster access) 。 处 理 器 使 用 复 码 来 访问 数据 . 
Oracle 有 几 种 方法 把 来 自 多 个 索引 的 信息 合并 在 单个 访问 路 径 里 。 这 种 能 力 允 许多 个 where F4 
条 件 一 起 使 用 来 尽 可 能 有 效 地 计算 出 结果 集 。 此 功能 包括 在 位 图 表示 的 行 标识 上 执行 布尔 运算 and, 
or 和 minus 的 能 力 。 还 有 操作 符 可 以 把 行 标识 列表 映射 到 位 图 ， 或 者 反之 ， 它 允许 常规 的 B 树 索引 和 


第 28 章 Oracle 663 


位 图 索引 在 同一 个 访问 路 径 中 一 起 使 用 。 此 外 ， 对 于 许多 对 表 的 选择 中 用 到 count(“ ) 的 查询 ， 通 过 应 
用 where 子 句 条 件 产生 位 图 ,查询 结果 可 以 直接 通过 对 位 图 中 所 置 的 位 进行 计数 来 计算 出 来 ， 不 用 访 
问 表 。 

Oracle 在 执行 引擎 中 支持 几 种 类 型 的 连接 : 内 连接 、 外 连接 、 半 连接 (semijoin) 和 反 连 接 
(antijoin) 。( Oracle 中 的 反 连 接 返 回 左边 输入 关系 中 的 行 ， 这 些 行 与 右边 输入 关系 的 任何 行 都 不 匹配 ; 
在 其 他 文献 中 此 操作 也 叫做 反 半 连接 ( anti-semijoin ) 。) 它 用 下 述 三 种 方法 之 一 来 计算 每 种 类 型 的 连接 ; 
BONE RE. FEF UIE RRMA REE. 

28.4.2 优化 

第 13 章 讨论 了 查询 优化 的 一 般 问题 。 这 里 ， 我 们 讨论 Oracle 系统 中 的 优化 。 

28.4.2.1 查询 转换 

Oracle 在 几 个 阶段 上 进行 查询 优化 。 一 个 这 样 的 阶段 是 执行 各 种 查询 转换 和 重 写 ， 从 根本 上 改变 
查询 结构 。 另 一 个 阶段 是 执行 访问 路 径 选 择 以 确定 访问 路 径 、 连 接 方法 和 连接 次 序 。 因 为 某 些 转换 未 
必 总 是 有 益 的 ，Oracle 使 用 基于 代价 的 查询 转换 ， 其 中 转换 和 路 径 选 择 是 交叉 进行 的 。 对 于 每 个 所 党 
试 的 转换 ， 通 过 执行 路 径 选择 以 生成 代价 估计 ， 并 基于 结果 执行 计划 的 代价 决定 接受 还 是 拒绝 此 转换 

Oracle 支持 的 转换 和 重 写 的 一 些 主要 类 型 如 下 : 

。 视图 合并 ( view merging) 。 查 询 中 的 视图 引用 由 视图 定义 替代 。 这 种 转换 并 非 对 所 有 视图 都 

适用 。 

© 复杂 视图 合并 ( complex view merging). Oracle 为 特定 类 型 的 视图 提供 此 特性 ， 它 们 不 能 进行 常 

规 的 视图 合并 ， 因 为 它们 在 视图 定义 中 有 group by 或 select distinct。 如 果 这 种 视图 与 其 他 表 连 
接 ，Oracle 能 够 替换 用 于 group by 或 distinct 的 连接 和 排序 或 散 列 操作 . 

© 子 查询 整 平 ( subquery flattening), Oracle 有 各 种 转换 可 以 把 不 同 种 类 的 子 查询 转变 为 连接 、 半 

连接 ， 或 者 反 连 接 。 这 样 的 转换 也 称 为 去 除 相 关 ， 在 13. 4.4 节 中 进行 过 简要 描述 。 

。 物化 视图 重 写 ( materialized view rewrite), Oracle 具有 自动 重 写 查询 的 能 力 以 利用 物化 视图 。 如 

果 查 询 中 的 某 部 分 可 以 与 一 个 已 存在 的 物化 视图 匹配 ，Oracle 能 够 用 对 存储 该 物化 视图 的 表 的 
引用 来 替换 这 部 分 。 如 果 需 要 ，Oracle 添加 连接 条 件 或 group by 操作 来 保持 查询 的 语义 。 如 果 
有 多 个 物化 视图 可 以 利用 ，Oracle 选取 在 减少 所 需 处 理 的 数据 量 方面 最 有 利 的 一 个 。 此 外 ， 
Oracle 将 重 写 后 的 查询 和 原始 查询 都 提交 给 整个 优化 过 程 ， 为 它们 分 别 生 成 执行 计划 以 及 相关 
的 代价 估计 ， 然 后 Oracle 根据 代价 估计 决定 是 执行 重 写 的 查询 还 是 原始 查询 。 

。 星 型 转换 ( star transformation) 。Oracle 支持 一 种 技术 来 估算 星 型 模式 上 的 查询 ， 称 为 星 型 转换 
(star transformation ) 。 当 查询 包含 事实 表 和 维 表 的 连接 ， 并 且 对 维 表 的 属性 进行 选择 时 ， 查 询 
按 如 下 方式 转换 : 删除 事实 表 和 维 表 之 间 的 连接 条 件 ， 并 把 每 个 维 表 的 选择 条 件 蔡 换 为 如 下 形 
式 的 子 查询 : 

fact_table. fk, in 

(select pk from dimension_table, 

where < conditions on dimension_table, > ) 
对 于 每 个 具有 一 些 限定 谓词 的 维 都 产生 一 个 这 样 的 子 查询 。 如 果 维 具有 雪花 模式 ( 见 20.2 节 )， 
子 查询 将 包含 对 构成 此 维 的 适用 表 的 一 个 连接 。 

Oracle 使 用 每 个 子 查询 返回 的 值 来 探查 相应 事实 表 列 上 的 索引 ， 得 到 一 个 位 图 作为 结果 。 

从 不 同 子 查询 产生 出 的 位 图 通过 位 图 与 运算 进行 合并 。 结 果 位 图 可 以 用 于 访问 匹配 的 事实 表 
行 。 所 以 ， 只 有 那些 在 事实 表 中 ， 同 时 匹配 约束 维 上 条 件 的 行 才 会 被 访问 。 不 管 确定 为 特定 的 
维 使 用 子 查询 是 否 划算 ， 还 是 确定 重 写 的 查询 是 否 比 原始 查询 更 好 ， 都 取决 于 优化 器 的 代价 
估计 。 

28.4.2.2 访问 路 径 选 择 

Oracle 有 一 个 基于 代价 的 优化 器 来 决定 连接 顺序 、 连 接 方法 以 及 访问 路 径 。 优 化 器 所 考虑 的 每 个 
操作 都 有 一 个 相应 的 代价 函数 ， 优 化 器 试图 产生 总 体 代价 最 小 的 操作 组 合 。 
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在 估计 操作 的 代价 时 ， 优 化 器 依据 模式 对 象 (如 表 、 索 引 ) 上 已 计算 出 来 的 统计 数据 。 这 些 统 计数 
据 包 括 关于 对 象 大 小 、 基 数 、 表 列 的 数据 分 布 情况 等 信息 。 对 于 数据 分 布 ，Oracle 支持 高 度 平衡 
(height-balanced) 直方 图 和 频率 直方 图 。 高 度 平 衡 直 方 图 也 称 为 等 深 直方 图 ， 在 13. 3. 1 节 进 行 过 描述 。 

为 了 方便 收集 优化 器 统计 数据 ，Oracle 能 够 监视 表 上 的 修改 活动 ， 跟 踪 那 些 已 经 做 了 足够 多 修改 
的 表 ， 它 们 可 能 适合 于 重新 计算 统计 数据 。Oracle 还 跟踪 在 查询 的 where 子 句 中 用 到 哪些 列 ， 把 它们 
作为 创建 直方 图 的 潜在 候选 者 。 用 户 可 以 通过 一 条 命令 ， 通 知 Oracle 为 那些 已 经 标记 为 做 了 足够 多 修 
改 的 表 刷 新 统计 数据 。Oracle 用 采样 来 加 速 收 集 新 统计 信息 的 过 程 ， 并 自动 选择 最 小 的 、 足 够 的 样本 
百分比 。 它 还 决定 标记 列 的 分 布 是 否 有 利于 建立 直方 图 ; 如 果 数 据 的 分 布 趋 于 均衡 ， 则 Oracle 用 更 简 
单 的 方法 来 表示 列 的 统计 数据 。 

在 某 些 情况 下 ， 优 化 器 不 太 可 能 仅仅 依靠 简单 的 列 统计 数据 来 精确 估计 查询 的 where 子 句 中 的 条 
件 的 选择 率 。 例 如 ,条件 可 能 是 一 个 包含 列 的 表达 式 ， 如 f( col +3) >5。 男 一 类 存在 问题 的 查询 是 那 
些 在 列 上 有 多 个 谓词 ， 并 且 这 些 列 存在 某 种 形式 的 相关 性 的 查询 。 估 计 这 些 谓词 的 联合 选择 率 可 能 比 
较 困 难 。Oracle 为 此 人 允许 为 表达 式 和 分 组 的 列 创建 统计 数据 。 另 外 ，Oracle 通过 动态 采样 来 处 理 这 些 
问题 。 优 化 器 可 以 随机 采样 表 的 一 小 部 分 ， 将 所 有 相关 的 谓词 应 用 到 样本 上 ， 从 而 得 出 匹配 的 行 的 百 
分 比 。 这 个 特性 也 用 于 处 理 那些 数据 生命 周期 和 可 见 性 可 能 阻碍 常规 统计 数据 收集 的 临时 表 。 

在 优化 器 代价 模型 中 ，Oracle 既 使 用 CPU 代价 ， 也 使 用 磁盘 VO. 为 了 平衡 这 两 个 部 分 ， 它 保存 
了 关于 CPU 速度 和 磁盘 VO 性 能 的 度量 ， 作 为 优化 器 统计 数据 的 一 部 分 。Oracle 用 于 收集 优化 器 统计 
数据 的 软件 包 人 负责 计算 这 些 度量 。 

对 于 有 比较 多 连接 操作 的 查询 ， 优 化 器 的 搜索 空间 是 一 个 问题 。Oracle 有 几 种 方法 处 理 这 个 问题 。 
优化 器 产生 一 个 初始 连接 顺序 ， 然 后 按 该 连接 顺序 选择 最 好 的 连接 方法 和 访问 路 径 。 接 着 改变 表 的 顺 
序 ， 并 为 新 的 连接 顺序 选择 最 好 的 连接 方法 和 访问 路 径 ， 以 此 类 推 ， 同 时 保存 目前 为 止 最 好 的 计划 。 
如 果 要 考虑 的 不 同 连接 顺序 的 数量 太 大 ， 以 至 于 优化 器 所 花费 的 时 间 与 它 执 行当 前 已 找到 的 最 优 计划 
所 花 的 时 间 比 起 来 可 能 较 显 著 ，Oracle 会 中 断 优化 。 由 于 这 种 中 断 依赖 于 当前 已 找到 的 最 好 计划 的 代 


1175) 价 估计 ， 所 以 尽早 找到 一 个 好 的 计划 很 重要 ， 这 样 优化 器 在 更 少量 的 连接 顺序 之 后 就 可 以 停止 ， 导 致 


响应 时 间 更 短 。Oracle 采用 几 种 初始 排序 启发 式 法 则 来 增加 第 一 次 连接 顺序 就 是 好 策略 的 可 能 性 。 

对 于 所 考虑 的 每 种 连接 顺序 ， 优 化 器 可 能 执行 额外 的 对 表 的 扫描 来 决定 连接 方法 和 访问 路 径 。 这 
种 额外 扫描 的 目标 是 确定 访问 路 径 选 择 的 全 局 副 效应 。 比 如 一 个 特定 的 连接 方法 和 访问 路 径 的 组 合 可 
以 省 略 执行 order by 排序 的 需要 。 由 于 在 局 部 考虑 不 同 连接 方法 和 访问 路 径 的 代价 时 ， 这 种 全 局 副 效 
应 可 能 并 不 明显 ， 可 用 定位 特定 副 效 应 的 单独 的 扫描 来 发 现 可 能 的 、 整 体 代 价 更 好 的 执行 计划 。 

28.4.2.3 分 区 裁剪 

对 于 划分 的 表 ， 优 化 器 试 着 把 查询 where 子 句 中 的 条 件 和 表 划 分 的 标准 进行 匹配 ， 为 的 是 避免 访 
问 结果 所 不 需要 的 分 区 。 例 如， 如 果 表 以 日 期 范围 来 划分 ， 并 且 查 询 被 限定 在 两 个 特定 日 期 之 间 的 数 
据 上 上， 优化 器 判定 哪些 分 区 包含 了 这 两 个 特定 日 期 之 间 的 数据 ， 并 确保 只 访问 这 样 的 分 区 。 这 样 的 情 
形 非常 普遍 ， 如 果 只 需要 分 区 的 一 个 小 的 子 集 ， 加 速 比 是 显著 的 。 

28.4.2.4 SQL 调 优 顾问 

除了 常规 的 优化 流程 ，Oralce 优化 器 还 能 作为 SQL Tuning Advisor( SQL 调 优 顾问 ) 的 一 部 分 而 用 于 
调 优 模式 中 ， 为 的 是 生成 比 平时 更 为 高 效 的 执行 计划 。 这 个 特性 对 于 反复 生成 相同 SQL 语句 集合 的 打 
包 应 用 特别 有 用 ， 这 样 为 了 性 能 而 调 优 这 些 语句 的 努力 在 将 来 是 有 益 的 。 

Oralce 监控 数据 库 活动 ， 并 自动 将 关于 负载 重 的 SQL 语句 的 信息 存放 在 工作 负载 存储 器 中 ， 参 见 
28. 8.2 节 。 负 载重 的 SQL 语句 是 那些 用 尽 绝 大 部 分 资源 的 语句 ， 因 为 它们 执行 了 太 多 次 或 者 每 次 执行 
代价 就 很 大 。 这 样 的 语句 是 调 优 的 合理 的 候选 者 ， 因 为 它们 对 系统 的 影响 最 大 。SQL 调 优 顾问 可 用 于 
提供 各 种 建议 ， 从 而 提高 这 些 语 句 的 性 能 ， 这 些 建 议 可 分 为 如 下 不 同 种 类 : 

© 统计 分 析 ( statistics analysis), Oracle 检查 优化 器 所 需要 的 统计 数据 是 否 缺 失 或 者 陈旧 ， 并 且 提 

供 收 集 这 些 数 据 的 建议 。 
。 SQL 轮廓 记录 (SQL profiling), SQL 语句 的 轮廓 记录 是 为 了 帮助 优化 器 下 次 优化 此 语句 时 能 做 
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出 更 好 决策 的 一 组 信息 。 如 果 优 化 器 不 能 精确 估计 基数 和 选择 率 ， 它 有 时 可 能 会 生成 低 效 的 执 
行 计划 ， 由 于 数据 的 相关 性 或 者 使 用 了 特定 的 构造 类 型 会 发 生 这 样 的 事情 。 当 在 调 优 模式 下 运 
行 优化 器 以 创建 轮廓 记录 时 ， 优 化 器 会 使 用 动态 采样 和 SQL 语句 的 部 分 评估 来 验证 其 假设 是 否 
正确 。 如 果 它 发 现在 优化 过 程 的 某 些 步 又 中 优化 器 的 假设 是 错误 的 ， 它 将 为 该 步骤 生成 一 个 校 
正 因 子 ， 使 其 成 为 轮廓 记录 的 一 部 分 。 调 优 模式 下 的 优化 非常 耗 时 ， 不 过 若 轮廓 记录 的 使 用 能 
显著 提高 语句 性 能 ， 就 是 值得 的 。 轮 廓 记录 在 创建 之 后 会 持久 地 存储 ， 并 在 今后 优化 该 语句 的 
任何 时 候 使 用 。 轮 廓 记录 能 用 于 SQL 语句 调 优 ， 而 无 需 改 变 语 句 内 容 ， 这 一 点 很 重要 ， 因 为 数 
据 库 管理 员 通 常 不 可 能 修改 应 用 所 产生 的 语句 。 
访问 路 径 分 析 ( access-path analysis) 。 基 于 优化 器 的 分 析 ，Oracle 建议 创建 额外 的 索引 来 加 速 语 
句 的 执行 。 

e SQL 结构 分 析 ( SQL structure analysis), Oracle 建议 改变 SQL 语句 的 结构 ， 以 便于 更 高 效 的 

执行 。 

28.4.2.5 SQL 计划 管理 

打包 的 应 用 程序 经 常生 成 大 量 重复 执行 的 SQL 语句 。 如 果 应 用 程序 表现 得 足够 好 ， 数 据 库 管 理 员 
通常 不 愿意 修改 数据 库 行为 。 如 果 修 改 导 致 性 能 更 好 ， 由 于 性 能 已 经 够 好 了 ， 能 提升 的 空间 是 有 限 的 ， 
另 一 方面 ， 如 果 修 改 导 致 性 能 下 降 ， 如 果 一 个 关键 查询 的 响应 时 间 下 降 到 不 可 接受 ， 它 可 能 破坏 了 应 
用 程序 。 

改变 行为 的 一 个 例子 是 改变 查询 的 执行 计划 。 这 样 的 改变 可 能 完全 合理 地 反映 了 数据 性 质 的 变化 ， 
例如 一 个 表 增 长 得 非常 大 。 但 是 这 样 的 改变 也 可 能 是 许多 其 他 动作 的 无 意 的 结果 ， 如 收集 优化 器 统计 
数据 例 程 的 改变 或 升级 到 具有 新 的 优化 器 行为 的 RDBMS 的 新 版 本 。 

Oracle 的 SQL 计划 管理 特性 是 处 理 与 执行 计划 变化 有 关 的 风险 ， 方 法 是 为 工作 负荷 维护 一 个 可 信 
的 执行 计划 集合 ， 并 仅 在 验证 这 些 改变 不 会 引起 任何 性 能 下 降 之 后 ， 才 分 阶段 地 进行 查询 优化 器 对 计 
划 的 改变 。 此 特性 有 三 个 组 件 : 

1. SQL 计划 基线 捕获 (SQL plan baseline capture), Oracle 可 以 捕获 工作 负载 的 执行 计划 并 为 每 条 
SQL 语句 存储 历史 计划 。 计 划 基 线 是 工作 负载 的 计划 集合 ， 具 有 可 人 靠 的 性 能 特性 并 且 是 未 来 计划 变动 
可 以 比较 的 基准 。 一 条 语句 可 以 拥有 不 止 一 个 基线 计划 。 

2. SQL 计划 基线 选择 (SQL plan baseline selection) 。 在 优化 器 为 SQL 语句 生成 计划 之 后 ， 它 检查 是 
否 存在 该 语句 的 基线 计划 。 如 果 语 句 在 基线 中 存在 但 新 的 计划 不 同 于 任何 已 有 计划 ， 则 使 用 优化 器 认 
为 是 最 好 的 基线 计划 。 新 生成 的 计划 将 添加 到 该 语句 的 计划 历史 中 ， 并 可 能 成 为 一 个 未 来 基线 的 一 
部 分 。 

3. SQL 计划 基线 演化 (SQL plan baseline evolution) 。 周 期 性 地 试 着 让 新 生成 的 执行 计划 成 为 在 基线 
中 可 信 计 划 的 一 部 分 是 有 意义 的 。Oracle 支持 带 验证 或 不 带 验证 地 将 新 的 计划 添加 到 基线 中 。 如 果 选 
择 验证 方式 ，Oracle 将 执行 新 生成 的 计划 ， 并 将 其 性 能 与 基线 比较 ， 以 确保 它 不 会 导致 性 能 衰退 
28.4.3 ”并行 执行 

通过 将 工作 分 配 到 一 台 多 处 理 器 计算 机 的 多 个 进程 中 ，Oracle 允许 并 行 地 执行 单条 SQL 语句 。 这 
个 特性 对 于 计算 密集 型 操作 尤其 有 用 ， 否 则 这 样 的 计算 将 花费 不 可 接受 的 长 时 间 来 执行 。 典 型 的 例子 
是 : 需要 处 理 大 量 数据 的 决策 支持 查询 、 数 据 仓 库 中 的 数据 加 载 、 索 引 的 创建 以 及 重建 

为 了 通过 并 行 得 到 高 的 加 速 比 ， 将 语句 执行 中 所 涉及 的 工作 分 割 成 能 够 由 不 同 的 并 行 处 理 器 独立 
处 理 的 粒度 是 很 重要 的 。 根 据 操 作 类 型 的 不 同 ，Oracle 有 几 种 不 同 的 方法 来 对 工作 进行 分 割 。 

对 于 访问 基本 对 象 ( 表 和 索引 ) 的 操作 ，Oracle 能 够 通过 数据 的 水 平 切片 来 分 割 工 作 。 对 于 一 些 操 
作 ， 比 如 全 表 扫 描 ， 每 个 这 样 的 切片 可 以 是 一 个 范围 内 的 块 ， 每 个 并 行 的 查询 进程 从 范围 的 第 一 个 块 
开始 扫描 表 ， 到 最 后 一 个 块 结束 。 对 于 划分 表 上 的 某 些 操 作 ， 例 如 索引 范围 扫描 ， 切 片 就 是 一 个 分 区 
基于 块 范围 的 并 行 更 灵活 ， 因 为 这 可 以 基于 各 种 标准 来 动态 决定 ， 而 不 受制 于 表 的 定义 

连接 可 以 通过 几 种 不 同 的 方式 来 并 行 化 。 一 种 方式 是 ， 把 连接 的 一 个 输入 划分 到 并 行进 程 中 ， 让 
每 个 进程 将 其 切片 与 连接 的 另 一 个 输入 做 连接 ， 这 就 是 18. 5. 2. 2 节 的 非 对 称 分 片 -复制 方法 。 例 如 ， 
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如 果 一 个 大 表 和 一 个 小 表 做 散 列 连接 ，Oracle 把 大 表 划 分 到 进程 中 ， 并 将 小 表 的 副本 广播 给 每 个 进程 
然后 每 个 进程 将 其 切片 与 小 表 进 行 连接 。 如 果 两 个 表 都 大 ， 把 它们 中 的 一 个 广播 给 所 有 进程 的 代价 将 
大 得 难以 承受 。 在 这 种 情况 下 ，Oracle 通过 下 述 方法 实现 并 行 化 : 通过 对 连接 列 取 值 的 散 列 把 数据 划 
分 到 进程 中 (18. 5. 2. 1 节 的 基于 划分 的 散 列 连接 方法 ) 。 每 个 表 被 一 组 进程 并 行 扫描 ， 输 出 的 每 一 行 送 
到 一 组 执行 连接 的 一 个 进程 中 。 这 些 进程 中 的 哪 一 个 得 到 该 行 数据 ， 由 连接 列 值 上 的 散 列 函数 决定 
因此 ， 每 个 连接 进程 只 会 得 到 可 能 匹配 的 行 ， 并且 任何 可 能 匹配 的 行 不 会 在 不 同 的 进程 中 结束 。 

Oracle 按 执行 排序 的 列 上 的 取 值 范围 进行 并 行 排序 操作 (也 就 是 使 用 18. 5. 1 节 的 范围 划分 排序 )， 
每 个 参与 排序 的 进程 都 得 到 取 值 在 其 范围 内 的 行 ， 并 在 其 范围 内 将 这 些 行 排序 。 为 了 最 大 化 并 行 的 优 
势 ， 需 要 在 并 行进 程 中 尽 可 能 平均 地 划分 这 些 行 ， 这 就 出 现 了 确定 范围 边界 以 产生 好 的 数据 分 布 的 问 
题 。Oracle 通过 在 确定 范围 边界 之 前 对 排序 输入 中 的 行动 态 采样 出 一 个 子 集 来 解决 这 个 问题 。 

28.4.3.1 进程 结构 

SQL 语句 并 行 执行 中 的 进程 包括 一 个 协调 进程 和 许多 并 行 服务 器 进程 。 协 调 进程 负责 给 并 行 的 服 
务 器 分 配 任务 并 且 为 发 出 该 语句 的 用 户 进程 收集 和 返回 数据 。 并 行 度 是 并 行 的 服务 器 进程 的 数量 ， 这 
些 服务 器 进程 被 指派 来 执行 作为 该 语句 一 部 分 的 原始 操作 。 并 行 度 由 优化 器 决定 ， 但 是 如 果 系 统 负载 
增加 ， 并 行 度 会 动态 下 降 。 

并 行 服务 器 按照 生产 者 /消费 者 模型 操作 。 当 处 理 某 条 语句 需要 一 系列 操作 时 ， 服 务 器 的 生产 者 集 
合 执行 第 一 个 操作 ， 并 把 结果 数据 送 给 消费 者 集合 。 比 如 ， 一 个 全 表 扫 描 后 接 排序 ， 且 并 行 度 为 32， 
那么 有 32 个 生产 者 服务 器 执行 表 的 扫描 ， 并 把 结果 送 给 32 个 消费 者 服务 器 ， 由 它们 执行 排序 。 如 果 
还 需要 后 继 操 作 ， 比 如 男 一 个 排序 ， 那么 两 组 服务 的 角色 互 换 。 原 先 执 行 表 扫描 的 服务 器 扮演 消费 者 
的 角色 ， 并 使 用 第 一 次 排序 产生 的 输出 来 执行 第 二 次 排序 。 这 样 ， 通 过 在 两 组 服务 器 之 间 来 回 传递 数 
据 ， 将 这 两 组 服务 器 的 角色 替换 为 生产 者 和 消费 者 ,就 可 以 进行 一 系列 的 操作 。 服 务 器 之 间 的 通信 通 
过 共享 内 存 硬件 上 的 内 存 缓冲 区 进行 ， 或 者 通过 MPP( 无 共享) 配置 和 集群 ( 共享 磁盘 ) 系统 上 的 高 速 网 
络 连 接 进行 。 

对 于 无 共享 的 系统 ， 进 程 之 间 访 问 磁盘 数据 的 代价 并 不 相同 。 在 一 个 结 点 上 运行 的 可 以 直接 访问 
设备 的 进程 比 需要 通过 网 络 检索 数据 的 进程 能 更 快 地 处 理 在 该 设备 上 的 数据 。 在 给 并 行 执行 的 服务 吕 
分 配 工作 时 ，Oracle 利用 了 有 关 设备 - 结 点 、 设 备 - 进程 邻近 关系 的 知识 ， 即 直接 访问 设备 的 能 力 。 
28.4.4 ”结果 高 速 缓存 

Oracle 的 结果 高 速 缓存 特性 允许 查询 或 查询 块 (如 查询 中 引用 的 视图 ) 的 结果 被 高 速 缓存 在 内 存 
中 ， 如 果 相 同 查询 被 重新 执行 就 可 以 重用 。 在 底层 表 上 的 数据 更 新 会 使 高 速 缓存 的 结果 失效 ， 所 以 这 
个 特性 对 于 相对 静止 表 上 的 查询 且 查 询 结果 集 相 对 小 的 情况 最 合适 。 考 虑 一 个 使 用 的 例子 ，Web 页 面 
的 某 些 部 分 存放 在 数据 库 中 ， 相 对 于 它 的 访问 频率 是 不 经 常 改 变 的 。 对 于 这 样 一 个 应 用 ， 结 果 高 速 组 
存 是 比 使 用 物化 视图 更 轻 量 级 的 选择 ， 后 者 可 能 需要 显 式 地 创建 和 管理 新 的 持久 数据 库 对 象 。 


28.5 并 发 控制 与 恢复 
Oracle 支持 的 并 发 控制 和 恢复 技术 提供 了 许多 有 用 的 特性 。 


28. 5.1 并 发 控制 

Oracle 的 多 版 本 并 发 控制 机 制 是 基于 15. 7 节 中 描述 的 快照 隔离 协议 。 只 读 查 询 被 赋 耶 一 个 读 一 致 
性 数据 快照 ， 它 是 存在 于 特定 时 刻 的 数据 库 的 视图 ， 包含 所 有 在 那个 时 刻 提交 的 更 新 ， 不 包括 任何 在 
那个 时 刻 还 没有 提交 的 更 新 。 这 样 就 不 使 用 读 锁 ， 只 读 查 询 在 锁 的 方面 不 妨碍 其 他 数据 库 的 活动 。 

Oracle 同时 支持 语句 级 和 事务 级 的 读 一 致 性 : 在 开始 执行 一 条 语句 或 者 一 个 事务 (这 要 看 采用 何 种 
一 致 性 级 别 ) 时 ，Oracle 确定 当前 的 系统 改变 号 ( System Change Number, SCN). SCN 实质 上 充当 一 个 时 
间 惟 ， 只 是 其 中 的 时 间 是 以 事务 提交 来 计算 的 ， 而 不 是 真实 时 间 。 

如 果 在 查询 的 过 程 中 发 现 一 个 数据 块 的 SCN 比 查 询 相 关 的 SCN 更 高 ， 很 明显 在 原来 查询 的 SCN 的 
时 间 之 后 ， 该 数据 块 被 其 他 一 些 事务 修改 过 ， 这 些 事务 可 能 已 经 提交 ， 也 可 能 没有 提交 。 因 此 ， 这 个 
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块 中 的 数据 就 不 能 出 现在 存在 于 该 查询 的 SCN 时 刻 的 数据 库 的 一 致 性 视图 中 。 反 之 ， 必 须 使 用 这 个 块 
中 的 一 个 更 老 的 数据 版 本 ; 特别 是 具有 不 超过 该 查询 的 SCN 且 最 高 的 SCN 的 版 本 。Oracle 从 撤销 段 中 
找 回 数 据 的 那个 版 本 ( 撤销 段 在 28. 5. 2 中 讲述 ) 。 因 此 ， 只 要 撤销 空间 足够 大 ， 即 使 在 自 查询 开始 执行 
以 来 数据 项 已 修改 了 好 几 次 ，Oracle 仍 能 返回 该 查询 的 一 致 性 结果 。 如 果 具 有 所 需 SCN 的 块 已 不 在 撤 
销 段 中 存在 ， 查 询 将 返回 一 个 错误 。 它 指明 在 给 定 系 统 上 的 活动 的 情况 下 ， 撤 销 表 空 间 的 大 小 设置 不 
合理 。 

在 Oracle 并 发 模型 中 ， 读 操作 并 不 阻碍 写 操作 ， 同 时 写 操作 也 不 阻碍 读 操作 ， 该 性 质 支 持 高 并 发 
度 。 特 别 地 ， 这 种 方案 允许 在 有 大 量 事务 性 活动 的 系统 上 执行 长 时 间 运 行 的 查询 (例如 报表 查询 ) E 
对 查询 使 用 读 锁 的 数据 库 系统 中 ， 这 种 情形 通常 会 出 问题 ， 因 为 查询 可 能 要 么 得 不 到 锁 ， 要 么 长 时 间 
封锁 大 量 数据 ， 从 而 阻碍 了 这 些 数据 上 的 事务 性 活动 ， 并 降低 了 并 发 性 。( 有些 系统 中 使 用 的 一 种 替代 
方法 是 采用 较 低 级 别 的 一 致 性 ， 比 如 二 级 一 致 性 ,但 是 这 样 可 能 造成 不 一 致 的 查询 结果 ,) 

Oracle 的 并 发 模型 用 作 闪 回 (flashback ) 特性 的 基础 。 这 种 特性 允许 用 户 在 其 会 话 中 设置 特定 的 
SCN 号 或 真实 时 间 ， 然 后 对 那个 时 刻 的 数据 执行 操作 (假定 那 时 候 的 数据 还 在 撤销 段 中 存在 ) 。 通 常 在 
一 个 数据 库 系统 中 ， 修 改 操作 一 旦 提交 ， 那 就 无 法 回 到 数据 原来 的 状态 ， 除 非 从 备份 中 执行 时 间 点 恢 
复 。 然 而 ,恢复 一 个 很 大 的 数据 库 的 开销 极 大 ， 尤 其 如 果 目 的 仅仅 是 为 了 找 回 被 用 户 不 小 心 删 掉 的 数 
据 项 。 闪 回 特性 提供 了 一 种 简单 得 多 的 机 制 来 处 理 用 户 错误 。 闪 回 特性 具有 将 一 个 表 或 一 个 完整 数据 
库 恢复 到 某 个 更 早 时 间 点 而 无 需 从 备份 中 恢复 的 能 力 、 当 数据 在 更 早 时 间 点 上 存在 时 对 它们 执行 查询 
的 能 力 、 追 踪 一 行 或 多 行 随时 间 如 何 变化 的 能 力 、 在 事务 级 别 检查 数据 库 变化 的 能 力 。 

除了 通过 常规 的 撤销 (undo) 滞留 能 够 做 到 的 之 外 ， 我 们 可 能 希望 能 够 追踪 表 的 变化 。( 例如， 公 
司 管理 章程 可 能 需要 在 特定 年 限 内 可 以 追踪 这 样 的 变化 。) 为 了 这 个 目的 ， 可 以 通过 闪 回 归档 (flashback 
archive) 特性 来 追踪 一 个 表 ， 它 创建 一 个 表 内 部 的 历史 版 本 。 一 个 后 台 进 程 将 撤销 信息 转换 为 历史 表 中 
的 项 ， 这 可 用 于 提供 任意 长 时 期 内 的 闪 回 功能 。 

Oracle 支持 两 种 ANSI/ISO 隔离 性 级 别 ， 读 已 提交 (read committed ) 和 可 串 行 化 (serializable) 。 它 不 
支持 读 脏 数据 ， 因 为 这 也 不 需要 。 语 句 级 的 读 一 致 性 对 应 于 读 已 提交 隔离 性 级 别 ， 而 事务 级 的 读 一 臻 
性 对 应 于 可 串 行 化 的 隔离 性 级 别 。 可 以 在 会 话 中 或 者 在 单独 的 事务 中 设置 隔离 性 级 别 。 默 认 的 是 语句 
级 别 的 读 一 致 性 ( 即 读 已 提交 ) 。 

Oracle 采用 行 级 别 封锁 ， 更 新 不 同 的 行 并 不 冲突 。 如 果 两 个 写 操 作 试图 修改 同一 行 ， 那么 一 个 必 
须 等 男 一 个 要 么 提交 ,要么 回 深 ， 然 后 它 才 能 要 么 返回 一 个 写 冲 突 错误 ， 要么 开始 修改 该 行 ， 写 冲突 
错误 的 检测 基于 15.7 节 介 绍 的 最 先 更 新 者 胜 版 本 的 快照 隔离 (15. 7 节 还 描述 了 会 与 快照 隔离 同时 发 生 
的 非 可 串 行 化 执行 的 特定 情况 ， 并 概述 了 防止 这 种 问题 的 技术 ) 。 在 整个 事务 阶段 ， 封 锁 都 不 释放 。 

除了 用 行 级 别 封锁 来 防止 DML 活动 引起 的 不 一 致 性 之 外 ，Oracle 还 使 用 表 的 封锁 来 防止 DDL 活动 
引起 的 不 一 致 性 。 这 种 锁 防 止 了 当 一 个 用 户 有 一 个 未 提交 的 事务 正在 访问 某 个 表 时 ， 另 外 一 个 用 户 来 
删除 该 表 。Oracle 在 其 常规 的 并 发 控制 中 ， 并 不 使 用 锁 升 级 来 把 行 锁 升 级 为 表 锁 。 

Oracle 自动 检测 死 锁 ， 解 除 死 锁 的 方式 是 回 滚 陷 人 死 锁 中 的 一 个 事务 。 

Oracle 支持 自治 事务 ， 这 是 在 其 他 一 些 事务 之 内 产生 的 独立 事务 。 当 Oracle 调用 自治 事务 时 ， 它 
在 一 个 隔离 的 环境 中 产生 一 个 新 事务 。 在 控制 回 到 调用 事务 之 前 ， 该 新 事务 要 么 提交 ， 要 人 么 回 滚 。 
Oracle LF ARFA HERRE. 

28.5.2 恢复 的 基本 结构 

在 28.5.1 节 描 述 的 Oracle 闪 回 技术 可 以 用 作 一 种 恢复 机 制 ， 但 Oracle 同样 支持 文件 物理 备份 媒介 
的 恢复 。 这 里 我 们 描述 这 种 更 传统 的 备份 和 恢复 形式 。 

要 了 解 Oracle 怎样 从 故障 (如 磁盘 崩溃 ) 中 恢复 ， 了 解 所 涉及 的 基本 结构 是 很 重要 的 。 除 了 包括 表 
和 索引 的 数据 文件 ， 还 有 控制 文件 、redo 日 志 、 归 档 的 redo 日 志 以 及 撤销 段 。 

控制 文件 包含 操作 数据 库 所 需 的 各 种 元 数据 ， 包 括 关 于 备份 的 信息 。 

Oracle 在 redo 日 志 中 记录 了 数据 库 缓冲 区 中 所 有 的 事务 性 修改 ， 它 包括 两 个 或 者 更 多 的 文件 。 不 
管事 务 最 终 是 否 提交 ， 它 把 修改 作为 引发 该 修改 的 操作 的 一 部 分 记录 下 来 。 它 不 仅 记 录 表 中 数据 的 改 
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用 几 个 进程 同时 应 用 redo 信息 。Oracle 提供 了 一 个 图 形 化 用 户 界 面 工 具 
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变 ， 还 记录 对 索引 和 撤销 段 的 改变 。 当 redo 日 志 填 完 后 ， 由 一 个 或 者 几 个 后 台 进 程 来 进行 归档 ( 如果 
数据 库 在 日 志 归 档 (archivelog) 模 式 下 运行 ) 。 

撤销 段 包 括 关 于 数据 旧版 本 的 信息 ( 即 撤销 信息 )。 除 了 在 Oracle 的 一 致 性 模型 中 扮演 的 角色 之 
外 ， 这 些 信 息 还 用 于 当 修 改 数据 项 的 事务 回 滚 时 ， 人 恢复 这 些 数 据 项 的 旧版 本 。 

为 了 能 够 从 存储 器 故障 中 恢复 ， 数 据 文件 和 控制 文件 应 该 定期 备份 。 备 份 频率 决定 了 在 最 坏 情 况 
下 的 恢复 时 间 ， 因 为 如 果 备 份 是 旧 的 ， 就 要 花 更 长 的 时 间 来 恢复 。Oracle 支持 热 备 份 ， 即 在 有 事务 性 
活动 的 联机 数据 库 上 执行 备份 。 

在 从 备份 中 恢复 的 期 间 ，Oracle 执行 两 个 步骤 来 达到 正好 在 故障 前 一 刻 存 在 的 数据 库 的 一 致 性 状 
态 。 首 先 ，Oracle 通过 将 (已 存档 的 )redo 日 志 应 用 到 备份 上 向 前 滚 。 此 动作 将 数据 库 恢 复 到 故障 时 存 
在 的 状态 ， 但 是 由 于 redo 日 志 中 包含 未 提交 数据 ， 因 此 还 不 一 定 是 一 致 性 状态 。 第 二 步 ，Oracle 通过 
使 用 撤销 段 数 据 来 回 滚 未 提交 事务 。 这 样 数据 库 就 达到 一 致 的 状态 了 。 

自 最 后 一 次 备份 以 来 有 大 量 事务 性 活动 的 数据 库 上 进行 恢复 会 很 耗 时 。Oracle 支持 并 行 恢复 ， 利 
恢复 管理 器 ( recovery 





manager), ， 可 自动 执行 与 备份 和 恢复 相关 的 大 多 数 任务 。 
28.5.3 Oracle 数据 卫士 

为 了 保证 高 可 用 性 ，Oracle 提供 了 备用 数据 库 特 性 一 一 数据 卫士 ( data guard) 。( 该 特性 和 16. 9 节 
中 讲述 的 远程 备份 相同 。) 备 用 数据 库 是 常规 数据 库 的 拷贝 ， 安 装 在 另 一 个 单独 的 系统 中 。 如 果 主 系统 
发 生 灾难 性 故障 ， 那 么 备用 系统 被 激活 并 接管 控制 ， 从 而 减少 了 故障 对 可 用 性 的 影响 。Oracle 通过 不 
断 应 用 从 主 数 据 库 传 来 的 归档 的 redo AK, 来 保持 备用 数据 库 是 最 新 的 。 备 用 数据 库 可 以 只 读 方式 上 
线 ， 并 用 于 报表 和 决策 支持 查询 。 


28.6 系统 体系 结构 


每 当 数据 库 应 用 执行 SQL 语句 时 ， 就 有 一 个 操作 系统 进程 执行 数据 库 服务 器 中 的 代码 。 可 以 通过 
ACE Oracle 来 决定 该 操作 系统 进程 是 被 它 正 处 理 的 语句 所 独占 专用 ， 还 是 可 以 在 多 条 语句 间 共 享 。 后 
一 种 配置 称 为 共享 服务 器 (shared server) ， 在 进程 和 内 存 体系 结构 上 有 一 些 不 同 的 特性 。 我 们 将 先 讨论 
专用 服务 器 ( dedicated server) 体系 结构 ， 稍 后 讨论 多 线程 服务 器 体系 结构 。 


28.6.1 专用 服务 器 : 内 存 结构 
Oracle 所 用 的 内 存 主要 分 为 三 类 : 软件 代码 区 ( 它 是 Oracle 服务 器 代码 驻 留 的 内 存 的 部 分 ) 、 系 统 
全 局 区 (System Global Area, SGA) 和 程序 全 局 区 (Program Global Area, PGA). 
系统 给 每 个 进程 分 配 一 个 PGA 来 保存 其 局 部 数据 和 控制 信息 。 这 个 区 域 包含 各 种 会 话 数 据 的 堆栈 
空间 以 及 正在 执行 的 SQL 语句 所 用 的 私有 内 存 。 它 还 包括 执行 语句 时 可 能 进行 的 排序 和 散 列 操作 所 需 
的 内 存 。 这 类 操作 的 性 能 对 于 可 用 内 存 的 大 小 是 敏感 的 。 例 如 ， 与 必须 将 溢出 数据 存放 在 磁盘 上 的 散 
列 连接 相 比 ， 可 以 在 内 存 中 执行 的 散 列 连接 要 比 需要 利用 磁盘 的 情况 更 快 。 由 于 可 能 有 大 量 活跃 的 排 
序 和 散 列 操作 同时 存在 (因为 存在 多 个 查询 ， 同 时 每 个 查询 内 存在 多 个 操作 ) ， 确 定 为 每 个 操作 分 配 多 
少 内 存 是 主要 的 ， 特 别 是 当 系 统 负载 可 能 波动 时 。 如 果 一 个 操作 不 必要 地 溢出 到 磁盘 ， 内 存 分 配 不 足 
会 导致 额外 的 磁盘 IO; 而 内 存 分 配 过 多 会 引起 系统 颠 壬 。Oracle 让 数据 库 管 理 员 为 可 用 于 这 些 操作 的 
内 存 总 量 指定 目标 参数 。 此 目标 的 大 小 通常 可 基于 系统 可 用 的 内 存 总 量 和 关于 这 些 内 存 应 该 如 何在 各 
种 Oracle 和 非 Oracle 活动 之 间 进 行 划 分 的 一 些 计算 。Oracle 会 动态 决定 将 目标 内 可 用 内 存在 活跃 操作 
之 间 分 配 的 最 优 方法 ， 以 最 大 化 吞吐 量 。 内 存 分 配 算法 知道 不 同 操作 的 内 存 与 性 能 之 间 的 关系 ， 试 图 
确保 尽 可 能 高 效 地 利用 可 用 内 存 。 
SGA 是 存放 用 户 间 共享 结构 的 内 存 区 域 。 它 由 几 种 主要 结构 组 成 ， 包 括 : 
。 缓冲 区 高 速 缓存 (buffer cache) 。 这 种 高 速 缓存 将 频繁 访问 的 数据 块 (来 自 表 或 索引 ) 保存 在 内 存 
中 ， 以 减少 执行 物理 磁盘 IO 的 需求 。 除 在 全 表 扫 描 时 的 块 访问 之 外 ， 使 用 最 近 最 少 使 用 替换 
策略 。 但 是 ，Oracle 允许 建立 多 个 具有 不 同 数据 替换 策略 的 缓冲 池 。 有 些 Oracle 操作 绕 过 缓冲 
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区 高 速 缓存 ， 直 接 从 磁盘 读 取 数 据 。 
redo 日 志 缓 冲 区 (redo log buffer) 。 这 种 缓冲 区 用 来 保存 还 没有 写 到 磁盘 上 的 redo 日 志 部 分 。 
共享 池 ( shared pool), Oracle 通过 最 小 化 每 个 用 户 所 需 的 内 存量 ， 来 寻求 最 大 化 的 、 可 以 并 发 
使 用 数据 库 的 用 户 数量 。 这 其 中 一 个 很 重要 的 概念 是 对 SQL 语句 和 用 PL/SQL 书写 的 过 程 化 代 
码 的 内 部 表示 的 共享 能 力 。 当 多 个 用 户 执行 相同 的 SQL 语句 时 ， 他 们 能 共享 表示 该 语句 执行 计 
划 的 大 多 数 数 据 结构 。 只 有 每 个 语句 调用 的 局 部 数据 才 需 要 放 在 私有 内 存 中 。 

表示 SQL 语句 的 数据 结构 中 的 可 共享 部 分 (包括 语句 文本 ) 存放 在 共享 池 中 。 在 共享 池 中 
高 速 缓存 SQL 语句 也 节约 编译 时 间 ， 因 为 对 已 被 高 速 缓存 的 语句 的 新 调用 不 必 进 行 完 整 的 编译 
过 程 。 判 断 SQL 语句 是 否 与 共享 池 中 所 存放 的 SQL 语句 相同 ， 是 基于 精确 的 文本 匹配 和 设置 特 
定 的 会 话 参数 来 进行 的 。Oracle 能 够 用 绑 定 变量 来 自动 替换 SQL 语句 的 常量 ; 若 以 后 的 查询 除 
了 常量 值 外 都 与 共享 池 中 以 前 的 查询 是 一 样 的 ， 则 它们 匹配 。 

共享 池 还 高 速 缓存 了 字典 信息 和 各 种 控制 结构 。 高 速 缓存 字典 元 数据 对 缩短 SQL 语句 的 编 
译 时 间 很 重要 。 另 外 ， 共 享 池 用 于 Oracle 的 结果 高 速 缓存 特性 。 


28. 6.2 专用 服务 器 : 进程 结构 


执行 Oracle 服务 器 代码 的 进程 有 两 种 : 执行 SQL 语句 的 服务 器 进程 ， 执 行 各 种 管理 以 及 与 性 能 相 [1184 


关 任 务 的 后 台 进 程 。 这 些 进程 中 有 些 是 可 选 的 ， 在 某 些 情况 下 ， 相 同类 型 的 多 个 进程 可 用 于 性 能 因素 。 
Oracle 能 够 生成 大 约 24 个 不 同类 型 的 后 台 进程 。 一 些 最 重要 的 后 台 进 程 有 : 
© 数据 库 写 ( database writer) 进程 。 当 一 个 缓冲 区 从 缓冲 区 高 速 缓 存 中 移出 时 ， 如 果 自 从 它 进 入 高 
速 缓存 以 来 已 经 改动 过 ， 那 么 它 必须 写 回 到 磁盘 中 。 这 个 任务 就 由 数据 库 写 进程 来 执行 。 通 过 
释放 缓冲 区 高 速 缓存 中 的 空间 ， 有 利于 提高 系统 性 能 。 
e AAS (log writer) 进程。 日 志 写 进程 把 redo 日 志 缓 冲 区 中 的 项 写 到 磁盘 上 的 redo 日 志文 件 中 
每 当 一 个 事务 提交 时 ， 它 还 把 一 条 提交 记录 写 到 磁盘 上 。 
e 检查 点 (checkpoint) 进程 。 当 出 现 检查 点 时 ， 检 查 点 进程 更 新 数据 文件 头 。 
© 系统 监控 (system monitor) 进程 。 该 进程 在 必要 时 执行 月 溃 恢 复 。 它 还 执行 一 些 空间 管理 ， 回 收 


临时 段 中 未 使 用 的 空间 。 
。 进程 监控 ( process monitor) 进程 。 该 进程 为 失败 的 服务 器 进程 执行 进程 恢复 ， 释 放 资 源 并 执行 各 
种 清理 操作 。 


© 恢复 (recoverer) 进 程 。 恢 复 进 程 处 理 失 效 ， 并 为 分 布 式 事务 执行 清理 。 
e 归档 (archiver) 进 程 。 每 当 在 线 日 志文 件 写 满 后 ， 归 档 进程 把 在 线 redo 日 志文 件 复制 为 归档 redo 
日 志 。 
28.6.3 ”共享 服务 器 
通过 在 语句 之 间 共 享 服务 器 进程 ， 共 享 服务 器 配置 增加 了 给 定数 量 的 服务 器 进程 能 够 支持 的 用 户 
数量 。 它 与 专用 服务 器 体系 结构 主要 在 以 下 这 些 方面 有 所 不 同 : 
。 一 个 后 台 分 派 进程 把 用 户 请 求 路 由 给 下 一 个 可 用 服务 器 进程 。 在 这 么 做 时 ， 它 使 用 了 SGA 中 的 
一 个 请 求 队列 和 一 个 响应 队列 。 分 派 进程 把 新 的 请 求 放 到 请 求 队列 中 ,服务 器 进程 可 以 从 中 选 
取 请 求 。 当 一 个 服务 进程 完成 某 个 请 求 时 ， 它 把 结果 放 到 响应 队列 中 ， 分 派 进程 可 从 中 选取 结 
果 并 返回 给 用 户 。 
© 由 于 一 个 服务 器 进程 在 多 条 SQL 语句 间 共 享 Oracle 并 不 在 PGA 中 保留 私有 数据 。 相 反 ， 它 把 
会 话 相 关 的 数据 存放 在 SGA 中 。 
28.6.4 Oracle Real Application Clusters 


Oracle Real Application Clusters( RAC, Oracle 真实 应 用 集群 ) 特 性 允许 在 同一 个 数据 库 上 运行 多 个 
Oracle 实例 (回想 一 下 ， 在 Oracle 术语 中 ,实例 是 后 台 进 程 和 内 存 区 域 的 结合 ) 。 这 个 特性 使 得 Oracle 
能 够 在 集群 和 MPP( 共享 磁盘 和 无 共享 ) 的 硬件 体系 结构 上 运行 。 将 多 个 结 点 集群 起 来 的 能 力 大 大 提高 
了 可 扩展 性 和 可 用 性 ， 这 在 联机 事务 处 理 和 数据 仓库 环境 中 都 很 有 用 。 
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这 个 特性 的 可 扩展 性 优点 是 很 明显 的 ， 因 为 越 多 的 结 点 意味 着 越 强 的 处 理 能 力 。 在 无 共享 体系 结 
构 中 ， 向 一 个 集群 添加 结 点 通常 需要 在 结 点 间 重 新 分 配 数据 。Oracle 使 用 了 共享 磁盘 体系 结构 ， 其 中 
所 有 结 点 都 能 访问 所 有 数据 ， 因 此 可 以 添加 更 多 结 点 到 RAC 集群 中 ， 而 无 需 担 心 怎样 在 结 点 间 划 分 数 
据 。Oracle 通过 诸如 邻近 关系 和 按 划分 连接 这 样 的 特性 进一步 优化 了 对 硬件 的 使 用 。 

RAC 也 用 来 获得 高 可 用 性 。 如 果 一 个 结 点 失效 ， 应 用 程序 仍 可 利用 剩余 结 点 来 访问 数据 库 。 剩 余 
实例 将 自动 回 滚 在 失效 结 点 上 正 被 处 理 的 未 提交 事务 ， 以 防 它们 阻碍 剩余 结 点 上 的 活动 。RAC 还 允许 
滚动 地 打 补 丁 ， 所 以 每 次 可 以 将 软件 补丁 应 用 到 一 个 结 点 上 而 无 需 数据 库 停机 。 

Oracle 的 共享 磁盘 体系 结构 避免 了 无 共享 体系 结构 在 关于 磁盘 上 的 数据 要 么 对 结 点 是 本 地 的 ， 要 
么 不 是 这 个 方面 所 存在 的 许多 问题 。 在 同一 个 数据 库 上 运行 多 个 实例 还 带 来 了 一 些 在 单 实例 情况 下 所 
不 存在 的 技术 问题 。 虽 然 有 时 可 能 将 一 个 应 用 在 多 个 结 点 间 进 行 划分 ， 以 使 各 结 点 很 少 访问 同一 数据 ， 
但 总 有 重合 的 可 能 性 ， 这 会 影响 高 速 缓存 管理 。 为 了 实现 在 多 个 结 点 上 有 效 的 高 速 缓存 管理 ，Oracle 
的 高 速 缓存 融合 ( cache fusion) 特 性 允许 数据 块 使 用 内 部 连接 直接 在 不 同 实例 的 高 速 缓存 之 间 流 动 ， 而 
不 用 写 到 磁盘 上 。 

28.6.5 自动 存储 管理 器 

自动 存储 管理 器 ( Automatic Storage Manager, ASM) 是 Oracle 开发 的 一 个 容量 管理 器 和 文件 系统 。 
虽然 Oracle 可 以 与 其 他 容量 管理 器 和 文件 系统 以 及 原始 设备 一 起 使 用 ， 然 而 ASM 在 优化 性 能 的 同时 是 
为 Oracle 数据 库 特 别 设 计 的 用 于 简化 存储 管理 的 。 

ASM 管理 磁盘 的 集合 ， 称 为 磁盘 组 ( disk group) ， 并 对 数据 库 开 放 了 一 个 文件 系统 接口 。( 记 住 
Oracle 的 表 空 间 是 用 数据 文件 定义 的 。) 组 成 ASM 磁盘 的 实例 包括 磁盘 或 磁盘 阵列 的 分 区 、 逻 辑 卷 和 网 
络 附属 文件 。ASM 将 数据 自动 拆 分 到 一 个 磁盘 组 中 的 磁盘 上 ， 并 为 不 同 层次 的 镜像 提供 若干 选择 

如 果 磁 盘 配 置 改变 了 ， 比 如 ， 为 增加 存储 容量 而 加 入 更 多 磁盘 时 ， 磁 盘 组 可 能 需要 重新 平衡 以 使 


[86] 数据 均匀 分 布 在 所 有 磁盘 上 。 重 新 平衡 操作 可 以 在 数据 库 保 持 完全 操作 的 同时 在 后 台 完 成 ， 并 且 对 数 





据 库 性 能 的 影响 最 小 。 
28. 6.6 Oracle Exadata 

Exadata 是 一 组 可 以 运行 在 特定 类 型 存储 硬件 上 的 存储 器 阵列 CPU 上 的 Oracle 的 库 。 虽 然 Oracle 根 
本 上 基于 共享 磁盘 体系 结构 ，Exadata 在 如 下 方面 具有 无 共享 的 风格 : 某 些 通常 在 数据 库 服务 器 上 执行 
的 操作 被 移 到 那些 只 能 访问 自己 本 地 数据 的 存储 单元 上 。( 每 个 存储 单元 由 多 个 磁盘 和 一 些 多 核 CPU 
组 成 ,) 

将 特定 类 型 的 处 理 过 程 印 载 到 存储 器 CPU 的 主要 好 处 包括 : 

© 它 允 许 对 可 用 的 处 理 能 力 的 量 进行 大 的 但 相对 经 济 的 扩展 。 

© 极 大 减少 了 需要 从 存储 单元 传送 到 数据 库 服 务 器 的 数据 量 ， 这 是 非常 重要 的 ， 因 为 存储 单元 和 

数据 库 服 务 器 之 间 的 带宽 通常 是 昂贵 的 ， 并 常常 是 一 个 瓶颈 。 
当 在 Exadata 存储 器 上 执行 查询 时 ， 需 要 检索 的 数据 量 减 少 了 ， 这 得 益 于 若干 可 以 推送 到 存储 单元 
并 在 其 本 地 执行 的 技术 : 
© 投影 (projection) 。 一 个 表 可 以 有 几 百 个 列 ， 但 一 个 给 定 查询 可 能 只 需要 访问 它们 的 一 个 很 小 的 
子 集 。 存 储 单元 可 以 投影 掉 不 需要 的 列 且 只 将 相关 的 列 发 送 回 数据 库 服务 器 。 

© RI (table filtering) 。 数 据 库 服务 器 可 以 给 存储 单元 发 送 一 个 针对 表 的 谓词 列表 ， 且 只 将 匹 
配 这 些 谓词 的 行 回 传 给 服务 器 。 

© 连接 过 滤 (join filtering) 。 过 滤 机 制 允许 使 用 布 降 过 滤器 (Bloom filter) 形 式 的 谓词 ， 它 还 可 以 基 
于 连接 条 件 将 行 过 滤 掉 。 

总 地 来 说 ， 将 这 些 技术 印 载 到 存储 单元 可 以 在 数量 级 上 加 速 查 询 处 理 。 它 需要 存储 单元 除了 可 以 
将 常规 的 、 未 修改 的 数据 块 传 回 给 服务 器 ， 还 可 以 传 回 特定 行 和 列 被 移 除 的 压缩 版 本 。 这 种 能 力 反 过 
来 要 求 存 储 软 件 能 够 理解 Oracle 的 块 格式 和 数据 类 型 ， 并 包含 Oracle 的 表达 式 和 谓词 计算 例 程 。 

除了 给 查询 处 理 提供 好 处 之 外 ，Exadata 也 可 以 通过 执行 块 级 别 的 修改 追踪 并 只 返回 修改 过 的 块 来 
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加 速 增 量 备份 。 当 创建 一 个 新 的 表 空 间 时 ， 盘 区 的 格式 化 工作 也 被 卸载 给 了 Exadata 存储 器 。 
Exadata 存储 器 支持 所 有 的 Oracle 常规 特性 ， 一 个 数据 库 可 以 同时 包含 Exadata 和 非 Exadata 存 
储 器 。 


28.7 复制、 分布 以 及 外 部 数据 


Oracle 提供 对 具有 两 阶段 提交 的 事务 的 复制 和 分 布 的 支持 。 
28.7.1 复制 

Oracle 支持 几 种 类 型 的 复制 。( 参 阅 19. 2. 1 节 关 于 复制 的 介绍 ,) 其 中 的 一 种 是 ， 主 站 点 的 数据 以 
物化 视图 的 形式 复制 给 其 他 站 点 。 物 化 视图 并 不 需要 包含 主 站 点 上 的 所 有 数据 ， 例 如 ， 它 会 由 于 安全 
因素 而 排除 表 中 的 特定 列 。Oracle 支持 两 种 类 型 的 物化 视图 用 于 复制 : 只 读 的 和 可 更 新 的 。 可 更 新 的 
物化 视图 可 以 修改 ， 并 将 修改 传播 到 主 站 点 上 的 表 。 但 只 读 的 物化 视图 允许 的 视图 定义 范围 更 广 。 比 
如 只 读物 化 视图 能 用 主 站 点 表 上 的 集合 操作 来 定义 。 对 主 站 点 数据 的 修改 通过 物化 视图 刷新 机 制 传 播 
到 副本 。 

Oracle 还 支持 同一 数据 有 多 个 主 站 点 ， 其 中 所 有 主 站 点 处 于 同等 地 位 。 被 复制 的 表 能 够 在 任何 一 
个 主 站 点 上 更 新 ， 并 将 此 更 新 传播 到 其 他 站 点 。 更 新 的 传播 可 以 是 同步 的 ， 也 可 以 是 异步 的 。 

对 于 异步 复制 ， 更 新 信息 成 批发 送 给 其 他 主 站 点 并 被 采用 。 由 于 相同 数据 可 以 被 不 同 站 点 修改 ， 
这 些 修 改 可 能 相互 冲突 ， 这 就 可 能 需要 基于 某 些 商务 规则 的 冲突 解决 策略 。Oracle 提供 了 许多 内 置 的 
冲突 解决 方法 ， 如 果 需 要 它 也 允许 用 户 书 写 他 们 自己 的 方法 。 

在 同步 复制 中 ,一 个 主 站 点 上 的 更 新 操作 马上 被 传播 到 所 有 的 其 他 站 点 。 
28.7.2 分布 式 数据 库 

Oracle 支持 跨越 多 个 在 不 同系 统 上 的 数据 库 的 查询 和 事务 。 通 过 网 关 的 使 用 ， 远 端 系 统 可 以 包括 
非 Oracle 数据 库 。Oracle 具有 内 置 的 功能 来 优化 包含 了 不 同 站 点 上 的 表 的 查询 、 检 索 相 关 数 据 并 返回 
结果 ， 就 好 像 这 是 个 标准 的 本 地 查询 一 样 。Oracle 还 通过 内 置 的 两 阶段 提交 协议 来 透明 地 支持 跨越 多 
个 站 点 的 事务 。 
28.7.3 外 部 数据 源 

Oracle 有 几 种 支持 外 部 数据 源 的 机 制 。 最 常见 的 用 途 是 在 数据 仓库 中 ， 从 事务 性 系统 定期 加 载 大 
量 数 据 。 

28.7.3.1 SQL* Loader 

Oracle 有 一 个 直接 加 载 工具 SQL "加载 器 (SQL ` Loader) ， 它 支持 从 外 部 文件 中 快速 并 行 加 载 大 量 数 
据 。 它 支持 很 多 种 数据 格式 ， 并 可 以 在 加 载 的 数据 上 进行 各 种 过 滤 操作 。 

28.7.3.2 外 部 表 

Oracle 允许 外 部 数据 源 ( 如 平面 文件 ) 像 普通 表 一 样 ， 在 查询 的 from 子 句 中 引用 。Oracle 通过 描述 
Oracle 列 类 型 以 及 从 外 部 数据 到 这 些 列 的 映射 的 元 数据 来 定义 外 部 表 ， 还 需要 访问 外 部 数据 的 访问 驱 
动 程序 。Oracle 为 平面 文件 提供 了 默认 的 驱动 程序 。 

外 部 表 特 性 主要 是 为 了 在 数据 仓库 环境 中 进行 抽取 、 转 换 和 加 载 (ETL) 操作 。 使 用 下 述 语 句 可 以 
将 数据 从 平面 文件 加 载 到 数据 仓库 中 : 


create table table as 
select... from < external table > 
where... 


通过 在 select 列表 或 where 子 句 中 添加 对 数据 的 操作 ， 转 换 和 过 滤 操 作 能 够 作为 同一 条 SQL 语句 
的 一 部 分 来 执行 。 由 于 这 些 操作 既 能 用 本 地 的 SQL 来 表达 ， 也 能 用 PL/SQL aX Java 书写 的 函数 来 表达 ， 
外 部 表 特 性 提供 了 非常 强大 的 机 制 来 表达 各 种 数据 转换 和 过 滤 操 作 - 至 于 可 扩展 性 ， 可 以 通过 Oracle 
的 并 发 执行 特性 来 将 外 部 表 的 访问 并 发 化 。 

28.7.3.3 数据 抽取 导出 和 导入 

Oracle 提供 了 一 个 导出 工具 来 把 数据 和 元 数据 御 载 到 转 储 文件 ， 这 些 文件 是 使 用 一 种 专 有 格式 的 
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普通 文件 ， 可 以 移动 到 另 一 个 系统 并 使 用 相应 的 导 人 工具 加 载 到 另 一 个 Oracle 数据 库 。 


28.8 数据库 管理 工具 


Oracle 为 用 户 提 供 了 一 系列 用 于 系统 管理 和 应 用 开发 的 工具 和 特性 。 在 最 近 发 布 的 Oracle H, Æ 
重 强调 了 可 管理 性 的 概念 ， 也 就 是 说 ， 减 少 创建 和 管理 Oracle 数据 库 的 各 个 方面 的 复杂 度 。 这 覆盖 许 
多 方面 的 努力 ， 包 括 数 据 库 创建 、 调 优 、 空 间 管 理 、 存 储 管理 、 备 份 与 恢复 、 内 存 管理 、 性 能 诊断 和 
工作 负载 管理 。 
28.8.1 Oracle 企业 管理 器 

Oracle 企业 管理 器 ( Oracle Enterprise Manager, OEM) 是 Oracle 用 于 数据 库 系统 管理 的 主要 工具 。 它 
提供 了 易于 使 用 的 图 形 化 用 户 界面 ， 支 持 与 管理 Oracle 数据 库 相 关 的 大 部 分 任务 ,包括 配置 、 性 能 监 
测 、 资 源 管理 、 安 全 管理 以 及 访问 各 种 向 导 。 除 了 数据 库 管理 ，OEM 还 提供 对 Oracle 应 用 和 中 间 件 软 
件 栈 的 集成 管理 。 


28.8.2 自动 工作 负载 存储 

自动 工作 负载 存储 (Automatic Workload Repository, AWR) 是 Oracle 实现 可 管理 性 的 基础 设施 的 核 
心 部 分 之 一 。Oracle 监控 数据 库 系统 上 的 活动 并 记录 与 工作 负载 和 资源 消耗 相关 的 各 种 信息 ， 并 按 定 
期 的 间隔 在 AWR 中 记录 它们 。 通 过 追踪 工作 负载 随时 间 变 化 的 特点 ，Oracle 可 以 检测 和 帮助 诊断 从 正 
常 行为 发 生 的 偏离 ， 如 一 个 查询 严重 的 性 能 退化 、 封 锁 竞 争 和 CPU 瓶颈 。 

在 AWR 中 记录 的 信息 为 各 种 向 导 提 供 了 基础 ， 这 些 向 导 提 供 对 系统 性 能 各 个 方面 的 分 析 以 及 如 
何 提高 性 能 的 建议 。Oracle 具有 SQL 调 优 的 向 导 、 创 建 访问 结构 (如 索引 和 物化 视图 ) 的 向 导 ， 以 及 内 
存 大 小 的 向 导 。Oracle 还 提供 段 碎 片 整理 和 undo 大 小 的 向 导 。 
28.8.3 ”数据 库 资源 管理 

数据 库 管 理 员 需要 能 够 控制 如 何在 各 个 用 户 或 用 户 组 之 间 分 配 硬件 的 处 理 能 力 。 某 些 组 可 能 执行 
交互 式 查询 ， 则 响应 时 间 很 关键 ; 另 一 些 组 可 能 执行 长 程 (long-running) 报 表 ， 它 可 以 在 系统 负载 低 
时 ， 作 为 后 台中 的 批 处 理工 作 运行 。 还 有 一 个 重要 方面 是 能 够 防止 用 户 不 小 心 提交 代价 特别 昂贵 的 即 
席 查 询 ， 这 样 的 查询 将 过 度 地 耽误 其 他 用 户 。 i 

Oracle 的 数据 库 资 源 管 理 特性 允许 数据 库 管理 员 把 用 户 划 分 成 资源 消费 者 组 ， 每 组 有 不 同 的 优先 
级 和 性 质 。 比 如 ， 高 优先 级 的 交互 式 用 户 组 可 以 保证 至 少 60% 的 CPU。 剩 下 的 CPU， 加 上 高 优先 级 组 
的 60% 中 没有 使 用 的 任何 部 分 ， 可 以 在 优先 级 较 低 的 资源 消费 者 组 之 间 进 行 分 配 。 真 正 很 低 优先 级 的 
组 可 以 只 分 配 0% 的 CPU， 这 就 意味 着 这 个 组 提交 的 查询 ， 只 能 在 有 空闲 的 CPU 周期 可 用 时 才能 运行 。 
可 以 为 各 个 组 设 定 并 行 执行 的 并 行 度 限制 。 数 据 库 管 理 员 还 能 为 每 个 组 的 一 条 SQL 语句 运行 多 长 时 间 
设 定时 间 限 制 。 当 用 户 提交 语句 时 ， 资 源 管理 器 估计 执行 这 条 查询 所 花费 的 时 间 ， 并 且 如 果 语 句 违反 
限制 就 返回 一 个 错误 。 资 源 管 理 器 还 能 为 每 个 资源 消费 者 组 限制 同时 活跃 的 用 户 会 话 数 量 。 资 源 管理 
器 可 以 控制 的 其 他 资源 包括 undo 空间 。 


28.9 数据 挖掘 


Oracle 数据 挖掘 ( Oracle data mining) 提供 了 一 系列 将 数据 挖 据 过 程 嵌 在 数据 库 内 部 的 算法 ， 既 可 以 
在 训练 数据 集 上 构建 模型 ， 也 可 以 将 该 模型 运用 到 对 实际 生产 数据 的 评分 中 。 与 使 用 其 他 数据 挖掘 引 
擎 相 比 ， 数 据 不 需要 离开 数据 库 是 一 个 重要 优势 。 将 潜在 很 大 的 数据 集 提 取出 来 并 插 人 到 一 个 单独 的 
引 敬 中 ， 不 仅 很 麻烦 且 代 价 昂贵 ,还 可 能 阻碍 当 新 数据 进入 数据 库 时 就 即时 对 它们 进行 评分 。Oracle 
提供 用 于 有 指导 的 学 习 和 无 监督 指导 的 算法 ,包括 : 

© 分 类 一 一 朴素 贝 叶 斯 、 广 义 线性 模型 、 支 持 向 量 机 和 决策 树 。 

© 回归 一 一 支持 向 量 机 和 广义 线性 模型 。 

。 属性 重要 性 分 析 一 一 最 小 描述 长 度 。 

© 异常 检测 一 一 一 类 支持 向 量 机 。 
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© 聚 类 一 一 增强 的 k 均值 聚 类 和 正 交 的 划分 聚 类 。 

© 关联 规则 一 一 Apriori。 

© 特征 提取 一 一 非 负 的 矩阵 分 解 。 

另外 ，Oracle 在 数据 库 内 部 提供 了 一 系列 的 统计 函数 ， 涵 盖 的 领域 包括 线性 回归 、 关 联 、 交 叉 表 、 
假设 检验 、 分 布 拟 合 和 Pareto 分 析 。 

Oracle 为 数据 挖掘 功能 提供 两 个 界面 ， 一 个 基于 Java， 另 一 个 基于 Oracle 的 过 程 性 语言 PL/SQL, 
一 旦 在 Oracle 数据 库 上 创建 了 一 个 模型 ， 它 可 以 转移 部 署 到 其 他 Oracle 数据 库 上 


文献 注解 
有 关 Oracle 产品 的 最 新 产品 信息 ,包括 相关 文档 ,都 可 以 在 以 下 Web 站 点 找到 : http: // 
www. oracle. com 和 http; //technet. oracle. com, [191] 


Oracle 用 于 为 操作 (如 散 列 和 排序 ) 分 配 可 用 内 存 的 智能 算法 在 Dageville 和 Zait [2002 | 中 讨论 ，Murthy 
和 Banerjee[ 2003 ] 讨论 了 XML 模式 。Pass 和 Potapov[ 2003 | 描述 了 Oralce 中 的 表 压 缩 。Dageville 等 [2004 | i} 
述 了 自动 的 SQL 调 优 。 优 化 器 的 基于 代价 的 查询 转换 框架 在 Ahmed 等 [2006 | 中 介绍 。Ziauddin 4 [ 2008 ] 讨 
论 了 SQL 计划 管理 特性 。Antoshenkov [ 1995 ] 描述 了 Oracle 中 使 用 的 字 节 对 齐 位 图 压缩 技术 ， 也 可 以 查阅 
Johnson[ 1999 ] 。 [1192 
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IBM 公司 的 DB2 Universal Database 产品 家 族 包 括 旗舰 数据 库 服务 器 和 成 套 的 用 于 商务 智能 、 信 息 
集成 和 内 容 管理 的 相关 产品 。DB2 Universal Database Server 可 用 于 多 种 硬件 和 操作 系统 平台 上 。 它 支持 
的 服务 器 平台 包括 诸如 大 型 主机 、 大 规模 并 行 处 理 器 (MPP) 和 大 型 对 称 多 处 理 器 (SMP) 服务 器 这 样 的 
高 端 系统 ; 诸如 四 路 和 八路 SMP 这 样 的 中 等 规模 系统 ; 工作 站 ; 甚至 小 型 手持 设备 。 它 支持 的 操作 系 
统 包括 UNIX 变 体 ， 如 Linux, IBM AIX, Solaris 和 HP-UX， 以 及 Microsoft Windows, IBM MVS, IBM 
VM, IBM 0S/400 和 许多 其 他 操作 系统 。DB2 Everyplace 版 本 支持 诸如 PalmOS 和 Windows CE 这 样 的 操 
作 系 统 。 甚 至 有 一 个 免费 的 DB2 版 本 ， 称 为 DB2 Express-C。 因 为 DB2 接口 和 服务 具有 可 移植 性 ， 应 用 
程序 可 以 从 低 端 平台 无 颖 移植 到 高 端 服务 器 。 除 了 核心 数据 库 引 警 外 ，DB2 家 族 还 包括 一 些 其 他 产品 ， 
提供 工具 、 管 理 、 复 制 、 分 布 式 数据 访问 、 普 适 数 据 访 问 、OLAP 和 许多 其 他 特性 。 图 29-1 描述 了 这 
个 家 族 的 不 同 产品 。 





“数据 库 服务 器 。* 内 容 管理 
-DB2 UDB for Linux, Unix, Windows —DB2 Content Manager 
-DB2 UDB for z/OS -IBM Enterprise Content Manager 
-DB2 UDB for OS/400 。 应 用 开发 
TURR Skee -IBM Rational Application 
* 商 务 智能 Developer Studio 
-DB2 Data Warehouse Edition -DB2 Forms for z/OS 
-DB2 OLAP Server -QMF 
-DB2 Alphablox 。 数 据 库 管理 工具 
-apevViews -DB2 Control Center 
人 EN -DB2 Admin Tool for z/OS 
-DB2 Query Patroller -DB2 Performance Expert 
“数据 集成 -DB2 Query Patroller 
-DB2 Information Integrator -DB2 Visual Explain 
-DB2 Connect -DB2e (Everyplace) 
-Omnifind (For Enterprise Search) 











29-1 DB2 产品 家 族 


29.1 概述 


DB2 的 起 源 可 以 追溯 到 TBM 的 Almaden 研究 中 心 ( 当时 称 作 IBM San Jose 研究 实验 室 ) 的 System R 
项 目 。 第 一 个 DB2 产品 是 1984 年 在 IBM 大 型 主机 平台 上 发 布 的 ， 随 后 运行 于 其 他 平台 的 版 本 陆续 发 
布 。IBM 研究 成 果 在 下 述 领域 不 断 改进 DB2 产品 : 事务 处 理 ( 先 写 日 志和 ARIES 恢复 算法 ) 、 查 询 处 理 
和 优化 (Starburst) 、 并 行 处 理 (DB2 并 行 版 本 ) 、 主 动 数据 库 支 持 ( 约束 和 触发 器 ) 、 高 级 查询 和 数据 仓 
库 技术 ， 例 如 物化 视图 、 多 维 聚 类 、“ 自 主 " 特性 和 对 象 -关系 支持 (ADT、UDF ) 。 

因为 IBM 支持 很 多 服务 器 和 操作 系统 平台 ，DB2 数据 库 引擎 由 四 种 代码 基本 类 型 组 成 : (1) Linux, 
UNIX 和 Windows，(2)z/0S$S，(3)VM，(4) 0S/400。 它 们 都 支持 一 个 共同 的 数据 定义 语言 SQL 和 管理 
接口 的 子 集 。 然 而 ， 由 于 这 些 引 警 的 平台 起 源 不 同 ， 它 们 多 少 存在 一 些 不 同 的 特征 。 本 章 重 点 集中 在 
支持 Linux, UNIX 和 Windows 的 DB2 Universal Database( UDB) 引 警 。 在 其 他 DB2 系统 中 有 意思 的 特定 
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特性 在 合适 的 章节 中 强调 。 

到 2009 年 为 止 ， 支 持 Linux, UNIX 和 Windows 的 DB2 UDB 的 最 新 版 本 是 版 本 9.7. DB2 9.7 版 本 
包括 若干 新 的 特性 ， 如 将 XML 的 原生 支持 扩展 到 无 共享 环境 、 对 表 和 索引 的 本 机 压缩 、 自 动 存储 管理 
和 对 过 程 化 语言 (如 SQL PL 和 Oracle 的 PL/SQL) 改进 的 支持 。 


29.2 数据 库 设 计 工 具 


大 多 数 工业 数据 库 设 计 和 计算 机 辅助 软件 工程 (CASE) 工 具 都 可 以 用 来 设计 DB2 数据 库 。 特 别 地 ， 
诸如 ERWin 和 Rational Rose 这 样 的 数据 建 模 工具 允许 设计 者 生成 DB2 特有 的 DDL 语法 。 比 如 ， 
Rational Rose 的 UML Data Modeler 工具 可 以 为 用 户 定义 类 型 生成 DB2 特有 的 create distinct type DDL 语 
句 ， 并 可 以 在 随后 的 列 定 义 里 使 用 。 大 部 分 设计 工具 还 支持 逆向 工程 特性 ， 读 取 DB2 的 目录 表 并 为 附 
加 操作 建立 逻辑 设计 。 这 些 工具 支持 约束 和 索引 的 生成 。 

DB2 使 用 SQL 提供 了 对 许多 逻辑 的 和 物理 的 数据 库 特 性 的 支持 。 这 些 特 性 包括 使 用 约束 、 刊 
发 器 和 SQL 构造 的 递归 。 类 似 地 ， 通 过 使 用 SQL 语句 还 支持 一 些 物 理 数据 库 特 性 ， 比 如 表 空 间 、 
缓冲 池 以 及 分 区 。 DB2 的 控制 中 心 的 图 形 化 用 户 界 面 (The Control Center GUI) 工具 允许 设计 者 或 
管理 员 为 这 些 特性 发 布 恰当 的 DDL。 另 一 个 工具 叫 db2look， 人 允许 管理 员 获 得 一 整套 数据 库 DDL 
语句 ， 包 括 表 空间 、 表 、 索 引 、 约 束 、 触 发 器 以 及 为 测试 或 复制 而 创建 精确 的 数据 库 模式 副本 而 
使 用 的 函数 。 

DB2 控制 中 心包 括 多 种 与 设计 和 管理 相关 的 工具 。 对 于 设计 ， 控 制 中 心 提供 了 服务 器 及 其 数据 库 、 
表 、 视 图 和 所 有 其 他 对 象 的 树 状 视图 。 它 还 允许 用 户 定义 新 的 对 象 ， 创 建 即 席 的 SQL 查询 并 查看 查询 
结果 。ETL、OLAP、 复 制 和 联邦 的 设计 工具 也 整合 在 控制 中 心中 。 整 个 DB2 家 族 都 支持 用 于 数据 库 定 
义 和 相 关 工 具 的 控制 中 心 。DB2 还 为 使 用 IBM Rational Application Developer 产品 和 Microsoft Visual 
Studio 产品 开发 的 应 用 提供 插件 模块 。 


29.3 SQL 的 变化 和 扩展 


DB2 为 数据 库 处 理 的 各 个 方面 提供 丰富 的 SQL 特性 集 。 许 多 DB2 特性 和 语法 为 SQL-92 或 
SQL-1999 标 准 提供 了 基础 。 在 本 节 中 ， 我们 强调 在 DB2 的 UDB 版 本 8 中 的 XML 对 象 -关系 和 应 用 集 
成 特性 ， 还 有 一 些 来 自 版 本 9 的 新 特性 。 

29. 3.1 XML 特性 

DB2 中 已 包含 了 丰富 的 XML 函数 集 。 下 面 列 出 了 几 个 可 以 用 在 SQL 中 的 重要 的 XML PRK, PEW 
对 SQL 扩展 的 SQLAXML( 在 前 面 23. 6. 3 节 中 介绍 过 的 ) 的 一 部 分 : 

。 xmlelement。 用 给 定名 称 构建 元 素 标记 。 例 如 函数 调用 xmlelement( book) 创建 了 book 元 素 

e xmlattributes。 给 元 素 构建 属性 集合 。 

e xmlforest。 通 过 变 元 构建 一 个 XML 元 素 序 列 。 

è Xmlconcat。 返 回 可 变数 量 的 XML 变 元 的 串 接 。 

e xmlserialize。 提 供 变 元 的 面向 字符 的 序列 化 版 本 。 

。 xmlagg。 返 回 一 组 XML 值 的 串 接 。 

e xml2clob。 构 建 XML 的 字符 大 对 象 (clob ) 表示 。 然 后 这 个 clob 可 以 被 SQL 应 用 检索 

XML 柄 数 可 以 高 效 地 合并 在 SQL 中 ， 以 提供 扩展 的 XML 操纵 能 力 。 例 如 ， 假 设 有 人 需要 从 关系 
K orders, lineitem 和 product 为 第 349 号 订单 创建 购买 - 订单 的 XML 文档 。 在 图 29-2 中 我 们 给 出 了 用 来 
创建 这 样 一 份 购买 订单 的 带 XML 扩展 的 SQL 查询 。 结 果 输 出 如 图 29-3 所 示 。 


1193 
1194 
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| select xmlemement(name ‘PO’, 

xmlattributes(poid, orderdate), 

(select xmlagg(xmlelement(name ‘item’, 

| xmlattributes(itemid, qty, shipdate), 
(select xmlelement(name ‘itemdesc’, 

xmlattributes(name, price)) 
from product 
where product.itemid = lineitem.itemid))) 
from lineiteni 

| where /ineitem.poid = orders.poid)) 

| from orders 

| where orders.poid= 349; 





图 29-2 DB2 SQL XML 查询 





<PO poid = "349" orderdate = "2004-10-01"> 
<item itemid="1", qty="10", shipdate="2004-10-03"> 
<itemdesc name = "IBM ThinkPad T41", Price = "1000.00 USD"/> 
</item> 

</PO> 





29-3 id =349 的 XML 形式 的 购买 订单 


DB2 的 版 本 9 以 xml 类 型 的 形式 支持 XML 数据 的 本 地 存储 以 及 对 XQuery 语言 的 原生 支持 ， 引 入 
了 专门 的 存储 、 索 引 、 查 询 处 理 和 优化 技术 来 有 效 地 处 理 XML 数据 和 用 XQuery 语言 书写 的 查询 ， 并 
扩展 列 API 以 处 理 XML 数据 和 XQuery, 
29.3.2 ”数据 类 型 的 支持 

DB2 提供 对 用 户 自 定义 数据 类 型 (UDT) 的 支持 。 用 户 可 以 定义 distinct 或 structured 数据 类 型 
distinct 数据 类 型 是 基于 DB2 内 置 数据 类 型 的 。 但 是 ， 用 户 可 以 为 这 些 新 的 类 型 定义 附加 的 或 替代 的 语 
义 。 比 如 ， 用 户 可 以 使 用 下 述 语句 定义 一 个 名 为 us_dollar 的 distinct 数据 类 型 : 

create distinct type us_dollar as decimal(9, 2) ; 

接 下 来 ， 此 用 户 可 以 在 一 个 表 中 用 us_dollar 类 型 来 创建 一 个 字段 ( 比如 price) 。 查 询 现 在 可 以 在 谓词 中 
使 用 这 个 类 型 的 字段 ， 如 下 所 示 : 


select product from us_sales 
where price > us_dollar (1000) ; 


structured 数据 类 型 是 通常 由 两 个 或 多 个 属性 组 成 的 复杂 对 象 。 例 如 ， 可 以 用 下 面 的 DDL 来 创建 名 
为 department_t 的 structured 类 型 : 


create type department_t as 
( deptname varchar (32) , 
depthead varchar (32) , 
faculty_count integer ) 
mode db2/sql; 


create type point_t as 
(x_coord float, 
y_coord float) 
mode db2/sql ; 


structured 类 型 可 用 于 定义 有 类 型 (typed ) 的 表 : 
create table dept of department_t; 
可 以 创建 一 个 类 型 层次 和 层次 中 继承 特定 方法 和 权限 的 表 。structured 类 型 还 可 用 于 在 表 的 列 中 定 
义 艇 套 属 性 。 尽 管 这样 的 定义 会 破坏 规范 化 准则 ,但 是 它 可 能 适合 于 面向 对 象 的 应 用 ， 这 些 应 用 依赖 
于 对 象 上 的 封装 和 定义 良好 的 方法 。 
29.3.3 ”用 户 自 定义 函数 和 方法 
另 一 个 重要 特性 是 用 户 可 以 定义 他 们 自己 的 函数 和 方法 的 能 力 。 随 后 这 些 函 数 可 以 用 在 SQL 语 
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句 和 查询 中 。 函 数 可 以 生成 标量 ( 单 属性 ) 或 表 ( 多 属性 行 ) 作为 它们 的 结果 。 用 户 可 以 用 create 
function 语句 注册 函数 (标量 的 或 是 表 的 ) 。 可 以 用 普通 的 程序 设计 语言 ，( 比 如 C 或 Java) 或 是 诸如 

REXX 或 PERL 那样 的 脚本 来 书写 函数 。 用 户 自 定 义 函 数 (UDF) 可 以 在 保护 (fenced ) 或 非 保 护 
(unfenced) 模式 下 操作 。 在 保护 模式 下 ， 函 数 由 一 个 单独 线程 在 它 自己 的 地 址 空间 中 执行 。 在 非 保 |1196 
护 模 式 下 ， 数 据 库 处 理 代理 允许 在 服务 器 地 址 空间 执行 函数 。UDF 可 以 定义 一 个 便签 本 (工作 ) 区 ， ha 
用 以 维护 跨越 不 同调 用 的 局 部 和 静态 变量 。 这 样 ，UDF 可 以 对 作为 其 输入 的 中 间 行 进行 有 效 的 操作 。 

在 图 29-4 中 ， 我 们 展示 了 DB2 中 的 一 个 名 为 db2gse. GsegeFilterDist 的 UDF 定义 ， 它 指向 一 个 特定 的 
执行 实际 功能 的 外 部 方法 。 


create function db2gse.GsegeFilterDist ( 
operation integer, g1XMin double, g1XMax double, 
g1YMin double, g1 YMax double, dist double, 
g2XMin double, ¢2XMax double, g2YMin double, 
g2YMax double ) 
| returns integer 
| specific db2gse.GsegeFilterDist 
external name ‘db2gsefn!gsegeFilterDist’ 
language C 
parameter style db2 sql 





deterministic 

not fenced 

threadsafe 

called on null input 
| no sql 

no external action 

no scratchpad 

no final call 

allow parallel | 

no dbinfo; | 


图 29-4 一 个 UDF 的 定义 


方法 是 定义 对 象 行为 的 另 一 种 特性 。 与 UDF 不 同 ， 它 们 用 特定 结构 的 数据 类 型 紧密 封装 。 通 过 使 
用 create method 语句 来 注册 方法 。 

DB2 同样 支持 对 SQL 的 过 程 化 扩展 ， 使 用 的 是 DB2 的 SQL PL 扩展 ， 包 括 过 程 、 函 数 和 控制 流 。 
(SQL 标准 的 过 程 化 特性 在 5. 2 节 中 介绍 过 ,) 另 外 ， 到 版 本 9.7 为 止 , 为 了 兼容 在 Oracle 上 开发 的 应 
用 ，DB2 还 支持 很 多 Oracle 的 PL/SQL 语言 。 

29.3.4 KHR 

新 的 数据 库 应 用 需要 操纵 文本 、 图 像 、 视 频 以 及 其 他 类 型 数据 的 能 力 ， 这 些 数 据 通常 是 相当 大 的 
数据 。DB2 通过 提供 三 种 不 同 的 大 对 象 (LOB ) 类 型 来 满足 这 些 需 求 。 每 个 LOB 可 以 有 2GB 的 大 小 。 
DB2 中 的 大 对 象 是 : (1) 二 进 制 大 对 象 (blob) ，(2) 单 字 节 字符 大 对 象 (clob) ，(3 ) 双 字 节 字 符 大 对 象 
(dbclob) 。DB2 将 这 些 LOB 作为 单独 的 对 象 来 组 织 ， 在 表 的 每 行 维护 指向 其 对 应 LOB 的 指针 。 根 据 应 [1198] 
用 需求 ， 用 户 可 以 注册 操纵 这 些 LOB 的 UDF, 

29. 3.5 索引 扩展 和 约束 

DB2 新 近 的 一 个 特性 允许 用 户 使 用 create index extension 语句 将 创建 索引 扩展 到 从 structured 数据 
类 型 生成 的 码 上 。 比 如 ， 使 用 部 门 名 称 ， 通 过 生成 码 ， 用 户 可 以 在 基于 先前 定义 的 department_t 数据 类 
型 的 属性 上 创建 索引 。DB2 的 空间 扩展 器 使 用 索引 扩展 方法 来 创建 如 图 29-5 所 示 的 索引 。 

最 后 ， 用 户 可 以 利用 DB2 中 丰富 的 约束 检查 特性 集 来 增强 对 象 语义 ， 如 唯一 性 、 有 效 性 和 继承 。 
29. 3.6 Web 服务 

DB2 可 以 将 Web 服务 集成 为 生产 者 或 消费 者 。 利 用 SQL 语句 ， 可 以 定义 一 个 Web 服务 来 调用 
DB2。DB2 中 内 置 的 Web 服务 引擎 可 处 理 作为 结果 的 Web 服务 调用 ， 并 生成 适当 的 SOAP 响应 。 例 如 ， 
如 果 一 个 叫做 GetRecentActivity ( cust_id) 的 Web 服务 调用 了 下 述 SQL， 结 果 应 该 是 该 用 户 最 后 的 事务 。 
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create index extension db2gse.spatial_index( 
gS1 double, ¢S2 double, 253 double) 

from source key(geometry db2gse.ST_Geometry) 

generate key using 
db2gse.GseGridldxKeyGen(geometry..srid, 
geometry..xMin, geometry..xMax, | 
geometry..yMin, geometry..yMax, | 
gS1, 852, 853) | 


with target key(srsid integer, | 
lvl integer, gX integer, gY integer, xMin double, | 
xMax double, yMin double, yMax double) ~ 


search methods <conditions> <actions> | 





图 29-5 DB2 中 的 空间 索引 扩展 
select trn_id, amount, date 


from transactions 
where cust_id = <input > 
order by date 
fetch first 1 row only ; 
下 面 的 SQL 显示 了 DB2 作为 Web 服务 的 消费 者 的 情况 。 在 这 个 例子 中 ， 用 户 自 定义 函数 GetQuote( ) 
是 一 个 Web 服务 。DB2 使 用 内 置 的 Web 服务 引擎 来 生成 Web 服务 调用 。 在 这 个 例子 中 ，GetQuote 对 
portfolio 表 中 每 个 ticker_id 返回 一 个 数值 型 的 报价 值 。 
select ticker_id, GetQuote( ticker_id) 
from portfolio: 
29. 3.7 其 他 特性 
通过 定义 合适 的 UDF, DB2 还 支持 IBM 的 Websphere MQ 产品 。 读 和 写 接口 都 可 用 UDF 来 定义 。 
这 些 UDF 可 以 并 入 SQL 中 ， 以 对 消息 队列 执行 读 或 者 写 。 
从 版 本 9 开始 ，DB2 支持 通过 基于 标记 的 访问 控制 特性 进行 细 粒 度 的 授权 ， 其 作用 类 似 于 Oracle 
的 虚拟 私有 数据 库 ( 在 前 面 9. 7.5 节 讲 述 过 ) 。 


29.4 存储 和 索引 


DB2 中 的 存储 和 索引 体系 结构 包括 文件 系统 或 磁盘 管理 层 、 管 理 缓冲 池 的 服务 、 数 据 对 象 ( 比如 
表 ) 、LOB 、 索 引 对 象 以 及 并 发 和 恢复 管理 器 。 在 这 一 节 中 我 们 概览 通用 的 存储 体系 结构 。 另 外 ， 在 下 
一 节 中 我 们 描述 DB2 版 本 8 的 一 个 新 的 特点 ， 叫 做 多 维 聚 集 。 


29.4.1 存储 体系 结构 

DB2 为 管理 逻辑 数据 库 表 提供 的 存储 抽象 在 多 结 点 和 多 磁盘 环境 中 很 有 用 。 在 多 结 点 系统 中 可 以 
定义 结 点 组 来 支持 在 特定 结 点 集 上 的 表 划 分 。 这 使 得 在 将 表 分 区 分 配给 系统 中 不 同 结 点 时 具有 完全 的 
灵活 性 。 比 如 ， 大 表 可 能 划分 到 系统 中 的 所 有 结 点 上 ， 而 小 表 可 能 只 驻 留 在 单个 结 点 上 。 

在 一 个 结 点 内 ，DB2 使 用 表 空 间 来 组 织 表 。 一 个 表 空 间 包 括 一 个 或 多 个 容器 ， 容 器 是 对 目录 、 设 
备 或 文件 的 引用 。 一 个 表 空 间 可 以 包含 零 个 或 多 个 数据 库 对 象 ， 如 表 、 索 引 或 LOB。 图 29-6 说 明了 这 
些 概念 。 在 该 图 中 ， 为 一 个 结 点 组 定义 了 两 个 表 空 间 。humanres 表 空间 分 配 了 四 个 容器 ， 而 sched 表 空 
间 只 有 一 个 容器 。employee 和 department 表 分 配给 了 humenres 表 空 间 ， 而 project RH sched 表 空 间 中 。 
采用 拆 分 (striping ) 将 employee 和 department 表 的 段 ( 盘 区 ) 分 配给 humenres 表 空间 的 容器 。DB2 允许 管 
理 员 创建 系统 管理 的 或 是 DBMS 管理 的 表 空 间 。 系 统管 理 空间 (SMS) 是 由 底层 操作 系统 维护 的 目录 或 

文件 系统 。 在 SMS 中 ，DB2 在 目录 中 创建 文件 对 象 ， 并 将 数据 分 配给 每 个 文件 。 数 据 管理 空间 (DMS ) 

是 DB2 控制 的 原始 设备 或 预 分 配 的 文件 。 这 些 容器 的 大 小 既 不 能 增长 也 不 能 缩小 。DB2 自己 创建 分 配 
映射 并 管理 DMS 表 空 间 。 在 这 两 种 情况 下 ， 页 的 一 个 盘 区 是 空间 管理 的 单位 。 管 理 员 可 以 为 表 空 间 选 
择 盘 区 大 小 。 
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结 点 组 MyDepts 


表 空 间 humanres 表 空间 


sched 


department employee project 





图 29-6 DB2 中 的 表 空 间 与 容器 


作为 一 种 默认 行为 ，DB2 支持 跨 不 同 容器 的 拆 分 。 例 如 ， 当 数据 插入 到 一 个 新 建 的 表 中 时 ， 分 配 
第 一 块 盘 区 给 容器 。 一 旦 这 块 盘 区 满 了 ， 下 一 个 数据 项 以 轮转 方式 分 配给 下 一 个 容器 。 拆 分 提供 了 两 
个 重要 的 好 处 : 并 行 IO 和 负载 均衡 。 
29.4.2 缓冲 池 

每 个 表 空 间 可 以 与 一 个 或 者 多 个 缓冲 池 相 关联 ， 以 管理 像 数据 和 索引 这 样 的 不 同 对 象 。 缓 冲 池 是 
维护 对 象 在 内 存 中 副本 的 通用 共享 的 数据 区 域 。 这 些 对 象 在 缓冲 池 中 通常 组 织 成 页 进行 管理 。DB2 Fe 
许 用 SQL 语句 来 定义 缓冲 池 。 通 过 将 缓冲 池 的 配置 参数 选 为 自动 设置 ，DB2 版 本 8 具备 在 线 地 并 且 自 
动 增长 或 者 缩减 缓冲 池 的 能 力 。 管 理 员 能 够 给 缓冲 池 增加 更 多 页 面 或 者 缩减 它 的 大 小 ， 而 不 停止 数据 
库 的 活动 。 


create bufferpool < buffer-pool > --- 
alter bufferpool < buffer-pool > size <n > 


DB2 还 支持 预 取 ( prefetching ) 和 使 用 单独 线程 的 异步 写 ( asynchronous write) 。 数 据 管 理 器 部 件 基于 
查询 访问 模式 触发 对 数据 和 索引 页 的 预 取 。 例 如 ， 表 扫描 总 会 触发 预 取 数据 页 。 索 引 扫描 能 触发 索引 
页 的 预 取 ， 如 果 它 们 以 聚集 模式 访问 ， 还 会 触发 数据 页 的 预 取 。 预 取 的 数量 和 预 取 的 大 小 是 需要 根据 
磁盘 数 和 表 空 间 中 的 容器 数 来 初始 化 的 可 配置 参数 。 

29.4.3 表 、 记 录 和 索引 

DB2 把 关系 数据 作为 页 中 的 记录 来 组 织 。 图 29-7 展示 了 一 个 表 的 逻辑 视图 及 其 相关 索引 。 这 个 表 
包含 了 一 组 页 。 每 页 包含 一 组 记录 ， 它 们 要 么 是 用 户 数据 记录 ， 要 么 是 特殊 的 系统 记录 。 表 的 零 页 包 
含 了 关于 表 及 其 状态 的 特殊 系统 记录 。DB2 使 用 一 条 称 为 空闲 空间 控制 记录 ( Free Space Control Record , 
FSCR ) 的 空间 映射 记录 来 寻找 表 中 的 空闲 空间 。FSCR 记录 通常 包含 一 个 500 页 的 空间 映射 。FSCR 项 
是 一 个 位 掩 码 ， 提 供 页 中 剩余 空间 可 能 性 的 大 致 指示 。 插 入 或 更 新 算法 必须 通过 执行 页 中 可 用 空间 的 
物理 检查 来 验证 FSCR 项 。 

索引 也 使 用 页 来 组 织 ， 这 些 页 中 包含 了 索引 记录 和 指向 子 页 面 和 兄弟 页 面 的 指针 。DB2 内 部 提供 
对 B* 树 索引 机 制 的 支持 。B 树 索引 包含 内 部 页 和 叶 结 点 页 。 索 引 在 叶 结 点 级 有 双向 指针 来 支持 正 向 
和 反 向 扫描 。 叶 结 点 页 包含 指向 表 中 记录 的 索引 项 。 表 中 每 条 记录 都 能 用 其 页 面 和 槽 的 信息 来 唯一 地 
标识 ， 称 为 记录 标识 符 或 RID。 

DB2 在 索引 定义 中 支持 “包括 列 ”(include column), fj: 


create unique index I] on T1(C1) include (C2) ; 


包括 进去 的 索引 列 使 得 DB2 在 任何 可 能 的 时 候 可 以 扩展 对 "index-only "查询 处 理 技术 的 使 用 。 附 加 


[1201] 
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指令 如 minpctused 和 pctfree 可 用 于 控制 索引 页 的 合并 及 初始 空间 分 配 。 
逻辑 索引 视图 









叶 结 点 页 


z 
L 


j 每 一 个 第 500 页 包含 
500 另 一 个 FSCR 


更 多 用 户 记 录 





RID ( 记录 ID) = 页 3， 模 2 


29-7 DB2 中 的 表 和 索引 的 逻辑 视图 


图 29-8 展示 了 DB2 中 典型 的 数据 页 格式 。 每 个 数据 页 包括 一 个 页 头 和 一 个 槽 目录 。 构 目录 是 一 个 
有 255 个 项 的 数组 ， 它 指向 页 中 记录 的 偏 移 量 。 图 中 展示 了 473 号 页 在 偏 移 量 为 3800 处 包含 记录 0， 
偏 移 号 为 3400 处 包含 记录 2。 页 1056 在 偏 移 号 为 3700 处 包含 记录 1， 这 是 一 个 指向 记录 <473，2 > 的 
前 向 指针 。 因 此 ， 记 录 <473, 2> 是 条 溢出 记录 ， 作 为 对 原始 记录 < 1056, 1 > 的 更 新 操作 的 结果 而 创 
建 。DB2 支持 不 同 的 页 规模 ， 如 4KB 、8KB 、16KB 和 32KB。 但 是 ， 每 页 中 仅 能 包含 255 个 用 户 记录 。 
较 大 的 页 规模 在 诸如 表 中 包含 许多 列 的 数据 仓库 那样 的 应 用 中 是 有 用 的 。 较 小 的 页 规模 对 具有 频繁 更 
新 的 操作 型 数据 是 有 用 的 。 


自由 空间 ( 无 需 
页 重组 即 可 用 * ) 


内 和 内 的 自由 空间 
(在 线 页 重组 后 
可 用 * ) 








* 例 外 : 未 提交 删除 ii ji 
wii ay a A 表 空 间 创建 时 设置 
都 不 可 用 


图 29-8 DB2 中 数据 页 和 记录 的 布局 


29.5 ZRI 


本 节 对 MDC 的 主要 特性 提供 简要 的 概述 。 有 了 这 个 特性 ， 可 以 通过 指定 一 个 或 多 个 码 作为 维 
1202| 来 构建 DB2 的 表 ， 沿 着 这 些 维 来 聚 复 表 的 数据 。 为 此 DB2 包括 了 一 个 称 作 organize by dimensions 
ites 的 子 句 。 例 如 ， 下 面 的 DDL 描述 了 一 张 销售 表 ， 通 过 storeld, year( orderDate) 和 itemld 属性 作为 维 

来 组 织 。 
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create table sales( store/d int, 

orderDate date, 

shipDate date, 

receiptDate date, 

region int, 

itemld int, 

price float 

yearOd int generated always as year( orderDate ) ) 
organized by dimensions( region, yearOd, itemld) ; 

每 个 这 样 的 维 都 可 以 由 一 个 或 多 个 列 组 成 ， 类 似 于 索引 码 。 事 实 上 ,“ 维 块 索引 ”( 在 后 面 描述 ) 为 
每 个 指定 的 维 自 动 生成 并 用 于 快速 有 效 地 访问 数据 。 如 果 需 要 的 话 ， 会 自动 生成 一 个 包含 所 有 维 码 列 
的 复合 块 索 引 ， 并 用 来 在 插入 和 更 新 活动 中 维护 数据 的 聚 簇 。 

维 值 的 每 个 唯一 组 合 构 成 了 一 个 逻辑 “单元 ",， 它 在 物理 上 组 织 成 页 的 块 ， 其 中 块 是 磁盘 上 一 组 连 
续 的 页 。 包 含 在 其 中 一 个 维 块 索引 上 具有 特定 码 值 的 数据 所 在 的 那些 页 的 块 集合 称 为 “切片 "。 表 的 每 
一 页 正好 是 某 个 块 的 一 部 分 ， 并且 表 的 所 有 块 都 包含 相同 数目 的 页 ， 也 就 是 块 的 大 小 。DB2 将 块 大 小 
与 表 空间 的 盘 区 大 小 相关 联 ， 因 此 块 边界 可 以 联合 盘 区 边界 。 

图 29-9 表明 了 这 些 概念 。 这 个 MDC 表 是 沿 着 维 year( orderDate)°. region 和 itemld RRIEK IX 
个 图 表示 了 一 个 在 每 个 维 属性 上 只 有 两 个 值 的 简单 逻辑 立方 体 。 事 实 上 ， 维 属性 可 以 容易 地 扩展 到 大 
量 的 值 而 无 需 任 何 管理 。 图 中 子 立方 体 代 表 逻 辑 单元 。 表 中 的 记录 存储 在 块 中 ， 块 包含 磁盘 上 相当 于 
一 个 盘 区 的 连续 页 。 在 图 中 ， 块 用 带 阴 影 的 椭圆 来 代表 ， 并 且 根 据 在 表 中 分 配 的 盘 区 的 逻辑 顺序 来 编 
号 。 我 们 只 显示 了 用 维 值 <197，Canada，2 > 标识 的 单元 的 几 个 数据 块 。 格 中 的 一 列 或 一 行 代 表 某 个 
特定 维 的 切片 。 例 如 ,在 region 维 上 包含 值 * Canada" 的 所 有 记录 都 位 于 立方 体 中 由 “Canada” 列 定义 的 


切片 所 包含 的 块 中 。 事 实 上 ， 该 切片 的 每 个 块 只 包含 region 字段 为 “Canada" 的 记录 。 1204 


region 





图 29-9 一 个 MDC 表 的 物理 分 布 的 逻辑 视图 


29.5.1 块 索引 

在 我 们 的 例子 中 ， 维 块 索引 创建 在 每 个 year( orderDate) 、region 和 itemld 属性 之 上 。 每 个 维 块 案 引 
和 传统 B 树 索引 的 构造 方式 相同 ， 不 同 的 是 在 叶 结 点 层次 ， 码 指向 块 标识 符 (BID ) 而 不 是 记录 标识 符 
(RID) 。 因 为 每 个 块 潜在 地 包含 许多 记录 页 ， 这 些 块 索引 比 RID 索引 要 小 得 多 ， 而 且 只 有 当 向 一 个 单 
元 中 加 入 一 个 新 块 时 ,或 者 已 存在 块 为 空 且 从 一 个 单元 中 移 除 时 ， 才 需要 更 新 这 些 块 案 引 。 一 个 切片 ， 
或 者 包含 页 面 的 块 集合 (这 些 页 面 的 所 有 记录 具有 一 个 维 中 的 特定 码 值 )， 在 相关 联 的 维 块 案 引 中 由 一 
个 该 码 值 的 BID 列表 来 表示 。 图 29-10 分 别 以 region 和 itemld 维 的 特定 值 为 例 说 明了 块 的 切片 。 


© ”通过 使 用 一 个 生成 函数 来 创建 维 。 
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BID List 
Key see Se 
O wma |a |a| ow | om | me | a | | | 


a) region “Canada” 的 维 块 索引 项 


BID List 
Key pene 


b) itemId = 1 的 维 块 索引 项 
29-10 RSF 
在 上 面 的 例子 中 ， 要 找到 包含 了 在 region 4E + UE A“ Canada” 的 所 有 记录 的 切片 ， 我 们 要 在 region 
维 块 索引 中 查找 这 个 码 值 ， 找 到 如 图 29-10a 所 示 的 一 个 码 。 这 个 码 正好 指向 对 于 特定 值 的 BID 集合 . 
29.5.2 块 映射 
块 映射 也 是 和 表 相 关联 的 。 块 映射 记录 了 属于 表 的 每 个 块 的 状态 。 一 个 块 可 能 处 于 多 个 状态 中 ， 
例如 使 用 中 (in use) 、 空 闲 (free) 、 加 载 (loaded) 、 需 要 执行 约束 (requiring constraint enforcement)。 数 
据 管理 层 使 用 块 的 状态 来 确定 多 种 处 理 选择 。 图 29-11 展示 了 表 的 块 映射 的 例子 。 





elitele [elste [els fel ll lsshel hel 
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图 29-11 块 映射 项 

块 映射 中 的 元 素 0 表示 MDC 图 表 中 的 块 0。 它 的 可 用 性 状态 为 “U”， 表 明 它 正 在 使 用 中 。 然 而 ， 
它 是 一 个 特殊 块 并 且 不 包含 任何 用 户 记录 。 块 2、3、9、10、13、14 和 17 没有 在 表 中 使 用 ， 在 块 映射 
中 被 认为 是 “F" 或 者 空闲 。 块 7 和 18 刚刚 加 载 进 表 中 。 块 12 先前 被 加 载 并 且 需 要 在 其 上 执行 约束 
检查 。 
29.5.3 设计 考虑 

MDC 的 一 个 至 关 重 要 的 方面 是 选择 合适 的 维 集合 来 聚 簇 一 个 表 ， 以 及 合适 的 块 尺寸 参数 来 使 空间 
使 用 最 小 化 。 如 果 维 和 块 尺寸 选 择 得 当 ， 那 么 聚 簇 的 好 处 表现 为 高 性 能 和 易于 维护 。 另 一 方面 ， 如 果 
选择 得 不 正确 ， 性 能 会 下 降 而 且 空间 的 使 用 可 能 会 很 糟 。 可 以 开发 许多 的 调谐 钮 器 来 组 织 表 。 这 些 包 
括 变化 维 的 数目 、 变 化 一 个 或 多 个 维 的 粒度 、 变 化 块 的 尺寸 ( 盘 区 尺寸 ) 以 及 包含 表 的 表 空间 的 页 面 大 
小 。 一 个 或 多 个 技术 这 样 的 技术 可 以 联合 使 用 以 确定 对 表 的 最 佳 组 织 方式 。 
29.5.4 对 现 有 技术 的 影响 

人 们 很 自然 地 会 问 新 的 MDC 特性 是 否 对 普通 表 有 不 利 影响 或 失去 某 些 现 有 的 DB2 特性 。 所 有 现 
有 的 特性 ， 例 如 二 级 RID 索引 、 约 束 、 触 发 器 、 定 义 物 化 视图 以 及 查询 处 理 选项 ， 对 MDC 表 都 是 可 用 
的 。 因 此 ， 除 了 它们 的 增强 的 聚 徐 和 处 理 能 力 ，MDC 表 就 像 普 通 表 一 样 。 


29.6 查询 处 理 和 优化 


DB2 的 查询 编译 器 将 查询 转化 为 一 棵 操作 树 。 查 询 操作 树 在 执行 时 用 于 查询 处 理 。DB2 支持 一 套 
丰富 的 查询 操作 ， 这 使 它 可 以 考虑 最 佳 的 处 理 策 略 ， 并 对 执行 复杂 查询 任务 提供 灵活 性 。 

图 29-12 和 图 29-13 展示 了 DB2 中 的 一 个 查询 和 与 之 关联 的 查询 计划 。 这 是 一 个 来 自 TPC-H 基准 
测试 的 有 代表 性 的 复杂 查询 (查询 5) ， 它 包含 了 几 次 连接 和 聚集 。 为 这 个 特定 例子 选取 的 查询 计划 相 
当 简 单 ， 因 为 没有 为 这 些 表 定义 索引 和 其 他 辅助 结构 ， 如 物化 视图 。DB2 提供 了 各 种 “解释 " 工具 ， 包 
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括 控制 中 心 的 一 个 强大 的 可 视 化 解释 特性 ， 能 帮助 用 户 理解 查询 执行 计划 的 细节 。 图 中 给 出 的 查询 计 
划 就 是 以 该 查询 的 可 视 化 解释 为 基础 的 。 可 视 化 解释 使 得 用 户 可 以 理解 查询 计划 的 不 同 操作 的 代价 和 
其 他 相关 性 质 。 





—-‘TPCD Local Supplier Volume Query (Q5)’; | 
select n_name, sum(lextendedprice*(1-l_discount)) as revenue 
from tpcd.customer, tpcd.orders, tpcd.lineitem, 

tpcd.supplier, tpcd.nation, tpcd.region 
where c_custkey = o_custkey and 
o_orderkey = Lorderkey and 
Lsuppkey = ssuppkey and 
cnationkey = snationkey and 
snationkey = n_nationkey and 
nregionkey = r_regionkey and 
rname ='MIDDLE EAST’ and 
o_orderdate >= date(‘1995-01-01’) and 
oorderdate < date(‘1995-01-01’) + 1 year 
group by name 
order by revenue desc; 


129-12 SQL 查询 
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图 29-13 DB2 的 查询 计划 ( 图形 化 解释 ) 
所 有 SQL 查询 和 语句 都 转化 为 查询 树 ， 无 论 它们 有 和 多么 复杂 。 查 询 树 的 基 操 作 或 者 叶 结 点 操作 对 


数据 库 表 中 的 记录 进行 操作 ， 这 些 操 作 也 称 为 访问 方法 。 查 询 树 的 中 间 操 作 包 括 关系 代数 运算 ， 如 连 
接 、 集 合 运算 和 聚集 。 树 的 根 结 点 产生 查询 或 SQL 语句 的 结果 。 
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29.6.1 RMA 
DB2 支持 关系 表 上 的 一 个 全 面 的 存 取 方法 集 。 存 取 方 法 的 列表 包括 : 
。 表 扫 描 (table scan) 。 这 是 最 基本 的 方法 ， 逐 页 地 执行 对 表 中 所 有 记录 的 访问 。 
。 索引 扫描 (index scan) 。 用 索引 来 选 出 符合 查询 的 特定 记录 。 使 用 索引 中 的 RID 来 访问 符合 条 
件 的 记录 。 当 DB2 发 现 了 某 种 顺序 访问 模式 时 ， 就 检测 可 能 性 来 预 取 数据 页 。 
块 索引 扫描 (block index scan) 。 这 是 用 于 MDC 表 的 新 的 访问 方法 。 使 用 其 中 一 个 块 索引 来 扫描 
MDC 数据 块 的 一 个 特定 集合 。 在 块 表 扫描 操作 中 访问 和 处 理 符合 要 求 的 块 。 
© 仅 用 索引 (index only) 。 在 这 种 情况 下 ， 索 引 包含 查询 所 需 的 所 有 属性 。 因 此 ， 扫 描 索 引 项 就 足 
够 了 。 这 种 仅 用 索引 的 技术 通常 是 一 个 性 能 较 好 的 解决 方案 。 
© 列表 预 取 (list prefetch) 。 当 需要 对 有 大 量 RID 的 非 聚 簇 索引 进行 扫描 时 ， 这 种 访问 方法 是 很 好 
的 选择 。DB2 在 RID 上 有 一 个 排序 操作 ， 并 按 排 好 的 次 序 从 数据 页 中 取 记 录 。 排 序 访问 将 IO 
模式 从 随机 变 为 顺序 ， 并 提供 了 预 取 机 会 。 列 表 预 取 已 被 扩展 到 也 能 够 处 理 块 索 引 。 
。 块 和 记录 索引 的 “与 ”( block and record index ANDing) 。 当 DB2 决定 可 用 多 于 一 个 索引 来 限制 基 
表 中 满足 条 件 的 记录 的 数目 时 ， 会 采用 这 种 办 法 。 最 有 选择 性 的 索引 会 被 处 理 用 来 生成 一 个 的 
BID 或 RID 列表 。 然 后 处 理 具 有 次 选择 性 的 索引 来 返回 满足 条 件 的 BID 或 RID。 只 有 出 现在 索 
引 扫 描 结 果 的 交集 (AND 运算 ) 中 的 BID 或 RID 才 有 资格 进行 进一步 处 理 。 索 引 的 AND 运算 的 
结果 是 满足 条 件 的 BID 或 RID 的 一 个 很 小 的 列表 ， 用 来 从 基 表 中 获取 相应 记录 。 
© 块 和 记录 索引 排序 ( block and record index ordering) 。 如 果 能 够 用 两 个 或 多 个 块 或 记录 索引 来 满 
EH OR 运算 符 组 合成 的 查询 谓词 ， 就 可 以 使 用 这 种 策略 。DB2 通过 执行 排序 ， 然 后 获取 记录 
的 结果 集 来 消除 重复 的 BID 或 RID。OR 索引 已 经 扩展 来 考虑 块 和 RID 索引 的 结合 情况 。 
查询 的 所 有 选择 和 投影 谓词 通常 都 下 推 到 访问 方法 上 。 男 外 ,为 了 减少 指令 路 径 ， 在 “下 推 "模式 
中 DB2 会 执行 特定 的 操作 ， 如 排序 和 聚集 。 
MDC 特性 利用 为 块 索引 扫描 、 块 索引 预 取 、 块 索引 的 “与 "以 及 块 索引 的 “或 "而 改进 的 新 的 存 取 
方法 集合 来 处 理 数据 块 。 
29.6.2 连接、 聚集 和 集合 运算 
DB2 支持 许多 用 于 这 些 运算 的 技术 。 对 于 连接 ，DB2 可 以 选择 坐 套 循环 、 排 序 合并 和 散 列 连接 技 
1205| 术 。 为 了 描述 连接 和 和 集合 的 二 元 运算 ， 我们 使 用 “外 部 ” 表 和 “ 内部” 表 的 概念 来 区 分 两 个 输入 流 。 当 内 
ia 部 表 非 常 小 或 者 可 以 在 连接 谓词 上 使 用 一 个 索引 来 访问 时 ， 髋 套 循环 技术 是 有 用 的 。 排 序 归 并 连接 和 
散 列 连 接 技 术 用 于 涉及 大 的 外 部 表 和 内 部 表 的 连接 。 集 合 运 算是 用 排序 和 归并 技术 来 实现 的 。 归 并 技 
术 在 并 的 情况 下 消除 重复 ， 而 在 交 的 情况 下 转发 重复 。DB2 还 支持 所 有 类 型 的 外 连接 运算 。 
只 要 有 可 能 ，DB2 以 早期 的 或 “下 推 "的 模式 处 理 聚 集运 算 。 比 如 ,分 组 聚集 可 以 通过 将 聚集 合并 
到 分 类 阶段 来 执行 。 连 接 和 聚集 算法 可 以 利用 现代 CPU 中 使 用 面向 块 的 和 高 速 缓存 敏感 的 技术 的 超标 
量 处 理 。 
29.6.3 ”对 复杂 SQL 处 理 的 支持 
DB2 最 重要 的 一 个 方面 是 它 以 可 扩展 的 方式 使 用 查询 处 理 基 本 结构 来 支持 复杂 SQL 运算 。 这 些 复 
杂 SQL 技术 包括 对 深层 能 套 和 关联 查询 以 及 约束 、 参 照 完 整 性 和 触发 器 的 支持 。 因 为 大 多 数 这 样 的 动 
作 被 构建 到 查询 计划 中 ，DB2 能 够 进行 调节 并 对 更 大 数量 的 这 类 约束 和 动作 提供 支持 。 约 束 和 完整 性 
检查 作为 在 插入 、 删 除 或 更 新 的 SQL 语句 上 的 查询 树 操作 来 建立 。DB2 还 支持 用 内 置 触 发 器 来 维护 物 
化 视图 。 
29. 6.4 多 处 理 器 查询 处 理 特性 
为 了 支持 SMP( 即 共享 内 存 ) 、MPP( 即 无 共享 ) 和 SMP( 即 共享 磁盘 的 ) 集群 模式 的 查询 处 理 ，DB2 
用 控制 和 数据 交换 原 语 扩展 了 查询 操作 的 基本 集合 。DB2 将 “ 表 队 列 "抽象 用 于 在 不 同 结 点 或 在 相同 结 
点 上 的 线程 之 间 的 数据 交换 。 表 队列 被 当 作 缓冲 区 使 用 ， 它 使 用 广播 、 一 对 一 或 定向 多 播 方法 将 数据 
重 定向 到 合适 的 接收 端 。 控 制 操 作用 来 创建 线程 并 协调 不 同 进程 和 线程 的 操作 
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在 所 有 这 些 模式 中 ，DB2 利用 一 个 协调 进程 来 控制 查询 操作 和 收集 最 终结 果 。 如 果 需 要 协调 进程 
还 可 以 执行 一 些 全 局 数据 库 处 理 动作 。 合 并 局 部 聚集 结果 的 全 局 聚集 操作 就 是 一 个 例子 。 子 代理 或 从 
属 线程 在 一 个 或 多 个 结 点 上 执行 基本 数据 库 操作 。 在 SMP 模式 下 ， 当 共享 数据 时 子 代理 使 用 共享 主 存 
在 这 些 操作 之 间 同 步 。 在 MPP 模式 下 ， 在 执行 期 间 表 队列 机 制 为 不 同 结 点 间 的 同步 提供 了 缓冲 区 和 流 
控制 。DB2 使 用 广泛 的 技术 来 进行 优化 并 高 效 处 理 在 MPP 或 SMP 环境 下 的 查询 。 图 29-14 展示 了 一 个 
在 4 结 点 MPP 系统 中 执行 的 简单 查询 。 在 这 个 例子 中 ，sales 表 被 划分 在 4 个 结 点 已 e, P, 上 。 这 个 
查询 通过 生产 代理 (spawning agent) 来 执行 ， 该 代理 在 每 个 这 样 的 结 点 上 执行 ， 以 便 扫 描 和 过 滤 该 结 点 
上 sales 表 中 的 行 (叫做 函数 转移 ) ， 结 果 行 发 送 到 协调 进程 结 点 。 1210] 


SQL query: select * from sales where quantity > 10 


。 分 布 子 段 
。 表 队列 (TQ ) 接收 
。 绑 定 


子 段 
。 表 访 问 (sales ) 
。 谓词 ( quantity>10 ) 
扫描 sales 扫描 sales 。TQ 发 送 到 协调 进程 
过 滤 quantity>10 ”过 滤 gquantity>10 
发 送 到 协调 进程 ” 发 送 到 协调 进程 

图 29-14 使 用 函数 转移 的 DB2 MPP 查询 处 理 





29.6.5 查询 优化 

为 了 进行 转换 和 优化 ，DB2 的 查询 编译 器 使 用 查询 的 一 种 内 部 表示 ， 称 为 查询 图 模型 (QGM)。 解 
析 完 SQL 语句 之 后 ，DB2 在 QCM 上 执行 语义 转换 来 实施 约束 、 参 照 完整 性 和 触发 器 。 这 些 转 化 的 结 
果 是 增强 的 QGM。 下 一 步 ，DB2 试图 执行 查询 重 写 转换 ， 这 通常 被 认为 是 有 益 的 。 重 写 规则 在 适当 的 
时 候 激活 以 执行 所 需 转换 。 重 写 转换 的 例子 包括 (1) 相关 子 查询 的 去 除 相关 ，(2) 使 用 提前 (early-out) 
处 理 将 特定 子 查询 转换 为 连接 ，(3) 适 当 的 时 候 将 group by 操作 下 推 到 连接 以 下 ，(4) 对 于 原始 查询 的 
某 些 部 分 使 用 物化 视图 。 

查询 优化 器 部 件 使 用 这 种 改进 和 转换 后 的 QGM 作为 其 优化 的 输入 。 优 化 器 是 基于 代价 的 ， 并 使 用 
一 个 可 扩展 的 、 规 则 驱动 的 框架 。 优 化 器 可 以 配置 成 能 在 不 同 级 别 的 复杂 度 上 进行 操作 。 在 最 高 级 ， 
它 使 用 动态 规划 算法 来 考虑 所 有 查询 计划 的 选项 并 挑选 出 代价 最 优 的 计划 。 在 中 间 级 ， 优 化 器 不 考虑 
特定 的 计划 、 访 问 方 法 (比如 索引 ”或 ” ) 或 重 写 规则 。 在 复杂 度 的 最 低级 ， 优 化 器 使 用 简单 的 贪心 启发 
式 方 法 来 选择 一 个 好 的 但 不 一 定 最 佳 的 查询 计划 。 优 化 器 使 用 查询 处 理 操作 的 细节 模型 ， 包 括 内 存 大 
小 和 预 取 ， 来 得 到 对 WO 和 CPU 开销 的 准确 估计 。 它 依赖 数据 统计 来 估计 这 些 操作 的 基数 和 选择 率 。 
DB2 人 允许 用 户 得 到 列 级 分 布 的 细节 直方 图 并 用 runstats 工具 将 列 进行 组 合 。 细 节 直 方 图 包含 了 关于 最 
频繁 出 现 的 值 以 及 属性 的 基于 分 位 数 表示 的 频率 分 布 的 信息 。 优 化 器 生成 一 个 内 部 查询 计划 ， 被 看 作 
是 对 于 特定 优化 层 的 最 佳 查询 计划 。 这 个 查询 计划 被 查询 处 理 引擎 转换 成 查询 算 子 和 相关 数据 结构 的 
线程 。 


29.7 物化 的 查询 表 


在 Linux, UNIX 和 Windows 中 以 及 在 x0S 平台 上 ，DB2 支持 物化 视图 。 物 化 视图 可 以 是 任何 定义 
在 一 个 或 多 个 表 或 者 视图 上 的 一 般 视 图 。 物 化 视图 是 有 用 的 ， 因 为 它 维护 视图 数据 的 持久 拷贝 使 得 查 
询 处 理 得 更 快 。 在 DB2 中 物化 视图 称 为 物化 的 查询 表 ( Materialized Query Table, MOT), 如 图 29-15 中 
的 例子 所 示 ，MQT 是 通过 使 用 create table 语句 来 指定 的 。 

在 DB2 中 ，MQT 可 以 引用 其 他 MQT 来 建立 依赖 视图 的 树 或 者 森林 。 这 些 MQT 具有 很 高 的 可 扩展 
性 ， 它 们 可 以 在 MPP 环境 中 划分 并 且 可 以 有 MDC 聚 簇 码 。 如 果 数 据 库 引 擎 能 够 将 查询 无 颖 路 由 到 
MQT， 并 且 如 果 数 据 库 引擎 在 任何 可 能 的 情况 下 能 够 高 效 地 维护 它们 ，MQT 是 最 有 价值 的 。DB2 同时 


686 BARD 实例 研究 


提供 了 这 两 种 特性 。 





= i 
| create table entp_dept(dept_id integer, emp_id integer, 


| emp-name varchar(100), mgr-id integer) as 

| select dept_id, emp-id, emp-name, mgr-id 

| from employee, department | 

| data initially deferred 

| refresh immediate — — (or deferred) 
maintained by user —— (or system) 








KI 29-15 DB2 物化 的 查询 表 


29.7.1 查询 路 由 到 MQT 
DB2 中 的 查询 编译 器 的 基本 结构 完美 地 适合 于 发 挥 
MQT 的 全 部 功能 。 内 部 的 QCM 模型 允许 编译 器 对 输入 


SQL 查询 





查询 和 可 用 MOT 定义 进行 匹配 ， 并 选择 适当 的 MOT 进 查询 语义 
行 考虑 。 匹 配 之 后 ， 编 译 器 为 了 优化 考虑 几 种 选择 ， 包 ( 验证 重 路 由 的 可 能 性 ) 


括 基 本 查询 以 及 合适 的 MOT 重 路 由 版 本 。 优 化 器 在 选 


出 最 优 执行 版 本 之 前 对 这 些 选择 进行 循环 遍历 。 重 路 由 it 
和 优化 的 整个 流程 如 图 29-16 所 示 。 MOT 定 义 


29.7.2 MGQT 的 维护 


只 有 数据 库 引 擎 提供 有 效 的 维护 技术 时 ，MQT 才 是 
有 用 的 。 有 两 方面 需要 维护 : 时 间 和 开销 。 在 时 间 方 面 
有 两 种 选择 。 SER, DB2 对 这 丙种 选择 都 支持 。 EC 本 
如 果 选 择 立即 维护 ， 系 统 就 会 创建 内 部 触发 器 并 编译 到 
源 对 象 的 insert、update 或 delete 语句 中 以 处 理 对 依赖 
的 MOT 的 更 新 。 在 延迟 维护 的 情况 下 ， 被 更 新 的 表 转 了 由 
移 到 完整 性 模式 ， 必 须 给 出 一 条 显 式 的 refresh 语句 来 
执行 维护 。 在 开销 方面 的 选择 是 ， 增 量 型 和 完全 型 。 增 
量 型 维护 是 指 只 有 最 近 更 新 的 行 才 会 用 于 维护 。 完 全 型 图 29-16 DB2 中 的 MQT 匹配 和 优化 
维护 是 指 整个 MOQT 从 它 的 源 进行 更 新 。 图 29-17 中 的 抵 
阵 显示 了 这 两 个 方面 以 及 沿 着 这 些 方面 最 有 用 的 选择 。 例 如 ， 除 非 源 非常 小 ， 否 则 立即 维护 和 完全 维 
护 是 不 相 容 的 。DB2 还 允许 由 用 户 来 维护 MQT。 在 这 种 情况 下 ，MQT 的 更 新 通过 用 户 使 用 SQL 或 工具 
执行 显 式 的 处 理 来 确定 。 





图 29-17 DB2 中 的 MQT 维护 选项 


下 面 的 命令 提供 了 一 个 简单 的 例子 ， 在 对 物化 视图 emp_dept 的 一 个 源 执行 加 载 操作 后 ， 对 其 执行 
延迟 维护 。 


load from newdata. txt of type del 
insert into employee ; 


refresh table emp_dept 


29.8 DB2 中 的 自治 特性 
DB2 UDB 为 简化 数据 库 的 设计 和 管理 提供 了 许多 特性 。 自 治 计算 包括 一 系列 技术 ， 这 些 技术 允许 
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计算 环境 自治 管理 ， 且 在 面 对 安 全 性 、 系 统 负荷 或 其 他 因素 方面 发 生 外 部 和 内 部 变化 时 减少 外 部 依赖 
增强 自治 计算 有 益 于 许多 主题 领域 ， 例 如 配置 、 优 化 、 保 护 以 及 监控 。 下 面 几 节 简 要 描述 了 配置 和 优 
化 领域 。 

29. 8.1 配置 

DB2 提供 对 自动 调整 各 种 内 存 和 系统 配置 参数 的 支持 。 例 如 ， 像 缓冲 池 大 小 和 排序 堆 大 小 这 样 的 
参数 可 以 自动 指定 。 在 这 种 情况 下 ，DB2 监控 系统 并 根据 工作 负载 特征 缓慢 地 增加 和 缩减 这 些 堆 存储 
空间 的 大 小 。 

29.8.2 优化 

辅助 数据 结构 (索引 、MQT) 和 数据 组 织 特性 (划分 、 聚 簇 ) 是 提高 DB2 中 数据 库 处 理性 能 的 重要 方 
面 。 在 过 去 ， 数 据 库 管 理 员 (DBA ) 必须 使 用 经 验 和 公认 的 指导 方针 来 选择 有 意义 的 索引 、MQT 、 分 区 
码 以 及 聚 复 码 。 给 定 潜在 的 选择 数目 ， 即 使 最 好 的 专家 也 不 可 能 在 短 时 间 内 为 给 定 工作 负载 找到 这 些 
特性 的 正确 组 合 。DB2 包含 了 一 个 设计 向 导 ， 对 所 有 这 些 特 性 提供 基于 工作 负载 的 建议 。 设 计 向 导 顾 
问 工具 使 用 优化 技术 自动 分 析 工 作 负 载 以 给 出 一 组 建议 。 设 计 向 导 的 命令 语法 是 : 

db2advis -d < DB name> -i <workloadfile > -m MICP 
参数 ” - m” 允许 用 户 指 定 如 下 选项 : 

。 M 一 一 物化 的 查询 表 。 

& I= Rl 

e。 C— ik, BI MDC, 

© 了 一 一 划分 码 选择 。 

这 个 向 导 在 这 些 建议 中 充分 利用 DB2 查询 优化 框架 的 能 力 。 它 使 用 输入 的 工作 负载 以 及 对 建议 的 
规模 和 时 间 上 的 约束 作为 其 参数 。 倘 若 它 利用 DB2 的 优化 框架 ， 它 对 底层 数据 的 模式 和 统计 信息 就 会 
有 全 面 的 了 解 。 该 向 导 使 用 若干 组 合 技 术 来 识别 索引 、MQT、MDC 以 及 划分 码 以 提高 给 定 工作 负载 的 
性 能 。 

优化 的 另 一 方面 是 均衡 系统 的 处 理 负 载 。 尤 其 是 某 些 工具 会 增加 系统 负载 并 导致 用 户 工作 负载 性 
能 的 极 大 降低 。 倘 若 在 线 工 具 是 主要 发 展 趋势 ， 就 需要 对 工具 的 负载 消耗 进行 均衡 。DB2 包含 一 个 工 
具 负 载 抑制 机 制 。 这 种 抑制 技术 基于 反馈 控制 理论 。 它 利用 特定 控制 参数 不 断 地 调整 和 抑制 备份 工具 
的 性 能 。 


29.9 工具 和 实用 程序 


DB2 为 易于 使 用 和 管理 提供 了 许多 工具 。 这 些 核心 工具 集 由 于 来 自 供应 商 的 大 量 工具 扩大 和 增 
强 了 。 

DB2 控制 中 心 (DB2 Control Center) 是 使 用 和 管理 DB2 数据 库 的 主要 工具 。 控 制 中 心 在 许多 工作 站 
平台 上 和 运行。 它 由 诸如 服务 器 、 数 据 库 、 表 和 索引 这 样 的 数据 对 象 组 织 而 成 。 它 包含 面向 任务 的 接口 
来 执行 命令 并 允许 用 户 生 成 SQL 脚本 。 图 29-18 显示 了 控制 中 心 主 面板 的 屏幕 截图 。 这 个 屏幕 截图 展 
示 了 结 点 Crankarm 上 DB2 实例 中 的 Sample 数据 库 的 一 系列 表 。 管 理 员 可 以 使 用 菜单 来 调用 一 套 部 件 
工具 。 控 制 中 心 的 主要 部 件 包 括 命令 中 心 、 脚 本 中 心 、 日 志 、 许 可 证 管理 、 报 警 中 心 、 性 能 监控 器 、 
可 视 化 解释 、 远 程 数 据 库 管理 、 存 储 管理 和 复制 支持 。 命 令 中 心 允许 用 户 和 管理 员 发 出 数据 库 命令 和 
SQL。 脚 本 中 心 允许 用 户 运行 交互 式 构 成 的 或 来 自 文件 的 SQL 脚本 。 性 能 监控 器 允许 用 户 监视 数据 库 
系统 中 的 各 种 事件 并 获得 性 能 快照 “敏捷 指南 ”( SmartCuides ) 提供 配置 参数 和 安装 DB2 系统 的 帮助 。 
存储 过 程 构建 器 帮助 用 户 开 发 并 安装 存储 过 程 。 可 视 化 解释 允许 用 户 获 得 查询 执行 计划 的 图 形 化 视图 ， 
索引 向 导 为 管理 员 提 供出 于 性 能 因素 的 索引 建议 。 
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图 29-18 DB2 控制 中 心 


虽然 控制 中 心 是 许多 任务 的 综合 界面 ，DB2 也 提供 对 大 多 数 工具 的 直接 访问 。 诸 如 解释 工具 、 解 
释 表 和 图 形 化 解释 那样 的 工具 为 用 户 提供 了 查询 计划 的 详细 分 解 。 用 户 还 允许 修改 统计 数据 ( 如 果 人 多 
许 的 话 ) 来 产生 最 佳 查询 计划 。 
有 许多 工具 提供 给 管理 员 。DB2 为 加 载 、 导 入 、 导 出 、 重 组 、 重 分 布 和 其 他 数据 相关 的 实用 程序 
提供 全 面 支持 。 它 们 大 部 分 都 支持 增 量 和 在 线 的 处 理 能 力 。 例 如 ， 人 们 可 以 在 在 线 模式 下 发 布 一 条 加 
载 命令 ， 以 允许 应 用 程序 并 发 地 访问 表 的 原始 内 容 。DB2 的 实用 程序 完全 能 够 运行 在 并 行 模式 下 ， 
此 外 ，DB2 支持 许多 工具 ， 例 如 : 
。 用 于 维护 数据 库 活动 的 审计 追踪 的 审计 设施 。 
。 用 来 控制 不 同 应 用 优先 级 和 执行 时 间 的 主管 设施 。 
。 用 来 管理 系统 中 查询 作业 的 查询 巡视 器 设施 。 
。 用 于 调试 的 跟踪 和 诊断 设施 。 
。 用 于 在 系统 执行 时 跟踪 资源 和 事件 的 事件 监视 设施 。 
1215| 。 ”面向 0S/390 的 DB2 有 着 一 个 非常 丰富 的 工具 集 。QMF 是 一 款 广泛 使 用 的 工具 ， 用 于 生成 即席 查 
询 并 将 其 整合 到 应 用 中 。 


29.10 ”并 发 控制 和 恢复 


DB2 支持 全 面 的 并 发 控制 、 隔 离 和 恢复 技术 。 
29. 10. 1 并 发 与 隔离 

对 于 隔离 ，DB2 支持 可 重复 读 (RR) 、 读 稳定 性 (RS) 、 游 标 稳定 性 (CS) 和 未 提交 读 (UR ) 模式 。 
RR 、CS 以 及 UR 模式 不 需要 进一步 解释 。RS 隔离 模式 只 封锁 应 用 程序 在 一 个 工作 单元 中 检索 的 那些 
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行 。 在 随后 的 扫描 中 ， 保 证 应 用 程序 看 到 所 有 这 些 行 (如 同 RR) ， 但 可 能 还 会 看 见 新 的 满足 条 件 的 行 。 
然而 ， 对 于 一 些 遵循 严格 的 RR 隔离 性 的 应 用 程序 来 说 ， 这 可 能 是 种 可 接受 的 权衡 。 典 型 地 ， 默 认 的 
隔离 性 级 别 是 CS， 应 用 程序 在 绑 定 阶段 可 以 选择 它们 的 隔离 性 级 别 。 大 多 数 商 业 化 可 用 的 应 用 程序 允 
许 使 用 大 多 数 隔离 性 级 别 ， 使 用 户 可 以 针对 他 们 的 需求 选择 正确 的 应 用 程序 版 本 。 

各 种 隔离 模式 是 用 封锁 来 实现 的 。DB2 支持 记录 级 和 表 级 的 封锁 。 它 维护 一 个 单独 的 具有 封锁 信 
息 的 锁 表 数据 结构 。 如 果 锁 表 中 的 空间 变 得 紧张 ，DB2 就 将 记录 级 锁 升 级 为 表 级 锁 。DB2 为 所 有 更 新 
事务 实现 严格 的 两 阶段 封锁 。 事 务 持 有 写 锁 或 更 新 锁 直 到 提交 或 回 滚 时 为 止 。 图 29-19 展示 了 不 同 封 
锁 模式 和 对 它们 的 描述 。 这 些 封锁 模式 中 包括 一 种 支持 最 大 化 并 发 性 的 表 级 意向 锁 。 而 且 ， 为 了 消除 
Halloween 和 幻象 读 问题 ，DB2 为 影响 索引 扫描 的 更 新 实现 了 下 一 个 关键 字 封 锁 和 不 同 模式 。 


CELES 


IN (无 意向 ) 不 带 行 锁 的 读 




















IS ( 意向 共享 ) 带 行 锁 的 读 

NS (下 一 关键 字 共 享 ) RS 或 CS 隔离 性 级 别 的 读 锁 

S (共享 ) 读 锁 

IX (意向 排他 ) 意向 更 新 行 

SIX (共享 意向 排他 ) 行 上 无 读 锁 ， 但 更 新 行 上 有 X 锁 
U (更 新 ) 更 新 锁 但 允许 他 人 读 


NX (下 一 关键 字 排 他 ) 在 RR 索 引 扫 描 中 ， 为 防止 幻象 读 对 
插入 /删除 的 下 一 关键 字 封 锁 
只 允许 未 提交 的 读者 访问 
完全 的 排他 访问 






X( 排 他) 
Z (超级 排他 ) 











图 29-19 DB2 封锁 模式 


通过 使 用 lock table 语句 ， 事 务 可 以 将 封锁 粒度 设置 在 表 级 。 当 应 用 程序 知道 所 需要 的 隔离 性 级 
别 是 表 级 时 ， 这 是 很 有 用 的 。 而 且 ，DB2 会 为 诸如 重组 和 加 载 这 样 的 工具 选择 合适 的 封锁 粒度 。 这 
些 工具 的 脱 机 版 本 通常 以 排他 模式 封锁 表 。 这 些 工 具 的 联机 版 本 允许 其 他 事务 通过 获得 行 锁 来 并 发 
进行 。 

每 个 数据 库 上 都 运行 一 个 死 锁 检测 代理 并 周期 性 地 检测 事务 间 的 死 锁 。 死 锁 检 测 的 时 间 间 隔 参 数 
是 可 配置 的 。 在 发 生死 锁 的 情况 下 ， 代 理 就 选择 一 个 牺牲 者 并 用 一 个 SQL 死 锁 错误 代码 来 中 止 它 。 
29. 10.2 ”提交 与 回 滚 

应 用 程序 可 以 通过 使 用 显 式 的 commit 或 rollback 语句 来 提交 或 回 滚 。 应 用 程序 还 可 以 发 出 begin 
transaction 和 end transaction 语句 来 控制 事务 的 范围 ， 但 不 支持 舱 套 事务 。 通 常 ， 当 一 个 事务 提交 或 
回 滚 时 ，DB2 代表 它 释 放 这 个 事务 所 持 有 的 所 有 锁 。 然 而 ， 如 果 用 with hold 子 句 声明 了 一 条 游标 语 
句 ， 那 么 提交 后 还 会 有 一 些 锁 保留 下 来 。 
29. 10. 3 日 志 与 恢复 

DB2 实现 严格 的 ARIES 日 志和 恢复 方案 。 在 写 数据 页 之 前 或 在 事务 提交 时 ， 使 用 先 写 ( write- 
ahead) 日志 将 日 志 记录 刷新 到 持久 日 志文 件 中 。DB2 支持 两 种 类 型 的 日 志 模式 : 循环 日 志和 归档 日 志 。 
在 循环 日 志 中 ， 使 用 一 套 预先 定义 的 主 日 志和 辅助 日 志文 件 。 循 环 日 志 在 崩 溃 恢 复 或 应 用 程序 故障 恢 
复 中 是 有 用 的 。 在 归档 日 志 中 ，DB2 创建 新 的 日 志文 件 而 旧 的 日 志文 件 必 须 归档 以 释放 文件 系统 的 空 
间 。 归 档 日 志 用 于 执行 前 滚 恢复 。 在 这 两 种 情况 下 ，DB2 允许 用 户 来 配置 日 志文 件 的 数量 和 日 志文 件 
的 大 小 。 

在 频繁 更 新 的 环境 中 ， 可 以 对 DB2 进行 配置 ， 以 寻求 成 组 提交 ， 为 的 是 把 多 个 日 志 写 操作 捆绑 在 
一 起 。 

DB2 支持 事务 回 滚 和 崩溃 恢复 以 及 时 间 点 或 前 深 恢 复 。 在 崩 浊 恢复 的 情况 下 ，DB2 执行 标准 的 
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undo 处 理 阶段 直到 最 后 一 个 检查 点 并 从 该 检查 点 起 执行 标准 的 redo 处 理 阶 段 ， 以 恢复 到 适当 的 数据 库 
提交 状态 。 对 于 时 间 点 恢复 ， 可 以 从 备份 中 恢复 数据 库 ， 并 利用 归档 日 志 将 它 前 深 到 一 个 特定 的 时 间 
1217| AR. ，。 前 深 恢 复命 令 既 支持 数据 库 级 也 支持 表 空 间 级 。 它 还 可 以 在 多 结 点 系统 中 的 特定 结 点 上 发 布 。 一 
ka 个 并 行 恢复 方案 通过 使 用 许多 CPU 改进 了 SMP 系统 中 的 性 能 。DB2 通过 实现 全 局 检查 点 方案 来 执行 跨 
越 MPP 结 点 的 协同 恢复 。 


29.11 系统 体系 结构 


图 29-20 展示 了 DB2 服务 器 中 的 一 些 不 同 的 进程 或 线程 。 远 程 客户 应 用 程序 通过 使 用 诸如 
db2tepem 这 样 的 通信 代理 来 与 数据 库 服 务 器 连接 。 每 个 应 用 程序 都 分 配 一 个 称 为 db2agenit 线程 的 代理 
(在 MPP 或 SMP 环境 中 的 协调 代理 ) 。 这 个 代理 以 及 它 的 下 级 代理 执行 与 应 用 程序 相关 的 任务 。 每 个 
数据 库 有 一 组 进程 和 线程 执行 如 预 取 、 从 缓冲 池 中 清空 页 、 日 志 以 及 死 锁 检测 这 样 的 任务 。 最 后 ， 还 
有 一 组 在 服务 器 级 的 代理 来 执行 如 崩溃 检测 、 许 可 证 服务 器 、 进 程 创 建 和 系统 资源 控制 这 样 的 任务 
DB2 提供 配置 参数 来 控制 在 一 个 服务 器 中 线程 和 进程 的 数目 。 几 乎 所 有 不 同类 型 的 代理 都 可 以 通过 使 
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ai 29-20 DB2 中 的 进程 模型 


图 29-21 展示 了 DB2 中 不 同类 型 的 内 存 段 。 代 理 或 线程 中 的 私有 内 存 主要 用 于 只 与 当前 活动 有 关 
的 局 部 变量 和 数据 结构 。 例 如 ， 私 有 排序 可 以 从 代理 的 私有 堆 中 分 配 内 存 。 共 享 内 存 划 分 成 服务 器 共 
享 内 存 、 数 据 库 共享 内 存 和 应 用 程序 共享 内 存 。 数 据 库 级 共享 内 存 包含 有 用 的 数据 结构 ， 如 缓冲 池 、 
封锁 列表 、 应 用 程序 包 高 速 缓存 和 共享 排序 区 。 服 务 器 和 应 用 程序 共享 内 存 区 域 主要 用 于 通用 数据 结 
构 和 通信 缓冲 区 。 

DB2 支持 一 个 数据 库 有 多 个 缓冲 池 。 缓 冲 池 可 以 用 create bufferpool 语句 来 创建 ， 并 且 可 以 与 表 
空间 关联 。 出 于 多 种 理由 ， 多 个 缓冲 池 是 有 用 的 ， 但 应 该 对 工作 负载 需求 仔细 分 析 后 再 定义 多 个 缓冲 
池 。DB2 支持 全 面 的 内 存 配置 和 调整 参数 的 列表 。 这 些 包括 所 有 大 数据 结构 的 堆 区 域 ( 如 默认 的 缓冲 
池 、 排 序 堆 、 程 序 包 高 速 缓存 、 应 用 程序 控制 的 堆 和 封锁 列表 区 域 ) 的 参数 
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实例 共享 内 存 
“ 包括 FCM ( 快速 通信 管理 器 ) 






数据 库 共 享 内 存 
- 缓存 池 ( buffpage 或 ALTERBUF.. ) 
“ 封锁 列表 ( locklist ) 
+ 包 高 速 缓存 ( pckcachesz ) 
+ 共享 排序 ( sortheap, sheapthresh ) 
+ 数据 库 堆 ( dbheap ) 
< HEA. (logbufsz ) 
+ 目录 高 速 缓 存 ( catalogcache_sz ) 
+ 工具 堆 (util_heap_sz ) 


数据 库 共享 内 存 














应 用 程序 共享 内 存 

' 内 部 结构 ( appl_ctl_heap_sz ) 

代理 私有 内 存 

“私有 排序 ( sortheap, sheapthresh ) 


+ 应 用 堆 (applheapsz ) 
ardia 

+ 查询 堆 ( query_heap_sz ) 
< L...maxagents. ——————>-_ - iB 4 ( stmtheap ) 


+ 统计 堆 ( stat_heap_sz ) 
图 29-21 DB2 内 存 模型 


29.12 ” 复制、 分布 和 外 部 数据 


DB2 Replication 是 DB2 家 族 的 一 个 产品 ， 它 提供 了 不 同 于 DB2 的 关系 数据 源 ( 如 Oracle, Microsoft 
SQL Server 、Sybase Adaptive Server Enterprise 和 Informix) 以 及 非 关 系数 据 源 (如 IBM 的 IMS) 之 间 的 复制 
能 力 。 它 由 capture 和 apply 部 件 组 成 ， 它 们 由 管理 界面 来 控制 。 变 更 捕获 机 制 可 以 是 “基于 日 志 ” 的 ( 针 
对 DB2 表 ) 或 “基于 触发 器 的 “在 其 他 数据 源 的 情况 下 ) 。 捕 获 到 的 变更 保存 在 DB2 Replication 控制 下 
的 临时 阶段 性 表 区 域 中 。 然 后 用 普通 SQL 语句 insert, update 和 delete 来 将 这 些 有 改动 的 分 阶段 中 间 表 
应 用 到 目标 表 中 。 通 过 使 用 过 滤 条 件 和 聚集 ， 可 以 在 中 间 分 阶段 的 表 上 执行 基于 SQL 的 转换 。 结 果 行 
可 以 应 用 到 一 个 或 多 个 目标 表 。 所 有 这 些 动 作 都 由 管理 工具 控制 。 

DB2 支持 一 种 叫做 队列 复制 的 特性 。 队 列 (Q) 复 制 使 用 IBM 的 消息 队列 产品 建立 一 个 队列 传送 机 
制 来 将 捕获 到 的 日 志 记 录 作 为 消息 传递 。 这 些 消息 在 接收 端 从 队列 中 提取 出 来 并 应 用 到 目标 上 。 应 用 
过 程 可 以 是 并 行 的 ， 并 允许 用 户 指 定 冲 突 解 决 规 则 。 

DB2 家 族 的 另 一 个 成 员 是 DB2 信息 整合 产品 ， 它 提供 联邦 、 复 制 (使 用 上 面 描述 的 复制 引擎 ) 和 搜 
索 能 力 。 联 邦 版 本 可 以 将 远程 DB2 或 其 他 关系 数据 库 中 的 表 整 合成 单个 分 布 式 数据 库 。 用 户 和 开发 人 
员 能 够 使 用 包装 器 技术 以 表格 的 形式 访问 各 种 非 关 系数 据 源 。 联 邦 引擎 为 跨越 不 同 数据 站 点 的 查询 优 
化 提供 一 种 基于 代价 的 方法 。 

DB2 支持 用 户 自 定义 的 表 函 数 ， 可 以 访问 非 关 系 的 和 外 部 的 数据 源 。 通 过 使 用 带 returns table 子 
句 的 create function 语句 来 创建 用 户 自 定义 表 函 数 。 使 用 这 些 特性 ，DB2 就 可 以 参与 到 OLE DB 协 
议 中 。 

最 后 ，DB2 提供 对 采用 两 阶段 提交 协议 的 分 布 式 事务 处 理 的 完全 支持 。DB2 可 以 作为 协调 者 或 代 
理 来 支持 分 布 式 的 XA。 作 为 协调 者 ，DB2 可 以 执行 两 阶段 提交 协议 的 所 有 阶段 。 作 为 参与 者 ，DB2 可 
以 与 任何 商用 分 布 式 事务 管理 者 交互 。 


29. 13 ”商务 智能 特性 


DB2 数据 仓库 版 本 是 DB2 家 族 中 的 贡献 ， 它 结合 了 商务 智能 特性 。 数 据 仓库 版 本 以 DB2 引擎 为 基 
础 ， 并 用 ETL、OLAP、 挖 气 和 在 线 报表 特性 来 对 其 增强 。DB2 引擎 利用 其 MPP 特性 提供 了 可 扩展 性 。 
在 MPP 模式 中 ，DB2 所 支持 的 配置 能 为 大 型 数据 库 (TB) 扩 展 到 数 百 个 结 点 。 此 外 , MDC 和 MQT 这 
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样 的 特性 为 商务 智能 的 复杂 查询 处 理 需 求 提供 了 支持 。 

商务 智能 的 另 一 方面 是 联机 分 析 处 理 或 OLAP。DB2 家 族 包 括 一 个 叫做 立方 体 视图 的 特性 ， 它 提供 
了 一 种 在 DB2 内 部 构造 适当 的 数据 结构 和 MQT 的 机 制 ， 可 用 于 关系 型 OLAP 处 理 。 立 方 体 视 图 为 多 维 
立方 体 提供 了 建 模 支持 ， 并 提供 到 关系 型 星 型 模式 的 映射 机 制 。 然 后 这 个 模型 用 于 推荐 适当 的 MOT, 
索引 和 MDC 定义 来 提高 数据 库 上 OLAP 查询 的 性 能 。 此 外 ， 立 方 体 视图 可 以 利用 DB2 为 产生 聚集 立方 

体 的 cube by 和 rollup 操作 的 原生 支持 。 立 方 体 视图 是 一 个 可 用 来 将 DB2 与 诸如 Business Objects, 

Microstrategy 和 Cognos 这 样 的 OLAP 供应 商 紧 密 结合 在 一 起 的 工具 。 

此 外 ，DB2 使 用 DB2 OLAP 服务 器 对 多 维 OLAP 提供 支持 。DB2 OLAP 服务 器 可 以 通过 OLAP 技术 
从 低层 的 DB2 数据 库 建立 起 多 维 数据 集 市 用 于 分 析 。 来 自 Essbase 产品 的 OLAP 引擎 被 用 在 DB2 OLAP 
服务 器 中 。 

DB2 Alphablox 是 一 个 提供 联机 的 、 交 互 的 、 报 表 和 分 析 能 力 的 新 特性 。Alphablox 特性 的 一 个 非常 
有 吸引 力 的 特点 是 ， 用 一 个 称 为 blox 的 构建 块 方法 来 迅速 地 建立 新 的 基于 Web 的 分 析 表 格 。 

为 了 深入 分 析 ，DB2 智能 挖掘 器 为 建 模 、 打 分 和 数据 可 视 化 提供 了 多 个 部 件 。 挖 掘 使 用 户 能 够 在 
大 数据 集 上 执行 分 类 、 预 测 、 聚 类 、 分 段 和 关联 。 


文献 注解 


DB2 的 起 源 可 以 追溯 到 System R 项 目 ( Chamberlin 等 [1981 ] ) 。IBM 的 研究 贡献 包括 许多 领域 ， 如 事务 
处 理 ( 先 写 日 志和 ARIES 恢复 算法 ) ( Mohan 等 [1992] ) 、 查 询 处 理 和 优化 ( Starburst) ( Haas 等 [ 1990] ) 、 并 行 
处 理 ( DB2 并 行 版 本 ) ( Baru 等 [1995 ] ) 、 主 动 数据 库 支 持 ( 约束 和 触发 器 ) ( Cochrane 等 [1996 ] ) 、 像 物化 视 
图 这 样 的 高 级 查询 和 仓库 技术 (Zaharioudakis 等 [| 2000] Lehner 等 [ 2000]), 4 4¢ R fk ( Padmanabhan 等 
[2003 ] 、Bhattacharjee 等 [2003] ) 、 自 治 特性 (Zilio 等 [2004 ] ) 和 对 象 - 关系 支持 (ADT、UDF ) (Carey 等 
[1999] ) 。 多 处 理 器 查询 处 理 细节 可 以 在 Baru 等 [1995 ] 中 找到 。Don Chamberlin 的 书 提供 了 对 DB2 早期 版 
本 的 SQL 和 编程 特性 的 很 好 回顾 ( Chamberlin[ 1996] , Chamberlin[ 1998] ) 。C. J Date 和 其 他 人 的 早期 书籍 提 
供 了 对 DB2 Universal Database for OS/390 的 特性 的 很 好 回顾 (Date [1989] 、Martin 等 [1989 ] ) 。 

DB2 用 户 手 册 提 供 了 DB2 各 种 版 本 的 权威 见解 。 大 多 数 手 册 可 以 在 线 获 得 (http: // 
www. software. ibm. com/db2) 。 用 于 开发 者 和 管理 员 的 DB2 的 书籍 包括 Gunning [ 2008 ] Zikopoulos 等 

[2004], Zikopoulos 等 [2007] 和 Zikopoulos 等 [2009] 。 
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Microsoft SQL Server 是 一 个 关系 型 数据 库 管理 系统 ， 其 范围 涵盖 膝 上 型 计算 机 和 台式 机 直至 企业 服 
务 器 。SQL Server 有 一 个 兼容 版 本 ， 基 于 Windows Mobile 操作 系统 ， 用 于 手持 设备 ， 如 袖珍 PC, AE 
手机 和 便携 式 媒体 中 心 。SQL Server 最 初 是 在 20 世纪 80 年 代 由 Sybase 为 UNIX 系统 开发 的 ， 后 来 被 微 
软 移 植 到 了 Windows NT 系统 。 从 1994 年 开始 ， 微 软 发 布 独立 于 Sybase 开发 的 SQL Server 版 本 ， 而 
Sybase 7E 20 世纪 90 年 代 后 期 停止 使 用 SQL Server 名 称 。 最 新 的 版 本 是 SQL Server 2008 ， 有 简易 版 、 标 
准 版 和 企业 版 ,还 有 世界 上 多 种 语言 的 本 地 化 版 本 。 在 本 章 ， 术语 SQL Server 是 指 SQL Server 2008 的 
所 有 这 些 版 本 。 

SQL Server 提供 SQL Server 多 个 拷贝 之 间 以 及 与 其 他 数据 库 系统 的 复制 服务 。 它 的 分 析 服 务 ， 是 系 
统 的 一 个 完整 部 分 ,包括 联机 分 析 处 理 (OLAP) 和 数据 挖掘 工具 。SQL Server 提供 了 一 个 大 的 图 形 化 工 
具 集 和 向 导 ， 引 导数 据 库 管理 员 执行 各 种 任务 ， 例 如 建立 定期 备份 、 在 服务 器 之 间 复 制 数据 ， 以 及 调 
整数 据 库 性 能 。 有 很 多 开发 环境 支持 SQL Server， 包 括 微软 的 Visual Studio 和 相关 产品 ， 尤 其 是 . NET 
的 产品 和 服务 。 


30.1 管理、 设计 和 查询 工具 


SQL Server 提供 了 一 套 工具 ， 用 来 管理 SQL Server 的 开发 、 查 询 、 调 优 、 测 试 和 管理 等 各 个 方面 . 
大 部 分 这 些 工具 是 以 SQL Server Management Studio 为 中 心 的 。SQL Server Management Studio 为 管理 所 有 
与 SQL Server 相关 的 服务 提供 通用 的 界面 ， 包 括 数据 库 引擎 、 分 析 服 务 、 报 表 服 务 、SQL ServerMobile 
和 集成 服务 。 
30. 1.1 数据 库 开 发 和 可 视 化 数据 库 工 具 

在 设计 数据 库 时 ， 数 据 库 管理 员 创建 数据 库 对 象 ， 如 表 、 列 、 关 键 字 、 索 引 、 联 系 、 约 束 和 视图 ， 
为 了 帮助 创建 这 些 对 象 ，SQL Server Management Studio 提供 对 可 视 化 数据 库 工具 的 访问 。 这 些 工具 提供 
了 三 种 机 制 来 帮助 数据 库 设计 : 数据 库 设计 器 、 表 设计 器 和 视图 设计 器 。 

数据 库 设计 器 是 一 个 允许 数据 库 所 有 者 或 所 有 者 的 代理 来 创建 表 、 列 、 关 键 字 、 索 引 、 联 系 和 约 
束 的 可 视 化 工具 。 在 这 个 工具 中 ,用户 可 以 通过 数据 库 图 表 和 数据 库 对 象 进行 交互 。 数 据 库 图 表 图 形 
化 地 显示 了 数据 库 的 结构 。 视 图 设计 器 提供 了 可 视 化 查询 工具 ， 人 允许 用 户 通 过 使 用 Windows 的 拖 放 功 
能 创建 或 修改 SQL 视图 。 图 30-1 显示 了 一 个 从 Management Studio 中 打开 的 视图 。 


30. 1.2 数据 库 查询 和 调 优 工具 

SQL Server Management Studio 提供 了 若干 工具 来 帮助 应 用 开发 过 程 。 可 以 使 用 集成 的 查询 编辑 器 来 
进行 查询 和 存储 过 程 的 开发 和 测试 。 查 询 编辑 器 支持 为 各 种 环境 创建 和 编辑 脚本 ， 包 括 Transact-SQL, 
SQL Server 脚本 语言 SQLCMD 、 用 于 数据 分 析 的 多 维 表示 语言 MDX, SQL Server 数据 挖掘 语言 DMX、 
XML 分 析 语 言 XMLA 和 SQL Server Mobile。 进 一 步 的 分 析 可 以 通过 使 用 SQL Server EREK #¥ ( profiler ) X 
进行 。 数 据 库 调 优 建议 由 数据 库 调 优 向 导 提 供 。 

30. 1.2.1 查询 编辑 器 

集成 的 查询 编辑 器 提供 了 一 个 简单 的 图 形 化 用 户 界面 来 运行 SQL 查询 和 显示 结果 。 查 询 编 辑 器 还 
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提供 显示 计划 ( showplan ) (优化 器 为 查询 执行 所 选择 的 步骤 ) 的 图 形 化 表示 。 查 询 编 辑 带 集成 了 
Management Studio 的 对 象 浏览 器 ， 人 允许 用 户 拖 放 对 象 或 表 名 到 一 个 查询 窗口 ， 并 帮助 在 任何 表 上 建立 
select, insert, update 或 delete 语句 ， 





icrosoft SQL Ser 
ag 全 en Query Designer Tools Window Help 
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a. Employee ID INNER JOIN 














30-1 为 HumanResources. vEmployee 视图 打开 的 视图 设计 器 


数据 库 管理 员 或 开发 者 能 够 用 查询 编辑 器 做 以 下 工作 : 
。 分 析 查 询 : 查询 编辑 器 能 够 为 任何 查询 显示 图 形 化 的 或 者 文本 的 执行 计划 ,并且 显示 关于 执行 
任何 查询 所 需要 的 时 间 和 资源 的 统计 信息 。 
。 格式 化 SQL 查询 : 包括 缩 排 和 颜色 语法 编码 。 
。 为 存储 过 程 、 函 数 以 及 基本 SQL 语句 使 用 模板 : Management Studio 有 许多 预定 义 模板 来 建立 
DDL 命令 ， 或 者 用 户 也 可 以 定义 他 们 自己 的 模板 。 
30-2 显示 了 带 查 询 编辑 器 的 Management Studio， 展 示 了 一 个 查询 的 图 形 化 执行 计划 ， 它 包括 一 
个 四 表 连 接 和 一 个 聚集 。 
30.1.2.2 SQL 跟踪 器 (SQL Profiler) 
SQL 跟踪 器 是 一 个 图 形 化 工具 ， 它 允许 数据 库 管理 员 监 视 和 记录 SQL Server 数据 库 引 擎 和 分 析 服 
务 的 数据 库 活 动 。SQL 跟踪 器 能 够 实时 显示 所 有 服务 器 的 活动 ， 或 者 它 可 以 建立 过 滤器 ， 以 集中 监视 
1224| 特定 的 用 户 、 应 用 程序 或 者 特定 类 型 命令 的 活动 。SQL 跟踪 器 能 够 显示 发 送 到 任何 SQL 服务 器 实例 上 
而 的 任何 SQL 语句 或 存储 过 程 ( 如 果 安 全 权限 许可 的 话 ) ， 还 能 显示 性 能 数据 ， 表 明 运 行 查询 所 花 的 时 
间 、 需 要 多 少 CPU 和 1/O 以 及 查询 所 采用 的 执行 计划 。 
SQL 跟踪 器 允许 下 钻 甚至 深入 到 SQL Server 内 部 以 监视 作为 存储 过 程 的 部 分 而 执行 的 每 条 语句 、 
每 个 数据 修改 操作 、 每 个 封锁 的 获得 或 释放 或 数据 库 文 件 自动 增长 的 每 次 发 生 。 它 能 够 捕获 多 个 不 同 
的 事件 以 及 每 个 事件 的 多 个 数据 项 。 实 际 上 SQL Server 把 跟踪 功能 分 成 两 个 独立 的 但 相互 联系 的 部 分 。 
SQL 跟踪 器 是 客户 端的 跟踪 工具 。 使 用 SQL 跟踪 器 ， 被 捕获 的 数据 不 仅 可 以 在 跟踪 器 的 用 户 界面 (UI) 
中 显示 ， 用 户 还 可 以 选择 将 它们 保存 在 文件 或 表 中 。 跟 踪 器 工具 在 事件 发 生 时 显示 每 个 符合 过 滤 标 准 
的 事件 。 一 旦 保存 跟踪 数据 ，SQL 跟踪 器 就 能 够 读 取保 存 的 数据 ， 用 于 显示 或 分 析 的 目的 。 
在 服务 器 端的 是 SQL 跟踪 工具 ， 它 管理 由 事件 产生 器 生成 的 事件 队列 。 一 个 消费 者 线程 从 队列 中 





第 30 Microsoft SQL Server 695 


读 取 事件 并 进行 过 滤 ， 之 后 把 它们 送 给 请 求 这 些 事件 的 进程 。 追 踪 所 关注 的 活动 的 主要 单元 是 事件 ， 
事件 可 以 是 发 生 在 SQL Server 内 部 或 者 SQL Server 和 客户 端 之 间 的 任何 事情 。 比 如 ， 创 建 或 删除 一 个 
对 象 是 一 个 事件 ， 执 行 一 个 存储 过 程 是 一 个 事件 ， 获 得 或 者 释放 一 个 锁 是 一 个 事件 ， 从 客户 端 发 送 一 
个 Transact-SQL 包 到 SQL Server 也 是 一 个 事件 。 有 一 组 存储 的 系统 过 程 来 定义 哪些 事件 需要 追踪 ， 每 个 


事件 需要 关注 哪些 数据 ， 以 及 在 何 处 保存 从 事件 中 收集 到 的 信息 。 在 事件 上 应 用 过 滤器 能 够 减少 收集 
和 存放 的 信息 量 。 
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30-2 带 group by 聚集 的 四 表 连 接 的 显示 计划 

SQL Server 保证 特定 的 关键 信息 总 能 收集 到 ， 并 且 可 用 作 一 种 有 用 的 审核 机 制 。SQL Server 达到 美 
国政 府 C2 级 安全 认证 ， 并 且 很 多 可 跟踪 事件 仅仅 用 于 满足 C2 级 认证 的 要 求 。 

30. 1.2.3 数据 库 调 优 向 导 

如 果 有 一 组 合适 的 索引 可 用 ， 查 询 和 更 新 通常 可 以 执行 得 更 快 。 在 大 型 数据 库 中 ， 为 表 设 计 可 能 
是 最 好 的 索引 是 一 项 复杂 的 工作 。 它 不 仅 需要 完全 了 解 SQL Server 如 何 使 用 索引 以 及 查询 优化 器 如 何 
做 决策 ， 还 得 了 解 应 用 程序 或 交互 式 查 询 实际 上 如 何 使 用 数据 。SQL Server 数据 库 调 优 向 导 (DTA ) 是 
一 个 强大 的 工具 ， 它 基于 对 查询 和 更 新 负载 的 观察 , 来 设计 可 能 是 最 好 的 索引 和 带 索 引 的 (物化 ) 
视图 。 

DTA 能 跨 多 个 数据 库 进行 调 优 ， 而 且 它 的 建议 是 基于 工作 负荷 的 ， 工 作 负 荷 可 以 是 一 个 捕获 的 追 
踪 事件 的 文件 、 一 个 SQL 语句 文件 或 是 一 个 XML 输入 文件 。 可 用 SQL 跟踪 器 来 捕获 一 段 时 间 内 所 有 
用 户 提 交 的 所 有 SQL 语句 。 然 后 DTA 能 够 查看 所 有 用 户 、 所 有 应 用 程序 、 所 有 表 的 数据 访问 模式 ， 并 
给 出 均衡 的 建议 。 
30.1.3 SQL Server Management Studio 


除了 提供 对 数据 库 设 计 和 可 视 化 数据 库 工 具 的 访问 之 外 ， 易 用 的 SQL Server Management Studio 5% 
持 集中 管理 多 个 SQL Server 数据 库 引 擎 装置 、 分 析 服 务 、 报 表 服务 、 集 成 服务 和 SQL Server Mobile 的 
各 个 方面 ， 包 括 安全 、 事 件 、 和 警报、 调度 、 备 份 、 服 务 器 配置 、 调 优 、 全 文 搜索 以 及 复制 。SQL Server 
Management Studio 允许 数据 库 管理 员 创建 、 修 改 和 复制 SQL Server 数据 库 模式 和 对 象 ， 如 表 、 视 图 和 
触发 器 。 因 为 多 个 SQL Server 装置 可 组 织 成 组 ， 作 为 一 个 单元 对 待 ，SQL Server Management Studio 能 够 
同时 管理 几 百 个 服务 器 。 ka 
尽管 SQL Server Management Studio 能 够 和 SQL Server 引擎 运行 在 同一 台 计算 机 上 ， 当 运行 在 任何 1227 
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Windows 2000( 或 更 新 的 版 本 ) 机 器 上 时 ，SQL Server Management Studio 也 提供 了 同样 的 管理 能 力 。 此 
外 ，SQL Server 高 效 的 客户 - 服务 器 体系 结构 使 得 利用 Windows 的 远程 访问 (拨号 网 络 ) 能 力 来 进行 监 
督 和 管理 成 为 现实 。 

SQL Server Management Studio 把 数据 库 管 理 员 从 必须 了 解 完 成 一 项 任务 的 特定 步骤 和 语法 中 解放 出 
来 。 它 提供 向 导 来 指导 数据 库 管理 员 完 成 一 个 SQL Server 装置 的 安装 和 维护 过 程 。Management Studio 
的 界面 如 图 30-3 所 示 ， 它 说 明了 如 何 从 会 话 中 直接 创建 为 数据 库 备 份 的 脚本 。 
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图 30-3 SQL Server Management Studio 界面 


30.2 SQL 变化 和 扩展 


SQL Server 人 允许 应 用 程序 开发 者 使 用 Transact-SQL 或 者 .NET 编程 语言 (例如 C#、Visual Basic, 
COBOL 或 J++ ) 来 编写 服务 器 端的 商务 逻辑 。Transact-SQL 是 一 种 完全 的 数据 库 编程 语言 ， 包 括 数据 
定义 和 数据 操纵 语句 、 循 环 和 条 件 语句 、 变 量 、 过 程 以 及 函数 。Transact-SQL 支持 SQL: 2003 标准 中 

大 多 数 强制 的 DDL 查询 和 数据 修改 语句 以 及 结构 。 所 支持 的 SQL: 2003 数据 类 型 列表 参见 30. 2. 1 节 。 
除 强制 的 特性 外 ，Transact-SQL 也 支持 许多 SQL: 2003 标准 中 可 选 的 特性 ， 例 如 递归 查询 、 通 用 表 的 
表达 式 、 用 户 自 定义 函数 和 关系 算 子 ， 如 intersect 和 except， 还 有 其 他 的 。 

30. 2.1 数据 类 型 
SQL Server 2008 支持 SQL: 2003 标准 中 所 有 强制 的 标量 数据 类 型 。SQL Server 还 支持 使 用 用 户 提供 
的 名 字 定 义 系统 类 型 别名 的 能 力 。 别 名 和 SQL: 2003 中 的 distinct 类 型 功能 相似 ,但 并 不 与 之 完全 
兼容 。 
一 些 只 有 SQL Server 才 有 的 原始 数据 类 型 包括 : 
。 可 变 长 度 的 大 字符 和 二 进 制 串 类 型 ， 最 大 长 度 为 2' -1 字 节 , 使 用 varchar/nvarchar/varbinary 
(max) 数据 类 型 ， 它 们 拥有 一 个 类 似 于 小 字符 和 字 节 串 类 型 的 编程 模型 。 另 外 ， 它 们 支持 一 个 
称 为 FILESTREAM 的 存储 属性 ， 指 定 了 每 个 单独 列 取 值 的 数据 存储 为 文件 系统 中 单独 的 文件 ， 
FILESTREAM 存储 允许 使 用 本 地 文件 系统 API 来 更 高 性 能 地 流 式 访问 应 用 。 

。 XML 类 型 将 在 30. 11 节 介 绍 ， 用 于 在 表 的 列 中 存储 XML 数据 。XML 类 型 可 以 选择 用 一 个 相关 
的 XML 模式 集合 来 指定 一 个 约束 ， 使 得 类 型 的 实例 应 该 遵守 模式 集合 中 定义 的 一 种 XML 类 型 。 

e sql_variant 是 一 种 标量 数据 类 型 ， 它 可 以 包含 任何 SQL 标量 类 型 的 值 (除了 大 字符 和 二 进 制 类 
型 以 及 sql_variant) 。 如 果 一 个 应 用 需要 存储 数据 ， 但 是 该 数据 的 类 型 在 数据 定义 时 不 能 预知 ， 
则 要 用 到 该 类 型 。 执 行 unpivot 关系 运算 ( 见 30. 2. 2 节 ) 所 形成 的 列 的 类 型 也 是 sql_variant。 在 
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内 部 ， 系 统 保持 对 数据 初始 类 型 跟踪 。 在 sql_varient 列 上 可 能 做 过 滤 、 连 接 和 排序 。 系 统 郴 数 
sql_varient_property 能 够 返回 存储 在 sql_varient 类 型 的 列 中 的 实际 数据 的 细节 信息 ， 包 括 基本 
类 型 和 规模 信息 。 

。 hierarchyld 数据 类 型 使 得 存储 和 查询 层次 数据 更 加 容易 。 层 次 数据 定义 为 一 个 相互 之 间 通 过 层 
次 关系 关联 的 数据 项 的 集合 ， 其 中 数据 的 一 个 项 是 另 一 个 项 的 父亲 。 通 常 的 例子 包括 : 组 织 结 
构 、 层 次 文件 系统 、 项 目的 任务 集合 、 语 言 术语 的 分 类 学 、 单 继承 类 型 的 层次 、 部 分 - 子 部 分 
联系 和 Web 页 面 之 间 的 链接 图 。 

© SQL Server 支持 存储 和 查询 地 球 空间 数据 ， 即 涉及 地 球 的 位 置 数 据 。 这 些 数据 的 通用 模型 是 平 
面 和 大 地 坐标 系统 。 这 两 种 系统 主要 的 不 同 是 后 者 考虑 了 陆地 的 曲率 。SQL Server 支持 几何 学 
和 地 理学 ， 对 应 于 平面 的 和 大 地 的 模型 。 

此 外 ，SQL Server 支持 table 和 cursor 类 型 ， 它 们 不 能 用 于 表 中 的 列 ， 但 可 用 作 Transact-SQL 语言 里 

的 变量 : 

© 表 (table) 类 型 使 得 一 个 变量 能 够 容纳 行 的 集合 。 这 种 类 型 的 实例 主要 用 于 存放 存储 过 程 的 临时 
结果 或 以 表 为 值 的 函数 的 返回 值 。table 变量 和 局 部 变量 的 行为 一 样 。 它 有 确切 定义 的 作用 范 
围 ， 比 如 函数 、 存 储 过 程 或 者 是 声明 该 变量 的 批 处 理 中 。 在 其 作用 范围 内 ，table 变量 能 像 普通 
的 表 一 样 使 用 。 它 能 用 于 在 select. insert, update 和 delete 语句 中 的 任何 一 个 使 用 表 或 者 表 的 
表达 式 的 地 方 。 

© 游标 (cursor) 类 型 使 得 能 够 引用 游标 对 象 。 游 标 类 型 可 用 于 声明 变量 ,或 者 跨 例 程 调用 、 引 用 
游标 的 例 程 输 入 /输出 变 元 。 

30.2.2 查询 语言 增强 

除了 SQL 关系 运算 ,例如 内 连接 和 外 连接 ，SQL Server 还 支持 关系 运算 pivot、unpivot 和 apply 

o pivot 运算 转换 它 的 输入 结果 集 的 形状 ， 从 表示 名 - 值 对 的 两 列 转换 为 多 列 ， 来 自 输 入 的 每 个 
名 称 均 为 一 列 。 输 入 中 的 名 称 列 称 为 转轴 (pivot) 列 。 用 户 需要 指定 哪些 名 称 要 从 输入 转 置 到 输 
出 中 的 单独 列 。 考 虑 表 MonthlySales( ProductID, Month, SalesQty), FIRE JH pivot 运算 的 查询 
Žž Jan, Feb, Mar 每 个 月 返回 SalesQty 作为 单独 的 列 。 注 意 pivot 运算 还 在 表 中 所 有 其 他 列 上 执 
行 隐 式 聚集 ， 在 pivot 列 上 执行 显 式 聚集 。 


rie pivot( sum( SalesQty) for Month in( ‘Jan’, ‘Feb’, ‘Mar’)) T; 
pivot 的 反 运 算是 unpivot。 

。 apply 运算 类 似 于 连接 ， 不 过 它 右边 的 输入 是 一 个 表达 式 ， 可 能 包含 了 对 左边 输入 中 列 的 引用 ， 
例如 一 个 以 表 为 值 的 函数 调用 ， 它 将 来 自 左 边 输 入 的 一 列 或 多 列 作为 变 元 。 该 运算 产生 的 列 的 
集合 是 来 自 两 个 输入 的 列 的 并 。apply 运算 可 用 于 为 其 左边 输入 的 每 行 计算 右边 输入 的 值 ， 并 
在 所 有 这 些 计算 出 的 行 上 执行 union all 运算 。apply 运算 和 joint 一 样 有 两 类 ， 分 别 是 cross 和 
outer。 这 两 类 的 不 同 之 处 在 于 它们 如 何 处 理 右边 输入 产生 空 结果 集 的 情况 。 在 cross apply 的 
情况 下 ， 这 将 导致 来 自 左 边 输 入 的 相应 行 不 出 现在 结果 中 。 在 outer apply 的 情况 下 ， 来 自 左 边 
输入 的 行 出 现在 结果 中 ， 且 在 右边 输入 的 相应 列 上 取 NULL 值 。 考 虑 一 个 以 表 为 值 的 函数 
FindRepors， 它 的 输入 是 给 定 雇员 的 也， 并 返回 组 织 机 构 中 直接 或 间接 向 该 雇员 做 报告 的 雇员 
的 集合 。 以 下 的 查询 为 Departments 表 中 每 个 部 门 的 经 理 调用 这 个 函数 : 


select” 
from Departments D cross apply FindReports( D. ManagerID ) 


30.2.3 例 程 

用 户 可 以 使 用 Transact-SQL 或 . NET 语言 编写 例 程 ， 在 服务 器 进程 内 部 作为 标量 或 表 函 数 、 存 储 过 
程 和 触发 器 来 运行 。 所 有 这 些 例 程 在 数据 库 中 都 可 以 用 相应 的 create[ function, procedure, trigger | 
DDL 语句 定义 。 标 量 函 数 可 以 在 SQL DML 或 DDL 语句 内 部 的 任意 标量 表达 式 中 使 用 。 以 表 为 值 的 函 
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数 可 以 用 在 select 语句 中 任何 允许 出 现 表 的 地 方 。 主 体 包含 单条 SQL select 语句 的 Transact-SQL #2 {E K 
数 在 引用 该 函数 的 查询 中 被 当 作 视图 ( 内 联 扩展 ) 。 由 于 表 值 函数 允许 输入 变 元 ， 内 联 的 表 值 郴 数 就 可 ， 
看 作 参 数 化 的 视图 。 
30.2.3.1 带 索 引 的 视图 
除了 在 ANSI SQL 中 定义 的 传统 视图 ，SQL Server 还 支持 带 索引 的 (物化 ) 视 图 。 带 索引 的 视图 充分 
增强 了 复杂 决策 支持 查询 的 性 能 ， 该 类 查询 检索 基 表 中 大 量 的 行 ， 并 将 大 量 信息 聚集 为 简洁 的 总 和 、 
计数 以 及 平均 值 。SQL Server 支持 在 一 个 视图 上 创建 一 个 聚集 索引 以 及 任何 数量 的 非 聚集 索引 。 一 旦 
一 个 视图 带 索 引 ， 优 化 器 就 能 在 引用 该 视图 或 其 基 表 的 查询 中 使 用 它 的 索引 。 查 询 没 必要 为 在 查询 计 
划 中 使 用 带 索引 的 视图 而 显 式 提 及 视图 ， 因 为 匹配 是 根据 视图 定义 自动 完成 的 。 这 样 ， 现 有 查询 能 够 
从 提升 的 效率 中 受益 ， 因 为 可 以 直接 从 带 索 引 的 视图 中 检索 数据 ， 而 无 需 重 写 。 通 过 自动 传播 所 有 更 
新 来 维护 带 索 引 的 视图 和 基本 表 是 一 致 的 。 
30.2.4 带 过 滤 的 索引 
带 过 滤 的 索引 是 一 种 优化 的 非 聚 集 的 索引 ， 特 别 适 合 于 从 一 个 良好 定义 的 数据 子 集中 进行 选择 的 
查询 。 它 使 用 一 个 过 滤 谓 词 来 索引 表 中 行 的 一 部 分 。 一 个 设计 良好 的 带 过 滤 的 索引 可 以 提高 查询 性 能 ， 
降低 索引 维护 开销 ， 比 全 表 索 引 更 能 减少 索引 存储 代价 。 相 对 于 全 表 索 引 ， 带 过 滤 的 索引 可 以 提供 下 
述 好 处 : 
© 改进 查询 性 能 和 计划 的 质量 。 设 计 良 好 的 带 过 滤 的 索引 改进 查询 性 能 和 执行 计划 的 质量 ， 因 为 
它 比 全 表 的 非 聚 集 索 引 小 且 有 过 滤 统 计 信 息 。 由 于 只 包含 在 带 过 滤 的 索引 中 的 行 ， 过 滤 统 计 信 
息 比 全 表 统 计 信息 更 准确 。 
© 降低 索引 维护 开销 。 仅 当 数据 操纵 语言 (DML) 语 句 影响 索引 中 的 数据 时 ， 才 进行 索引 维护 。 因 
为 带 过 滤 的 索引 更 小 且 仅 当 该 索引 中 的 数据 被 影响 时 才 维护 ， 相 对 于 全 表 非 聚集 索引 ， 带 过 滤 
的 索引 降低 了 索引 维护 开销 。 有 可 能 存在 大 量 带 过 滤 的 索引 ， 特 别 是 当 它们 所 包含 的 数据 不 经 
常 被 影响 时 。 同 样 ， 如 果 带 过 滤 的 索引 只 包含 频繁 被 影响 的 数据 ， 这 种 更 小 的 索引 规模 减 小 了 
更 新 统计 信息 的 代价 。 
。 减少 索引 存储 代价 。 当 不 需要 全 表 索 引 时 ， 创 建 带 过 滤 的 索引 能 减少 用 于 非 聚集 索引 的 磁盘 存 
储 。 可 以 用 多 个 带 过 滤 的 索引 取代 一 个 全 表 非 聚集 索引 ， 而 不 会 显著 增加 存储 需求 。 
过 滤 的 统计 数据 也 可 以 显 式 地 创建 ， 独 立 于 带 过 滤 的 索引 。 
30.2.4.1 可 更 新 视图 和 触发 器 
通常 ， 如 果 数 据 修改 仅 发 生 在 视图 的 一 个 基 表 上 ， 那 么 视图 可 以 是 update, delete 或 者 insert 语句 
的 操作 对 象 。 对 划分 视图 的 更 新 操作 会 传播 到 多 个 基 表 。 比 如 ， 下 面 的 update 将 会 把 出 版 商 “0736 "的 
价格 提高 10% : 
update titleview 


set price = price’ 1.10 
where pub_id = ‘0736’ ; 


对 于 影响 到 多 个 基 表 的 数据 修改 ， 如 果 有 一 个 为 该 操作 定义 的 instead 触发 器 ， 则 该 视图 可 以 更 
新 。insert、update 或 delete 操作 的 instead 触发 器 可 以 定义 在 视图 上 ,来 指定 必须 在 基 表 上 执行 更 新 
以 反映 视图 上 的 相应 修改 。 
触发 器 是 在 基 表 或 者 视图 上 发 出 DML(update insert 或 delete) 语句 或 DDL 语句 时 自动 执行 的 
Transact-SQL 或 . NET 过 程 。 触 发 器 是 一 种 当 数 据 被 修改 或 执行 DDL 语句 时 允许 自动 执行 商务 逻辑 的 机 
制 。 触 发 器 可 以 扩充 描述 性 约束 、 默 认 值 和 规则 的 完整 性 检查 逻辑 ,尽管 只 要 描述 性 约束 够 用 就 应 当 
优先 使 用 它们 ， 因 为 它们 可 以 被 查询 优化 器 用 来 推断 数据 内 容 。 
根据 触发 触发 器 的 事件 类 型 ， 触 发 器 分 为 DML 触发 器 和 DDL 触发 器 。DML 触发 器 是 在 正 被 修改 
的 基 表 或 视图 上 定义 的 。DDL 触发 器 是 在 整个 数据 库 上 对 一 条 或 多 条 DDL 语句 ( 例如 create table、 
drop procedure 等 ) 定 义 的 。 
根据 调用 触发 器 的 时 间 相对 于 触发 它 的 动作 的 时 间 先 后 ， 可 分 为 after 触发 器 和 instead 触发 器 。 
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after 触发 器 在 触发 语句 及 随后 的 描述 性 约束 执行 之 后 才 执 行 。instead 触发 器 代替 触发 动作 执行 。 
instead 触发 器 可 认为 是 类 似 于 before 触发 器 的 ， 但 是 它 实 际 上 是 取代 了 触发 动作 。 在 SQL Server 中 ， 
DML after 触发 器 只 能 在 基 表 上 定义 ， 而 DML instead 触发 器 能 在 基 表 或 视图 上 定义 。instead 触发 需 事 
实 上 允许 任何 视图 都 可 以 通过 用 户 提供 的 逻辑 而 更 新 。DDL instead 触发 器 可 在 任意 DDL 语句 上 定义 。 


30.3 存储 和 索引 


在 SQL Server 中 ， 数 据 库 是 指 一 个 包含 数据 的 文件 集合 ， 它 由 单个 事务 日 志 来 支持 。SQL Server 中 
数据 库 是 管理 的 主要 单元 ， 它 还 为 物理 结构 ( 如 表 和 索引 ) 、 逻 辑 结构 ( 如 约束 和 视图 ) 提供 容器 。 
30. 3.1 文件 组 

为 了 有 效 管 理 数 据 库 中 的 空间 ， 数 据 库 中 的 数据 文件 集 被 划分 成 若干 组 ， 称 为 文件 组 。 每 个 文件 
组 包含 一 个 或 多 个 操作 系统 文件 。 

每 个 数据 库 至 少 有 一 个 文件 组 ， 称 为 主 文件 组 。 该 文件 组 在 系统 表 中 保存 了 数据 库 的 所 有 元 数据 ， 
主 文件 组 也 可 以 存放 用 户 数据 。 

如 果 用 户 创建 了 额外 的 自 定义 文件 组 ， 用 户 可 以 将 单独 的 表 、 索 引 或 者 表 的 大 对 象 列 存放 到 特定 
的 文件 组 中 ， 从 而 显 式 地 控制 它们 的 位 置 。 例 如 ， 用 户 可 以 选择 把 决定 性 能 的 关键 索引 存放 到 位 于 固 
态 硬盘 的 文件 组 上 。 类 似 地 ， 用 户 可 以 选择 将 包含 视频 数据 的 varbinary (max) 列 放 到 为 流 优化 的 IO 子 
系统 上 。 

30. 3.2 文件 组 内 的 空间 管理 

文件 组 的 主要 目的 之 一 是 进行 有 效 的 空间 管理 。 所 有 数据 文件 都 被 划分 成 固定 大 小 的 SKB 单元 ， 
称 为 页 。 分 配 系统 负责 把 这 些 页 分 配给 表 和 索引 。 分 配 系统 的 目标 是 把 空间 浪费 的 数量 减 到 最 小 ， 同 [L233 
时 保持 数据 库 中 的 碎片 数量 最 少 ， 以 保证 好 的 扫描 性 能 。 为 了 实现 这 个 目标 ， 分 配 管理 器 通常 以 8 个 
连续 页 ( 称 作 盘 区 ) 为 单位 进行 所 有 页 的 分 配 和 重 分 配 。 

分 配 系 统 通过 各 种 位 图 来 管理 这 些 盘 区 。 这 些 位 图 使 得 分 配 系统 可 以 快速 找到 一 个 页 或 者 盘 区 来 
进行 分 配 。 当 执行 全 表 扫 描 或 索引 扫描 时 也 用 到 这 些 位 图 。 利 用 基于 分 配 的 位 图 做 扫描 的 好 处 是 ， 它 
允许 按照 磁盘 顺序 遍历 属于 表 或 索引 叶 结 点 层 的 所 有 盘 区 ， 这 会 大 大 提高 扫描 性 能 。 

如 果 文 件 组 中 有 不 止 一 个 文件 ， 分 配 系统 使 用 * 比例 填充 ”( proportional fil) 算 法 来 给 该 文件 组 上 的 
任意 对 象 分 配 盘 区 。 每 个 文件 都 是 按 其 中 相对 于 其 他 文件 自由 空间 的 比例 来 填充 的 。 这 以 近似 相同 的 
比率 来 填充 文件 组 中 的 所 有 文件 ， 并 允许 系统 平均 地 使 用 文件 组 中 的 所 有 文件 。 文 件 也 可 以 设置 为 若 
文件 组 用 完 空间 则 自动 地 增长 。SQL Server 允许 文件 缩小 。 为 了 缩小 一 个 数据 文件 ，SQL Server 从 文件 
的 物理 尾 端 将 所 有 数据 移 到 一 个 更 靠近 文件 开头 的 位 置 ， 然 后 事实 上 缩小 文件 ， 把 剩余 空间 释放 给 操 
作 系 统 。 

30.3.3 # 

SQL Server 支持 堆 和 聚集 组 织 的 表 。 在 堆 组 织 的 表 中 ， 表 的 每 行 的 位 置 完 全 由 系统 决定 ， 用 户 不 
能 用 任何 方式 指定 。 堆 中 的 行 有 一 个 固定 的 标识 符 ， 称 作 row( RID) ， 该 值 一 直 保 持 不 变 ， 除 非 文件 缩 
小 且 该 行 被 移动 。 如 果 行 变 得 足够 大 以 至 于 它 原先 插入 到 的 页 面 放 不 下 了 ， 该 记录 会 移 到 别 的 地 方 ， 
但 在 原来 的 位 置 保留 了 一 个 转发 存根 ， 这 样 ， 就 仍然 可 以 用 其 原先 的 RID 来 找到 该 记录 。 

在 聚集 索引 组 织 的 表 中 ， 表 的 行 存放 在 一 棵 按 索 引 的 聚集 码 排序 的 B* 树 中 。 聚 集 索引 的 码 也 用 作 
每 行 的 唯一 性 标识 符 。 聚 集 索引 的 码 可 以 定义 为 非 唯 一 性 的 ， 在 这 种 情况 下 SQL Server 添加 一 个 隐藏 
列 来 使 得 该 码 唯一 。 聚 集 索 引 也 用 作 搜 索 结构 ， 来 识别 表 中 具有 某 个 特定 码 值 的 行 ， 或 者 扫描 码 在 特 
定 范围 内 的 表 中 的 一 组 行 。 聚 集 索 引 是 最 常用 的 表 组 织 形式 
30.3.4 索引 

SQL Server 还 支持 辅助 的 ( 非 聚集 )B* 树 索引 。 如 果 查 询 仅 涉及 那些 通过 辅助 索引 就 能 得 到 的 列 ， 
那 就 可 以 通过 检索 来 自 索引 叶 结 点 层 的 页 来 处 理 该 查询 ， 而 无 需 从 聚集 索引 或 堆 中 检索 数据 。 拥 有 聚 
集 索 引 的 表 上 的 非 聚 集 索引 包含 聚集 索引 的 码 列 。 这 样 ， 聚 集 索引 行 可 以 移动 到 不 同 的 页 (通过 分 裂 、1L234| 
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磁盘 碎片 整理 甚至 索引 重建 ) 而 无 需 改 变 非 聚 集 索 引 。 

SQL Server 支持 在 表 上 添加 计算 列 。 计 算 列 上 的 值 是 一 个 表达 式 ， 通 常 基于 该 行 中 其 他 列 的 值 。 
SQL Server 允许 用 户 在 计算 列 上 建立 辅助 索引 。 
30.3.5 分 区 

SQL Server 支持 在 表 和 非 聚集 索引 上 进行 范围 划分 。 分 区 索引 由 多 棵 B’' 树 组 成 ， 每 个 分 区 对 应 一 
RBM, RARE) 的 分 区 表 由 多 个 堆 组 成 ， 每 个 分 区 对 应 一 个 堆 。 简 而 言 之 ， 我 们 只 涉及 分 区 
索引 (聚集 的 或 非 聚集 的 ) ， 而 在 后 面 的 讨论 中 忽略 堆 。 

对 大 索引 进行 分 区 能 使 管理 员 更 灵活 地 管理 索引 的 存储 ， 并 提高 一 些 查询 的 性 能 ， 因 为 分 区 扮演 
了 粗 粒度 索引 的 角色 .。 

对 索引 的 分 区 由 提供 的 分 区 函数 和 分 区 模式 来 共同 指定 。 分 区 函数 把 分 区 列 (索引 中 的 任意 列 ) 的 
域 映射 到 标号 为 1 到 N 的 分 区 。 分 区 模式 将 分 区 函数 产生 的 分 区 号 映射 到 存储 分 区 的 特定 文件 组 。 
30.3.6 ”在线 创建 索引 

在 表 上 创建 新 索引 和 重建 现 有 索引 可 以 联机 执行 ， 例 如 ， 当 select, insert, delete 和 update 操作 
正在 表 上 执行 的 时 候 。 新 索引 的 创建 分 三 个 阶段 。 第 一 个 阶段 为 新 索引 简单 地 构造 一 棵 空 B* 树 ， 并 用 
目录 显示 新 索引 对 维护 操作 是 可 用 的 。 就 是 说 ， 新 索引 必须 由 所 有 后 续 的 insert 、delete 和 update 操作 
来 维护 ， 但 它 对 查询 不 可 用 。 第 二 阶段 包括 由 扫描 表 来 获得 每 行 的 索引 列 ， 对 行 排 序 并 将 它们 插入 新 
的 B' 树 中 。 这 些 插入 必须 和 新 B’' 树 中 的 其 他 行 小 心地 交互 ， 这 些 行 是 由 在 基 表 上 的 更 新 引起 的 索引 
维护 操作 插入 在 那里 的 。 这 种 扫描 是 快照 扫描 ， 没 有 加 锁 ， 保 证 扫描 看 到 仅 具 有 在 扫描 开始 时 已 提交 
事务 的 结果 的 整 张 表 。 这 是 通过 使 用 30. 5. 1 节 中 描述 的 快照 隔离 技术 实现 的 。 建 立 索 引 的 最 后 阶段 涉 
及 更 新 目录 以 示 索 引 创建 已 经 完成 ， 且 索引 对 查询 是 可 用 的 。 
30.3.7 ”扫描 和 预 读 

[1235] SQL Server 中 查询 的 执行 包括 对 底层 的 表 和 索引 的 各 种 不 同 的 扫描 模式 。 这 些 包括 有 序 和 无 序 扫 

描 ， 串 行 和 并 行 扫 描 ， 单 向 和 双向 扫描 ， 向 前 和 向 后 扫描 ， 全 表 或 索引 扫描 以 及 范围 或 过 滤 扫 描 。 

每 种 扫描 模式 都 有 一 种 预 读 机 制 ， 试 图 保持 扫描 先 于 查询 执行 的 需要 ， 以 减少 搜索 和 潜在 开销 ， 
并 充分 利用 磁盘 空闲 时 间 。SQL Server 预 读 算法 利用 来 自 查询 执行 计划 的 知识 以 促使 预 读 ， 并 保证 只 
有 那些 查询 真正 需要 的 数据 才 被 读 取 。 预 读 的 量 根据 缓冲 池 的 大 小 、 磁 盘子 系统 能 承受 的 VO 量 以 及 
查询 执行 时 消耗 数据 的 速率 来 自动 定 比 。 
30. 3.8 压缩 

SQL Server 支持 对 表 和 索引 的 行 及 页 压缩 。 行 压缩 使 用 一 种 可 变 长 度 的 数据 类 型 格式 ， 如 整数 ， 
它 在 传统 上 被 认为 是 定 长 的 。 页 压缩 去 除了 列 上 共同 的 前 组 并 为 共同 的 值 构建 了 一 个 逐 页 ( per-page ) 
字典 。 


30.4 查询 处 理 和 优化 


SQL Server 的 查询 处 理 器 基于 一 个 可 扩展 的 框架 ， 它 能 很 快 地 合并 新 的 执行 和 优化 技术 。 在 扩展 
的 关系 代数 中 ,任意 SQL 查询 可 用 一 棵 操作 树 来 表示 。 通 过 将 这 种 代数 的 运算 符 抽象 为 迭代 器 
(iterator) ， 查 询 执 行将 数据 处 理 算法 封装 为 逻辑 单元 ， 这 些 单元 之 间 使 用 GetNextRow( ) 接口 来 通信 。 
从 初始 查询 树 出 发 ， 查 询 优化 器 通过 使 用 树 形变 换 产 生 可 选 方案 ， 并 通过 考虑 和 迭代 器 行为 和 统计 模型 
来 估计 待 处 理 的 行 的 数量 ， 进 而 估计 这 些 方案 的 执行 代价 。 
30. 4.1 编译 处 理 概 述 

复杂 查询 提供 了 很 大 的 优化 机 会 ， 需要 跨 查 询 块 界线 对 运算 符 进行 重 排序 ， 并 仅 基 于 估计 的 开销 
来 选择 查询 计划 。 为 了 寻求 这 些 机 会 ， 查 询 优化 器 与 其 他 商用 系统 中 采用 的 传统 查询 优化 方法 不 同 ， 
它 支持 一 个 更 通用 的 、 纯 代数 的 、 基 于 级 联 优化 器 原型 的 框架 。 查 询 优化 器 是 查询 编译 处 理 的 一 部 分 ， 
由 以 下 四 步 组 成 : 
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© 解析 / 绑 定 (parsing/binding) 。 解 析 之 后 ， 绑 定 器 使 用 目录 来 分 解 表 名 和 列 名 。SQL Server 使 用 
查询 计划 高 速 缓存 来 避免 对 相同 的 或 结构 相似 的 查询 重复 优化 。 如 果 没 有 高 速 缓存 的 计划 可 
用 ， 则 产生 一 棵 初始 的 操作 树 。 操 作 树 仅 仅 是 关系 运算 的 组 合 ， 并 不 受 诸如 查询 块 或 派生 表 概 
念 的 限制 ， 它 们 通常 会 阻碍 优化 。 
© 简化 /规范 化 (simplification/normalization ) 。 优 化 器 在 操作 树 上 运用 简化 规则 得 到 一 种 规范 的 简 
化 形式 。 在 简化 过 程 中 ,优化 器 决定 并 加 载 基数 估计 所 需要 的 统计 数据 。 
© 基于 代价 的 优化 (cost-based optimization) 。 优 化 器 用 探测 和 实现 规则 来 产生 候选 方案 ， 估 计 执 行 
开销 ， 并 选择 预期 开销 最 小 的 查询 计划 。 探 测 规则 为 一 个 广泛 的 运算 符 集合 实现 重 排序 ， 包 括 
连接 和 聚集 重 排序 。 实 现 规则 引入 候选 方案 ， 如 归并 连接 和 散 列 连接 。 
。 查询 计划 准备 ( plan preparation) 。 优 化 器 为 选 定 的 查询 计划 建立 查询 执行 结构 。 
为 获得 最 好 的 结果 ， 基 于 代价 的 优化 不 是 分 阶段 的 ， 在 每 个 阶段 独立 地 优化 查询 的 不 同方 面 ; 它 
也 不 受 限 于 单个 的 维 ， 比 如 连接 枚 举 。 相 反 ， 一 组 转换 规则 定义 了 感 兴趣 的 空间 ， 并 统一 使 用 代价 佑 
计 来 选择 一 个 有 效 的 查询 计划 。 
30.4.2 查询 简化 
简化 时 ， 只 有 保证 产生 更 低 代价 的 替代 查询 的 转换 才 会 应 用 。 优 化 器 尽量 在 操作 树 上 把 选择 操作 
下 推 ; 它 检测 谓词 间 的 冲突 并 考虑 已 声明 的 约束 。 它 用 冲突 来 标示 可 以 从 树 中 移 除 的 子 表达 式 。 通 常 
情况 是 消除 那些 从 带 不 同 约束 的 表 中 检索 数据 的 union 分 支 。 
许多 简化 规则 是 上 下 文 相 关 的 。 也 就 是 说 ， 只 有 在 使 用 子 表达 式 的 上 下 文中 ,替代 操作 才 有 效 。 
比如 ， 如 果 随 后 有 一 个 过 滤 操 作 将 丢弃 那些 用 mall 填充 的 不 匹配 的 行 ， 那么 外 连接 可 简化 为 内 连接 。 
另 一 个 例子 是 ， 当 以 后 不 再 用 到 参照 表 上 的 列 时 ， 可 以 消除 外 码 上 的 连接 。 第 三 个 例子 是 在 重复 不 敏 
感 的 上 下 文中 ,这 意味 着 传送 一 行 的 一 个 或 多 个 拷贝 并 不 影响 查询 结果 。 半 连接 以 及 distinct 下 的 子 表 
达 式 是 重复 不 敏感 的 ， 例 如 ， 它 们 允许 把 union 转换 成 union all, 
GbAgg 运算 符 用 于 分 组 和 聚集 ， 它 创建 分 组 ， 并 有 选择 性 地 在 各 个 分 组 上 运用 聚集 函数 。SQL 中 
用 distinct 关键 字 表 达 的 消除 重复 只 不 过 是 一 种 不 计算 聚集 孔 数 的 Ci4gg。 在 简化 时 ， 有 关 关 键 字 和 郴 
数 依赖 的 信息 用 于 减少 分 组 的 列 。 
通过 去 除 相 关 的 查询 描述 并 使 用 一 些 替代 的 连接 变量 ， 可 以 将 子 查 询 规范 化 。 去 除 相 关 性 并 不 是 
“ 子 查询 执行 策略 ”， 而 仅仅 是 一 个 规范 化 步 又。 然后 在 基于 代价 的 优化 中 将 考虑 各 种 执行 策略 。 


30.4.3 重 排序 和 基于 代价 的 优化 

在 SQL Server 中 ， 转 换 完全 集成 到 执行 计划 的 基于 代价 的 生成 和 选择 中 。 查 询 优 化 器 包括 大 约 350 
条 逻辑 的 和 物理 的 转化 规则 。 除 了 内 连接 的 重 排序 ， 查 询 优 化 器 还 对 来 自 标准 关系 代数 ( 对 SQL 而 言 ， 
带 有 重复 ) 的 外 连接 、 半 连接 和 反 半 连接 运算 使 用 重 排序 转换 。GbAgg 操作 也 是 重 排 序 的 ， 通 过 在 可 能 
的 时 候 把 它 移 到 连接 之 下 或 之 上 。 部 分 聚集 ， 即 引入 一 个 新 的 Gbhgg 对 随后 的 GbAgg 的 列 的 超 集 进 行 
分 组 ， 是 在 连接 和 union all 之 下 考虑 的 ， 并 在 并 行 计划 中 也 是 如 此 。 详 细 描 述 请 参考 文献 注解 中 给 ! 
的 参考 文献 。 

相关 性 执行 在 探测 计划 时 考虑 ， 最 简单 的 情形 是 索引 查找 连接 。SQL Server 将 相关 性 执行 建 模 为 
单个 代数 运算 符 ， 称 为 apply， 它 在 表 了 以 及 一 个 参数 化 的 关系 表达 式 E) 上 操作 。Apply 为 7 的 每 一 
行 执行 已 ， 其 中 了 提供 参数 值 。 相 关 性 执行 被 认为 是 不 考虑 在 原始 SQL 表达 式 中 使 用 子 查询 的 一 种 蔡 
代 执 行 。 当 表 了 很 小 并 且 索 引 能 支持 E(t) 有 效 的 参数 化 执行 时 ， 这 是 一 种 很 有 效 的 策略 。 另 外 ， 当 有 
重复 的 参数 值 时 ， 我 们 考虑 通过 以 下 两 种 技术 来 减少 El) 的 执行 次 数 : 在 参数 值 上 对 了 排序 ， 当 参数 
值 保持 不 变 时 可 以 重用 单个 E(i) 的 结果 ; 或 者 利用 一 个 散 列表 保持 对 E(t) 关 于 较 早 参数 值 ( 的 某 些 子 
集 ) 的 结果 的 追踪 。 

某 些 应 用 基于 行 所 在 组 的 一 些 聚 集结 果 来 选择 行 。 比 如 ,“ 找 出 那些 余额 比 他 们 所 在 市 场 段 的 平均 
余额 的 两 倍 还 多 的 客户 ”。 这 个 SQL 表达 式 需 要 自 连 接 。 在 探测 方案 时 ， 这 种 模式 将 被 检测 到 ， 并 考 
虑 将 在 单 次 扫描 上 按 每 段 执行 作为 自 连 接 的 替代 方案 。 
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在 基于 代价 的 优化 中 ,还 可 以 考虑 利用 物化 视图 。 在 物化 视图 使 用 中 视图 匹配 和 运算 符 重 排序 的 
相互 影响 可 能 并 不 明显 ， 除 非 发 生 了 某 些 其 他 的 重 排序 。 当 发 现 一 个 视图 与 某 个 子 表达 式 匹配 时 ， 包 
含 该 视图 结果 的 表 被 加 进来 ， 作 为 相应 表达 式 的 替换 方案 。 它 也 许 比 原来 的 表达 式 更 好 ， 也 许 更 差 ， 
这 依赖 于 数据 分 布 和 所 能 利用 的 索引 。 究 竟 选 择 哪 种 方案 取决 于 对 它们 的 代价 估计 。 

为 了 估算 一 个 计划 的 执行 代价 ， 模 型 考虑 了 子 表达 式 执行 的 次 数 和 行 目标 (row goal) ， 它 是 预计 会 
被 父 操作 消耗 的 行 数 。 在 top-n 查询 和 Apply/semijoin 情况 下 ， 行 目标 可 以 少 于 估计 的 基数 。 例 如 ， 只 要 
E(t) 产 生 一 行 ( 即 它 测试 exists E(t) ) , Apply/semijoin 就 把 行 1 AKR T PH, BORE, E(t) ATT A 
标 就 是 1， 为 E(t) 的 这 个 行 目标 计算 出 E(t) 子 树 的 行 目标 ， 并 用 于 代价 估计 。 

30. 4.4 更 新 计划 

更 新 计划 优化 索引 维护 、 约 束 校 验 、 级 联动 作 应 用 、 物 化 视图 维护 。 对 于 索引 维护 ， 更 新 计划 并 
不 是 考虑 每 一 行 并 为 它 维护 所 有 索引 ， 而 是 按 每 个 索引 实施 修改 ， 按 关键 字 顺 序 将 行 排序 并 实施 更 新 
操作 。 这 就 把 随机 IO 减 到 最 少 ， 尤 其 是 当 待 更 新 的 行 数 很 大 时 。 约 束 是 通过 assert 运算 符 来 处 理 的 ， 
它 执行 一 个 谓词 ， 如 果 结 果 是 false 就 抛 出 一 个 错误 。 参 照 约束 是 通过 exists 谓词 来 定义 的 ， 它 相应 地 
变 成 一 些 半 连接 并 通过 考虑 各 种 执行 算法 来 进行 优化 。 

万 圣 节 问题 (在 前 面 13. 6 节 介 绍 过 ) 是 指 如 下 的 反常 : 假如 工资 索引 按 升 序 读 取 ， 并 正 将 工资 增 涨 
10% 。 更 新 的 结果 是 ， 行 会 在 索引 中 向 前 移动 ， 于 是 它们 又 被 发 现 并 再 次 更 新 ， 导 致 无 限 循 环 。 解 决 
这 个 问题 的 一 个 办 法 是 ， 把 处 理 过 程 分 成 两 个 阶段 : 首先 ， 读 出 所 有 将 要 更 新 的 行 ， 并 把 它们 复制 到 
某 些 临时 空间 中 ， 然 后 从 这 个 空间 读 取 并 实施 所 有 更 新 。 另 一 个 办 法 是 从 另外 一 个 索引 中 读 ， 该 索引 
中 的 行 不 会 因为 更 新 结果 而 移动 。 如 果 在 待 更 新 的 行 上 进行 排序 或 建立 散 列表 ， 则 有 些 执行 计划 提供 
了 自动 的 阶段 分 离 。 万 圣 节 问 题 防护 是 作为 计划 的 性 质 而 建 模 的 。 考 虑 提供 所 需 性 质 的 多 个 计划 ， 并 
基于 估计 的 执行 代价 选择 其 中 一 个 。 

30.4.5 优化 时 的 数据 分 析 

把 统计 数据 收集 作为 正在 进行 的 优化 的 一 部 分 执行 是 SQL 开创 性 的 技术 。 计 算 结 果 的 大 小 估计 基 
于 给 定 表 达 式 中 所 用 到 的 列 上 的 统计 数据 。 这 些 统计 数据 包括 列 值 上 的 最 大 差异 直方 图 和 许多 计算 密 
度 与 行 大 小 的 计数 器 ， 等 等 。 数 据 库 管 理 员 可 以 用 扩展 的 SQL 语法 来 显 式 创建 统计 数据 。 

不 过 如 果 给 定 列 上 没有 统计 数据 可 用 ，SQL Server 的 优化 器 将 暂停 正在 进行 的 优化 ， 并 收集 所 需 
的 统计 数据 。 一 旦 统计 数据 计算 出 来 ， 原 来 的 优化 利用 新 产生 的 统计 数据 再 继续 进行 。 后 续 查询 的 优 
化 重用 以 往 产生 的 统计 数据 。 典 型 地 ， 经 过 一 小 段 时 间 后 ， 频 繁 使 用 列 的 统计 数据 已 经 建 好 ， 为 收集 
新 的 统计 数据 而 发 生 的 中 断 就 变 得 不 频繁 了 。 通 过 保持 对 表 中 被 修改 行 数 的 跟踪 ， 为 所 有 受 影响 的 统 
计数 据 维护 了 一 个 过 期 度量 。 一 旦 过 期 超过 了 特定 国 值 ， 将 重新 计算 统计 数据 ， 并 重新 编译 高 速 缓存 
的 查询 计划 以 考虑 改变 后 的 数据 分 布 。 

统计 数据 可 以 异步 地 重新 计算 ， 这 避免 了 同步 计算 引发 的 潜在 的 较 长 的 编译 时 间 。 和 触发 统计 计算 
的 优化 潜在 地 使 用 旧 的 统计 数据 。 然 而 ， 随 后 的 查询 能 够 利用 重新 计算 的 统计 数据 。 这 人 允许 在 优化 花 
费 的 时 间 和 结果 查询 计划 的 质量 之 间 取 得 可 接受 的 平衡 点 。 

20.4.6 部 分 搜索 和 启发 式 搜索 

基于 代价 的 查询 优化 器 将 面临 搜索 空间 爆炸 问题 ， 因 为 应 用 程序 可 能 发 出 涉及 几 十 个 表 的 查询 。 
为 了 解决 该 问题 ，SQL Server 使 用 多 个 优化 阶段 ， 每 个 阶段 运用 查询 转换 来 连续 探测 更 大 范围 的 搜索 
空间 。 

有 简单 而 完整 的 转换 来 穷 举 所 有 优化 方案 ， 也 有 智能 转换 来 实现 各 种 局 发 式 搜索 。 智 能 转换 产生 
的 查询 计划 在 搜索 空间 中 相隔 很 远 ， 而 简单 转换 探测 相 邻 空间 。 优 化 阶段 采用 这 两 种 转换 的 混合 ， 首 
先 强调 智能 转换 ， 然 后 换 成 简单 转换 。 子 树 上 的 最 佳 结 果 被 保存 下 来 ， 以 便 后 续 阶 段 可 以 利用 早先 生 
成 的 结果 。 每 个 阶段 都 需要 权衡 对 立 计划 产生 技术 : 

© 穷 举 产生 替代 方案 : 为 了 生成 完整 的 空间 ， 优 化 器 使 用 完全 的 、 局 部 的 、 非 元 余 的 转换 ， 一 条 

转换 规则 等 价 于 一 系列 更 原始 的 转换 ， 这 种 规则 只 会 增加 额外 的 开销 。 
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© 启发 式 产生 候选 方案 : 少数 几 个 可 能 的 候选 者 (在 代价 估计 的 基础 上 选择 出 来 ) 可 能 在 原始 转换 

规则 方面 相差 很 远 。 这 里 ， 所 需 的 转换 是 非 完全 的 、 全 局 的 和 有 宛 余 的 。 

当 产 生出 第 一 个 查询 计划 以 后 ， 优 化 可 以 随时 终止 。 这 样 的 终止 是 基于 已 经 发 现 的 最 佳 计划 的 开 
销 估计 和 已 在 优化 中 花 去 的 时 间 。 上 比如， 如果 一 个 查询 只 需 在 一 些 索 引 中 查看 某 几 行 ， 则 在 早期 阶段 
就 可 能 很 快 产生 一 个 非常 廉价 的 计划 ， 从 而 终止 优化 。 在 合适 的 时 候 这 种 方法 允许 随后 容易 地 增加 新 
的 启发 式 方法 ， 而 不 用 在 基于 代价 的 计划 选择 或 者 搜索 空间 的 穷 举 探测 之 间 折 中 。 

30.4.7 查询 执行 

执行 算法 支持 基于 排序 和 基于 散 列 的 处 理 ， 而 且 它们 的 数据 结构 被 设计 成 优化 利用 处 理 器 高 速 组 
存 。 散 列 操作 支持 基本 的 聚集 和 连接 ， 带 有 许多 优化 、 扩 展 和 对 数据 倾斜 的 动态 调整 。flow-distinect jz 
算 符 是 hash-distinct 的 一 个 变 体 ， 一 旦 找到 新 的 独特 值 ， 就 输出 行 ， 而 不 用 等 处 理 完整 个 输入 。 这 个 操 
作对 于 那些 使 用 distinct 且 只 请 求 少数 几 行 的 查询 很 有 效 ， 例 如 使 用 top n 结构 。 指 定 执行 有 (+) 的 相关 
性 计划 ， 对 表 7 的 每 一 行 :， 通常 包含 一 些 基于 参数 的 索引 查找 。 异 步 预 取 ( asynchronous prefetching) fè 
许 给 存储 引擎 发 出 多 个 索引 查找 请 求 。 它 是 通过 这 种 方式 实现 的 :对 表 7 的 行 :， 发 出 一 个 无 阻塞 的 索 
引 查 找 请 求 ， 然 后 将 t 放 在 预 取 队列 中 。 这 些 行 从 队列 中 取出 并 由 apply 用 于 执行 (1)。E(1) 的 执行 
并 不 需要 数据 已 经 在 缓冲 池 中 ,但 是 有 明显 的 预 取 操作 会 最 大 限度 地 利用 硬件 并 提升 性 能 。 队 列 大 小 
是 由 一 个 高 速 缓存 函数 动态 决定 的 。 如 果 apply 的 输出 行 无 需 排序 ， 那 么 为 了 最 小 化 YO 等 待 时 间 ， 
从 队列 中 取出 行 也 可 不 按 顺序 。 

并 行 执行 是 通过 exchange 运算 符 实现 的 ， 它 管理 多 线程 、 分 区 或 广播 数据 ， 并 将 数据 送 入 多 个 进 
程 。 查 询 优 化 器 根据 代价 估计 来 决定 exchange 的 位 置 。 并 行 度 根据 当前 系统 利用 率 ， 在 运行 时 动态 
决定 。 

索引 计划 由 前 面 描述 的 那些 部 分 组 成 。 比 如 ， 我们 以 基于 代价 的 方式 考虑 使 用 索引 连接 来 解决 谓 
词 合 取 ( 或 者 用 索引 并 来 解决 谓词 析 取 ) 。 这 样 的 连接 可 以 用 SQL Server 的 任何 一 个 连接 算法 来 并 行 执 
行 。 仅 仅 为 了 把 查询 中 需要 的 一 组 列 拼 接 成 一 行 ， 我 们 也 考虑 用 连接 索引 ， 它 有 时 候 比 扫描 基 表 要 快 。 
从 辅助 索引 中 取出 记录 ID 并 在 基 表 中 定位 相应 的 行 ， 与 执行 索引 查找 连接 同样 有 效 。 为 此 ， 我 们 使 用 
普通 的 相关 执行 技术 ， 比 如 异步 预 取 。 

与 存储 引擎 的 通信 通过 OLE-DB 实现 ， 它 允许 访问 那些 实现 该 接口 的 其 他 数据 源 提 供 者 。OLE-DB 
是 用 于 分 布 式 和 远程 查询 的 机 制 ， 它 由 查询 处 理 器 直接 驱动 。 数 据 提供 者 可 根据 它们 提供 的 功能 范围 
来 分 类 ， 包 括 从 无 索引 能 力 的 简单 行 集合 提供 者 ， 到 完全 支持 SQL 的 提供 者 。 


30.5 并 发 与 恢复 

SQL Server 的 事务 、 日 志 、 封 锁 以 及 恢复 子 系统 实现 了 数据 库 系统 所 需 的 ACID 特性 。 
30. 5.1 事务 

在 SQL Server 中 每 条 语句 都 是 原子 的 ， 应 用 程序 能 够 为 每 条 语句 指定 不 同 的 隔离 性 级 别 。 单 个 事 
务 可 以 包含 的 语句 不 仅 可 以 是 选择 、 插 人 、 删 除 或 更 新 记录 的 语句 ， 还 可 以 是 创建 或 删除 表 、 建 立 索 
引 和 批量 导入 数据 。 事 务 可 以 跨越 远程 服务 器 上 的 数据 库 。 当 事务 散布 在 不 同 服务 器 之 间 时 ，SQL 
Server 使 用 一 个 称 作 微软 分 布 式 事务 协调 器 ( Microsoft Distributed Transaction Coordinator, MS DTC) 的 
Windows 操作 系统 服务 来 执行 两 阶段 提交 处 理 。MS DTC 支持 XA 事务 协议 ， 并 连同 OLE-DB 一 起 ， 为 
异 构 系 统 间 的 ACID 事务 提供 了 基础 。 

SQL Server 默认 使 用 基于 封锁 的 并 发 控制 。SQL Server 还 为 游标 提供 了 乐观 的 并 发 控制 。 乐 观 的 并 
发 控制 是 基于 这 样 一 种 假设 : 多 个 用 户 之 间 资 源 冲突 的 可 能 性 很 小 (但 不 是 不 可 能 ) ， 因 此 允许 事务 执 
47, 无需 封锁 任何 资源 。 只 有 当 试 图 改变 数据 时 ，SQL Server 才 检 查 资源 以 确定 是 否 发 生 过 冲突 。 如 
果 发 生 冲 突 ， 应 用 必须 重新 读数 据 并 再 次 尝试 改变 。 应 用 可 以 选择 通过 比较 值 或 者 通过 检查 行 上 一 个 
特殊 的 行 版 本 列 来 检测 改变 。 

SQL Server 支持 的 SQL 隔离 性 级 别 有 : 未 提交 读 、 已 提交 读 、 可 重复 读 和 可 串 行 化 。 已 提交 读 是 
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默认 级 别 。 另 外 ，SQL Server 支持 两 个 基于 快照 的 隔离 性 级 别 ( 前 面 在 15. 7 节 中 描述 过 快照 隔离 ) 
© 快照 (snapshot) : 指 一 个 事务 中 的 任何 语句 读 到 的 数据 将 是 事务 开始 时 所 存在 的 数据 的 事务 一 
致 性 版 本 。 其 效果 就 好 像 事务 中 的 语句 看 到 的 是 在 事务 开始 时 存在 的 已 提交 数据 的 一 个 快照 
写 操作 使 用 15.7 节 描 述 的 验证 步骤 来 验证 ， 只 有 验证 成 功 才 允许 完成 。 
© 已 提交 读 快 照 (read committed snapshot) : 指 在 一 个 事务 中 执行 的 每 条 语句 看 到 的 都 是 语句 开始 
时 存在 的 数据 的 事务 一 致 性 快照 。 这 和 已 提交 读 隔离 形成 对 比 ， 在 那里 语句 能 看 到 在 语句 执行 
时 已 提交 事务 所 提交 的 更 新 。 
30. 5.2 封锁 
封锁 是 用 于 实施 隔离 性 级 别 语义 的 主要 机 制 。 所 有 更 新 获得 足够 的 在 事务 整个 执行 期 间 持 有 的 排 
他 锁 以 防止 发 生 更 新 冲突 。 不 同 持续 时 间 所 持 有 的 共享 锁 为 查询 提供 不 同 的 SQL 隔离 性 级 别 。 
SQL Server 提供 了 多 粒度 封锁 ， 人 允许 事务 给 不 同类 型 的 资源 加 锁 ( 见 图 30-4， 其 中 资源 按 粒 度 由 小 
到 大 的 次 序 排列 ) 。 为 了 使 封锁 开销 最 小 ，SQL Server 按 任务 自动 给 资源 加 合适 粒度 的 封锁 。 在 越 小 粒 
度 上 加 锁 ， 比 如 在 行 上 加 锁 ， 提 高 了 并 发 度 ， 但 有 更 大 的 开销 ， 因 为 如 果 有 许多 行 需要 封锁 就 必须 持 
有 更 多 的 锁 。 
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行 标识 符 ; 用 于 封锁 表 中 单独 的 一 行 
在 一 个 索引 中 的 行 锁 ; 在 可 串 行 化 事务 中 保护 码 的 范围 
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图 30-4 可 封锁 的 资源 


基本 的 SQL Server 封锁 模式 有 : 共享 锁 (S) 、 更 新 锁 (U) 和 排他 锁 (X); 也 为 多 粒度 锁 提 供 了 意向 
锁 。 更 新 锁 用 来 防止 一 种 常见 的 死 锁 形 式 : 当 多 个 会 话 读 取 ， 封 锁 ， 然 后 潜在 地 更 新 资源 时 会 发 生 这 
种 死 锁 。 另 一 种 封锁 模式 ， 叫 码 范围 锁 ， 只 用 在 可 串 行 化 隔离 性 级 别 中 ， 用 于 封锁 索引 中 两 行 之 间 的 
范围 。 

30.5.2.1 动态 锁 

细 粒 度 的 锁 可 以 提高 并 发 度 ， 但 需要 花费 额外 的 CPU 周期 和 内 存 来 获得 和 持 有 很 多 封锁 。 对 于 很 
多 查询 ， 较 粗 的 封锁 粒度 提供 了 更 好 的 性 能 ， 同 时 没有 (或 有 很 小 的 ) 并 发 性 损失 。 数 据 库 传统 上 需要 
查询 提示 和 表 选 项 ， 让 应 用 程序 确定 封锁 粒度 。 另 外 ， 还 有 配置 参数 (通常 是 静态 的 ) 来 确定 分 配 多 少 
内 存 给 封锁 管理 器 。 

在 SQL Server 中 ， 为 获得 查询 中 用 到 的 每 个 索引 的 最 佳 性 能 和 并 发 度 ， 封 锁 粒 度 是 自动 优化 的 。 
而 且 ， 分 配给 封锁 管理 器 的 内 存 是 基于 系统 其 他 部 分 (包括 机 器 上 的 其 他 应 用 程序 ) 的 反馈 而 自动 调 
整 的 。 

在 查询 执行 前 ， 先 对 查询 中 用 到 的 每 个 表 和 索引 做 封锁 粒度 的 优化 。 封 锁 优化 处 理 考虑 了 隔离 性 
级 别 ( 即 封锁 保持 多 长 时 间 )、 扫 描 类 型 (范围 扫描 、 探 查 扫描 还 是 全 表 扫 描 )、 估 计 扫 描 的 行 数 、 选 择 
率 (所 访问 行 中 ,符合 条 件 的 行 的 百分数 ) 、 行 密度 (每 页 行 数 ) 、 操 作 类 型 (扫描 、 更 新 ) 、 用 户 在 粒度 
上 的 限制 以 及 可 用 的 系统 内 存 。 

一 旦 执行 查询 ， 如 果 系 统 获得 的 封锁 数量 远 远 超过 优化 器 的 估计 ,或 者 可 用 的 内 存 数量 下 降 且 不 
能 支持 所 需 的 封锁 数量 ,封锁 粒度 会 自动 升级 到 表 级 。 

30.5.2.2 死 锁 检 测 

SQL Server 自动 检测 涉及 锁 和 其 他 资源 的 死 锁 。 例 如 ， 如 果 事 务 A 拥有 Tablel 的 锁 并 等 待 可 用 的 
内 存 资源 ， 而 事务 BALA, 但 直到 获得 在 Tablel 上 的 锁 才 会 释放 ， 那 么 这 两 个 事务 就 形成 了 死 
锁 。 线 程 和 通信 缓冲 区 也 会 陷入 死 锁 。 当 SQL Server 检测 到 死 锁 时 ， 它 考虑 每 个 事务 已 完成 的 工作 量 ， 
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选择 代价 最 小 的 事务 作为 死 锁 牺 牲 者 ， 让 它 回 滚 。 

频繁 的 死 锁 检测 会 有 损 系 统 性 能 。SQL Server 根据 死 锁 发 生 频 率 ， 自 动 调整 死 锁 检 测 频率 。 如 果 [1242] 
KAREE, WOME S BETA. WRK, ETRE, RATION a 
算法 。 

30.5.2.3 用 于 快照 隔离 的 行 版 本 

两 种 基于 快照 的 隔离 性 级 别 使 用 行 版 本 来 达到 查询 隔离 ， 同 时 不 把 查询 阻塞 在 更 新 之 后 ， 反 之 亦 
然 。 在 快照 隔离 下 ， 更 新 和 删除 操作 生成 受 影响 的 行 的 版 本 ， 并 将 它们 存储 到 临时 数据 库 中 。 当 没有 
活跃 事务 再 需要 它们 时 ， 这 些 版 本 就 是 收集 的 垃圾 。 因 此 ， 在 快照 隔离 下 运行 的 查询 不 需要 获得 锁 ， 
而 可 以 读 取 被 另 一 个 事务 更 新 /删除 的 任何 记录 的 旧版 本 。 行 版 本 还 用 于 为 联机 建立 索引 操作 提供 表 的 
快照 。 
30.5.3 恢复 和 可 用 性 

SQL Server 被 设计 成 可 以 从 系统 和 媒介 故障 中 恢复 ,恢复 系统 能 够 支持 有 极 大 缓冲 池 (100GB) 和 有 
上 千 个 磁盘 驱动 器 的 机 器 。 

30.5.3.1 从 崩溃 中 恢复 

逻辑 上 ， 日 志 是 潜在 无 限 的 、 由 日 志 序列 号 (LSN ) 标识 的 日 志 记 录 流 。 物 理 上 ， 该 流 的 一 部 分 存 
储 在 日 志文 件 中 。 日 志 记录 保存 在 日 志文 件 中 ， 直 到 它们 被 备份 并 且 系统 在 回 滚 或 复制 时 不 再 需要 它 
们 为 止 。 日 志文 件 根据 所 需 存 储 的 记录 来 自动 调整 文件 大 小 。 在 不 阻塞 当前 任何 操作 的 情况 下 ， 附 加 
的 日 志文 件 可 以 加 到 正在 运行 的 数据 库 中 (例如 ， 在 新 的 磁盘 上 ) ， 所 有 日 志 被 当 作 是 一 个 连续 文件 . 

SQL Server 的 恢复 系统 与 ARIES 恢复 算法 ( 见 16.8 节 ) 有 很 多 方面 是 类 似 的 ， 本 节 强 调 了 它们 之 间 
的 一 些 主要 不 同 。 

SQL Server 有 一 个 称 为 恢复 间隔 ( recovery interval) 的 配置 选项 ， 它 允许 管理 员 限 制 SQL Server Æ AA 
溃 后 恢复 所 花 的 时 间 长 得 。 服 务 器 动态 调整 检查 点 频率 ， 以 将 恢复 时 间 减 少 到 恢复 间隔 之 内 。 检 查 点 
从 缓冲 池 刷 新 所 有 的 脏 页 面 ， 根 据 O 系统 的 能 力 和 它 的 当前 工作 负载 进行 调整 ， 以 有 效 地 消除 对 正 
在 运行 事务 的 任何 影响 。 

崩 演 后 重启 时 ， 系 统 启动 多 个 线程 (根据 CPU 数量 自动 调整 ) ， 以 开始 并 行 恢 复 多 个 数据 库 。 恢 复 [1244 
的 第 一 阶段 是 日 志 分 析 过 程 ， 它 建立 一 个 脏 页 表 和 活跃 事务 列表 。 第 二 阶段 是 重 做 过 程 ， 从 最 后 一 个 
检查 点 开始 重 做 所 有 操作 。 在 重 做 阶段 ， 脏 页 表 用 来 促成 数据 页 的 预 读 。 最 后 一 个 阶段 是 撤销 阶段 ， 
其 中 未 完成 的 事务 回 滚 。 撤 销 阶段 实际 上 分 成 两 部 分 ， 因 为 SQL Server 使 用 两 级 恢复 方案 。 第 一 级 的 
事务 (那些 涉及 诸如 空间 分 配 和 页 面 分 割 这 样 的 内 部 操作 的 事务 ) 首先 回 深 ， 然 后 是 用 户 事务 。 一 旦 第 
一 级 事务 回 滚 完成 ， 数 据 库 就 被 挂 上 线 ， 且 当 执 行 最 后 的 回 滚 操作 时 ， 就 可 用 于 开始 新 的 用 户 事务 。 
这 由 重 做 过 程 为 那些 在 撤销 阶段 会 回 滚 的 所 有 未 完成 的 用 户 事务 重新 获得 封锁 来 实现 。 

30. 5.3.2 介质 恢复 

SQL Server 的 备份 和 修复 能 力 允 许 系统 从 很 多 故障 中 恢复 ， 包 括 磁盘 介质 的 丢失 和 损坏 、 用 户 错 
误 以 及 服务 器 的 永久 损失 。 并 且 ， 备 份 和 修复 数据 库 还 可 以 有 其 他 用 途 ， 比 如 把 数据 库 从 一 台 服 务 器 
复制 到 另外 一 台 ， 并 维护 备用 系统 。 

SQL Server 有 三 种 不 同 的 恢复 模型 ， 用 户 可 以 为 每 个 数据 库 从 中 选择 恢复 模型 。 通 过 指定 一 种 恢 
复 模型 ， 管 理 员 声 明 所 需 恢 复 能 力 的 类 型 (如 时 间 点 修复 和 日 志 传送 ) 以 及 实现 它们 所 需 的 备份 。 备 份 
可 以 发 生 在 数据 库 、 文 件 、 文 件 组 和 事务 日 志 上 。 所 有 备份 都 是 模糊 的 且 完 全 联机 的 ; 也 就 是 说 ， 它 
们 在 执行 时 并 不 妨碍 任何 DML 或 DDL 操作 。 修 复 也 可 以 联机 进行 ， 仅 需 将 正在 修复 的 数据 库 部 分 ( 例 
如 损坏 的 磁盘 块 ) 离 线 。 备 份 和 修复 操作 是 高 度 优化 的 ， 仅 仅 受 进行 备份 的 介质 速度 的 限制 。SQL 
Server 能 够 备份 到 磁盘 和 磁带 设备 上 (并 行 多 达 64 个 ) ， 并 为 第 三 方 备份 产品 的 使 用 提供 高 性 能 的 备 
份 API. 

30.5.3.3 数据 库 镜 像 

数据 库 镜 像 包 括 将 数据 库 ( 主 数据 库 ) 的 每 次 更 新 立即 复制 到 一 个 独立 的 、 完 整 的 数据 库 拷贝 ( 镜 
像 数 据 库 ) 上 ， 此 拷贝 通常 放 在 另 一 台 机 器 上 。 在 主 服务 器 上 发 生 灾 难 或 甚至 仅仅 为 了 维护 的 情况 下 ， 








706 HAMS 实例 研究 


1245 





1246 


系统 将 在 几 秒 钟 内 自动 故障 转移 到 镜像 上 。 应 用 程序 使 用 的 通信 库 知 道 镜像 的 存在 ， 且 在 故障 转移 时 
会 自动 重新 连接 到 镜像 机 器 。 主 数据 库 上 的 事务 日 志 块 一 旦 产生 ， 就 发 送 到 镜像 并 在 镜像 上 重 做 日 志 
记录 ， 这 样 就 实现 了 主 数据 库 和 镜像 之 间 的 紧密 耦合 。 在 完全 安全 模式 下 ， 直 到 事务 的 日 志 记 录 写 到 
镜像 的 磁盘 上 ， 该 事务 才能 提交 。 除 了 支持 故障 转移 ， 镜 像 也 可 用 于 自动 修复 页 面 ， 其 方法 是 一 旦 在 
尝试 读 页 面 时 发 现 该 页 面 损坏 就 从 镜像 复制 它 。 


30.6 系统 体系 结构 


SQL Server 实例 是 单个 的 操作 系统 进程 ， 也 是 SQL 执行 中 请 求 的 命名 终点 。 为 了 执行 SQL， 应 用 
程序 通过 各 种 客户 端 库 ( 像 ODBC、OLE-DB 和 ADO. NET) 来 与 SQL Server 交互 。 


30. 6. 1 服务 器 上 的 线程 池 
为 了 使 服务 器 上 的 上 下 文 切换 最 少 ， 并 控制 多 道 程序 设计 的 程度 ，SQL Server 进程 维护 一 个 线程 
池 来 执行 客户 端 请 求 。 当 请 求 从 客户 端 到 达 时 ， 分 配 一 个 线程 来 执行 。 该 线程 执行 客户 端 发 出 的 SQL 
语句 ， 并 把 结果 返回 给 客户 端 。 一 旦 完成 客户 请 求 ， 线 程 就 返回 到 线程 池 。 除 了 用 户 请 求 ， 线 程 池 也 
用 来 给 内 部 后 台 任务 分 配 线程 ， 诸 如 : 
© 懒散 写 (lazywriter) 线程 : 这 个 线程 致力 于 保证 特定 数量 的 缓冲 池 是 空闲 的 ， 在 任何 时 候 都 可 用 
于 系统 分 配 。 该 线程 也 同 操作 系统 交互 ， 来 决定 SQL Server 进程 所 应 该 消耗 的 最 佳 内 存量 
© EA (checkpoint) 线程: 这 个 线程 周期 性 地 给 所 有 数据 库 设 检查 点 ,以便 在 服务 器 重启 时 ， 
为 数据 库 维 护 快速 的 恢复 间隔 。 
© 死 锁 监 视 器 ( deadlock monitor) 线程 : 这 个 线程 监视 其 他 线程 ， 在 系统 中 寻找 死 锁 。 它 负责 死 锁 
检测 并 选择 牺牲 者 ， 以 确保 系统 继续 进行 。 
当 查 询 处 理 器 选择 一 个 并 行 计划 来 执行 特定 查询 时 ， 它 能 分 配 多 个 线程 代表 主线 程 执 行 该 查询 
由 于 Windows NT 家 族 的 操作 系统 提供 本 地 线程 支持 ，SQL Server 利用 NT 线程 来 执行 。 然 而 ， 在 非常 
高 端的 系统 中 ，SQL Server 可 以 配置 成 除了 核心 线程 以 外 ,还 可 以 与 用 户 模式 线程 一 起 运行 ， 以 避免 
在 线程 切换 时 核心 上 下 文 切 换 的 开销 。 
30. 6.2 内存 管理 
在 SQL Server 进程 中 内 存 有 许多 不 同 的 用 途 : 
o 缓冲 池 ( buffer pool) 。 系 统 中 内 存 的 最 大 消耗 者 就 是 缓冲 池 。 绥 冲 池 维护 了 最 近 使 用 过 的 数据 
库 页 的 高 速 缓存 。 它 使 用 一 种 带 窃 取 、 非 强制 策略 的 时 钟 蔡 换算 法 。 也 就 是 说 ， 未 提交 更 新 的 
缓冲 页 可 能 被 蔡 换 出 去 (“被 窃取 ”)， 并 且 在 事务 提交 时 并 不 强制 将 缓冲 页 写 到 磁盘 上 。 缓冲 
区 也 遵循 先 写 日 志 协 议 ， 以 保证 月 演 和 介质 恢复 的 正确 性 。 
© 动态 内 存 分 配 ( dynamic memory allocation) 。 这 是 为 执行 用 户 提交 的 请 求 而 动态 分 配 的 内 在 
© 计划 与 执行 高 速 缓 存 ( plan and execution cache) 。 这 个 高 速 缓存 保存 了 系统 中 用 户 以 前 执行 过 的 
各 种 查询 的 已 编译 过 的 计划 。 这 就 允许 不 同 用 户 可 以 共享 相同 的 计划 (节约 内 存 ) ， 同 时 也 为 相 
似 查询 节省 了 查询 编译 时 间 。 
© 提供 大 内 存 (large memory grant) 。 这 用 于 消耗 大 量 内 存 的 查询 操作 符 ， 比 如 散 列 连接 和 排序 。 
SQL Server 用 一 个 精巧 的 内 存 管 理 方案 给 上 述 各 种 使 用 划分 内 存 。 单 个 内 存 管 理 器 集中 地 管理 SQL 
Server 使 用 的 内 存 。 这 个 内 存 管理 器 负责 在 系统 中 各 内 存 消费 者 之 间 动 态 划 分 和 重新 分 配 内 存 。 它 根 
据 对 内 存 的 任何 特定 使 用 相关 的 成 本 效益 分 析 来 分 配 这 些 内 存 。 所 有 部 件 都 可 以 使 用 通用 的 LRU 基础 
机 制 。 这 种 高 速 缓存 基础 机 制 不 仅 跟踪 高 速 缓存 数据 的 生命 周期 ， 还 跟踪 创建 和 高 速 缓 存 这 些 数据 而 
导致 的 相关 CPU 和 1/0 代价 。 这 些 信 息 用 来 确定 不 同 数据 高 速 缓存 的 相关 代价 。 内 存 管理 器 的 重点 集 
中 在 丢弃 那些 最 近 没 有 使 用 且 高 速 缓存 代价 小 的 高 速 缓存 数据 。 例 如 ， 给 定 相 同 的 访问 频率 ， 需 要 好 
几 秒 CPU 时 间 来 编译 的 复杂 查询 计划 比 简单 计划 更 可 能 驻 留 在 内 存 中 。 
内 存 管理 器 同 操作 系统 交互 ， 以 动态 决定 它 应 该 消耗 系统 总 内 存量 中 的 多 少 。 这 使 得 SQL Server 
在 使 用 系统 中 的 内 存 方面 非常 积极 ， 但 还 能 保证 在 其 他 程序 需要 内 存 且 不 增加 额外 的 页 面 错误 时 ， 能 
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把 内 存 返 还 给 系统 。 

另外 内 存 管 理 器 知道 系统 的 CPU 和 内 存 的 拓扑 结构 。 特 别 地 ， 它 利用 许多 机 器 采用 的 NUMA ( 非 
均匀 的 内 存 访问 ) ， 并 尝试 维护 在 执行 线程 的 处 理 器 和 它 所 访问 的 内 存 之 间 的 位 置 。 
30. 6.3 安全 性 

SQL Server 为 认证 、 授 权 、 审 计 和 加 密 提 供 了 全 面 的 安全 机 制 和 策略 。 认 证 可 以 通过 SQL Server 管 
理 的 用 户 名 - 密码 对 ， 也 可 以 通过 Windows OS 账户 。 授 权 是 通过 把 权力 授予 给 模式 对 象 或 覆盖 在 诸如 数 
据 库 或 服务 器 实例 那样 的 容器 对 象 上 来 管理 的 。 在 检查 授权 的 时 候 ， 权 力 被 向 上 钻 取 并 计算 ， 说 明 主 体 
的 权力 覆盖 和 角色 成 员 资格 。 审 计 采 用 与 权力 相同 的 方式 来 定义 一 一 对 于 给 定 的 主体 或 包含 对 象 定义 在 
模式 对 象 上 ， 并 且 在 操作 时 它们 是 基于 对 象 上 的 审计 定义 和 关于 主体 的 任何 覆盖 审计 或 角色 成 员 资格 的 
说 明 而 动态 计算 的 。 为 了 不 同 目的 的 审计 可 以 定义 多 个 审计 ， 如 Sarbanes Oxley 和 HIPAA = ， 可 以 分 别 
管理 而 没有 彼此 破坏 的 风险 。 审 计 记 录 可 以 写 到 文件 中 或 Windows Security Log 中 。 

SQL Server 同时 提供 了 数据 的 手动 加 密 和 透明 加 密 。 透 明 的 数据 加 密 在 写 到 磁盘 时 加 密 所 有 的 数 
据 页 和 日 志 页 ， 并 在 从 磁盘 读 出 时 解密 ， 所 以 数据 驻 留 在 磁盘 上 时 是 加 密 的 ， 但 对 SQL Server 用 户 却 
是 明文 ， 不 需要 修改 应 用 。 透 明 的 数据 加 密 比 手动 加 密 的 CPU 效率 更 高 ， 因 为 数据 只 在 写 到 磁盘 时 加 
密 ， 并 且 这 是 在 更 大 的 单元 、 页 上 完成 的 ， 而 不 是 在 个 别 的 数据 单元 上 完成 的 。 

有 两 件 事情 对 用 户 的 安全 性 甚至 更 为 关键 : (1) 整 个 代码 库 自 身 的 质量 ，(2) 用 户 决定 他 们 是 否 正 
确 地 保护 了 系统 的 能 力 。 通 过 使 用 安全 开发 生命 周期 ( Security Development Lifecycle ) 能 提高 代码 库 的 质 
量 。 产 品 的 所 有 开发 人 员 和 测试 人 员 都 经 过 安全 培训 。 所 有 特性 都 被 威胁 建 模 以 确保 资产 受到 合适 的 
保护 。 只 要 有 可 能 ，SQL Server 利用 操作 系统 底层 的 安全 特征 而 不 是 自己 来 实现 ， 例 如 Windows 操作 
系统 认证 (Windows OS Authorization ) 和 用 于 审计 记录 的 Windows 安全 日 志 ( Windows Security Log). 3% 
外 ， 利 用 大 量 内 部 工具 来 分 析 代码 库 ， 寻 找 潜 在 的 安全 隐患 。 使 用 模糊 测试 = 和 测试 威胁 模型 来 验证 
安全 性 。 在 发 布 之 前 ， 还 有 对 产品 的 最 后 一 次 安全 性 复查 ， 响 应 计划 也 到 位 了 ， 用 于 应 对 发 布 之 后 发 
现 的 安全 问题 一 一 当 发 现 问题 之 后 就 执行 该 计划 。 

提供 大 量 特 性 来 帮助 用 户 正 确 地 保护 系统 。 一 个 这 样 的 特性 是 一 项 称 为 默认 关闭 (off-by-default) 的 
基本 方针 ， 其 中 许多 不 常用 的 或 者 那些 需要 额外 安全 性 考虑 的 部 件 在 默认 情况 下 是 完全 禁用 的 。 另 外 

一 个 特性 是 最 佳 实践 分 析 器 ， 它 针对 可 能 导致 安全 漏洞 的 系统 设置 的 配置 给 用 户 发 出 警告 。 基 于 策略 
的 管理 进一步 允许 用 户 去 定义 这 些 设置 应 该 是 什么 样 的， 是 警告 或 者 是 防止 修改 可 能 与 认可 的 设置 发 
生 冲 突 。 


30.7 数据 访问 


SQL Server 支持 如 下 应 用 编程 接口 (API) ， 用 于 构建 数据 密集 型 应 用 

© ODBC。 这 是 微软 对 标准 SQL: 1999 调用 层 接口 (CLI) 的 一 个 实现 。 它 包括 对 象 模型 一 一 远程 
数据 对 象 (RDO ) 和 数据 访问 对 象 ( DAO ) 一 一 这 使 得 用 像 Visual Basic 这 样 的 编程 语言 来 编写 多 
层 数据 库 应 用 更 加 容易 。 

© OLE-DB。 这 是 为 程序 员 设计 的 用 来 构建 数据 库 组 件 的 一 个 低层 次 的 、 面 向 系统 的 API。 该 接 
口 是 根 据 微 软 的 组 件 对 象 模型 (Component Object Model，COM ) 构 架 的 ， 它 允许 封装 低层 的 数据 
库 服 务 ， 如 rowset providers, ISAM prividers 以 及 查询 引擎 。SQL Server 中 使 用 OLE-DB 来 集成 关 
系 查询 处 理 器 和 存储 引 警 ， 并 且 能 够 对 SQL 和 其 他 外 部 数据 源 进 行 复制 和 分 布 式 访问 。 和 
ODBC 类 似 ，OLE-DB 包括 称 为 ActiveX Data Objects( ADO) 的 更 高 层 对 象 模型 ， 让 使 用 Visual 
Basic 编写 数据 库 应 用 程序 更 加 简单 。 

。 ADO. NET。 这 是 为 用 . NET 语言 (例如 C# 和 Visual Basic. NET) 编 写 的 应 用 设计 的 API。 此 接口 





© Sarbanes-Oxley 法 案 是 美国 政府 金融 规则 法 律 。HIPAA 是 美国 政府 卫生 保健 法 律 ， 它 包含 卫生 保健 相关 信息 的 
法 则 。 
四 ”模糊 测试 是 一 种 基于 随机 化 的 技术 ,用 于 料想 之 外 的 、 可 能 无 效 的 、 输 入 的 测试 。 
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简化 了 ODBC 和 OLE-DB 支持 的 一 些 公 共 数 据 访问 模式 。 另 外 ， 它 提供 了 新 的 数据 集 ( data set) 
模型 来 支持 无 状态 、 非 连贯 的 数据 访问 应 用 。ADO. NET 包括 ADO. NET 实体 框架 ( entity 
framework) ， 它 是 一 个 在 这 样 的 数据 上 进行 编程 的 平台 ， 这 些 数据 将 抽象 层次 从 逻辑 (关系 ) 层 
提升 到 概念 (实体 ) 层 ， 从 而 大 大 降低 了 应 用 和 数据 服务 (如 报表 、 分 析 和 复制 ) 的 阻抗 失 配 。 
概念 数据 模型 是 使 用 扩展 关系 模型 实现 的 ， 即 实体 数据 模型 Entity Data Model, EDM), Ef 
含 实体 和 联系 作为 最 高 级 的 概念 。 它 包括 一 种 用 于 EDM 的 称 为 实体 SQL( entity SQL) 的 查询 语 
言 ， 一 个 全 面 的 映射 引擎 把 概念 层 翻译 为 逻辑 (关系 ) 层 ， 以 及 一 组 模型 驱动 工具 帮助 开发 人 员 
定义 对 象 与 实体 到 表 之 间 的 映射 。 

e LINO。 集 成 语言 的 查询 ( Language-INtegrated Query, LINQ) 允许 在 编程 语言 (如 C# 和 Visual 
Basic) 中 直接 使 用 描述 性 的 、 面 向 集合 的 构造 。 查 询 表达 式 不 是 由 外 部 工具 或 语言 预 处 理 器 来 
处 理 的 ， 而 是 由 语言 本 身 的 最 高 级 表达 式 。LINQ 使 得 查询 表达 式 受 益 于 丰富 的 元 数据 、 编 译 
时 语法 检查 、 静 态 类 型 和 之 前 只 对 命令 式 代码 可 用 的 自动 完成 。LINQ 定义 了 一 个 通用 的 标准 
查询 操作 集合 ， 人 允许 遍 历 、 过 滤 、 连 接 、 投 影 、 排 序 和 分 组 操作 在 任何 基于 .NET 的 编程 语言 
中 可 以 用 直接 的 甚至 描述 性 的 方式 表达 。C# 和 Visual Basic 也 支持 查询 理解 ， 如 : 利用 标准 查 
询 操作 的 语言 语法 扩展 。 

© DB-Lib。 为 C API 而 设 的 DB-Library 是 为 了 在 SQL-92 标准 之 前 的 SQL Server 早期 版 本 中 使 用 而 
专门 开发 的 API。 

。 HTTP/SOAP。 应 用 可 以 使 用 HTTP/SOAP 请 求 来 调用 SQL Server 查询 和 过 程 。 应 用 可 以 使 用 这 
样 的 URL， 它 指定 了 网 络 信息 服务 器 ( Internet Information Server, US) 的 虚拟 根 目 录 ， 该 根 目录 
引用 了 一 个 SQL Server 实例 。 该 URL 可 以 包含 XPath 查询 Transact-SQL 语句 或 XML 模板 。 


30.8 分 布 式 异 构 查询 处 理 


SQL Server 的 分 布 式 异 构 查询 能 力 允 许 通 过 运行 在 一 台 或 多 台 机 器 上 的 OLE-DB 数据 提供 者 对 多 种 
关系 型 以 及 非 关系 型 数据 源 进 行事 务 查询 与 更 新 。SQL Server 提供 两 种 方法 在 Transact-SQL 语句 中 引用 
异 构 的 OLE-DB 数据 源 。 链 接 服务 器 命名 ( linked-server-names ) 方法 用 系统 存储 过 程 将 服务 器 名 称 和 
OLE-DB 数据 源 关 联 起 来 。 在 这 些 链 接 服务 器 中 的 对 象 可 以 在 Transact-SQL 语句 中 使 用 下 面 描述 的 四 部 
分 命名 约定 来 引用 。 例 如 ， 如 果 一 台 名 为 DeptSQLSror 的 链接 服务 器 是 在 另 一 份 SQL Server 拷贝 上 定义 
的 ， 下 述 语句 引用 该 服务 器 上 的 一 个 表 : 


select ` 
from DeptSQLSrvr. Northwind. dbo. Employees ; 


OLE-DB 数据 源 在 SQL Server 中 作为 链接 服务 器 注册 。 一旦 定义 了 链接 服务 器 ， 它 的 数据 就 能 用 四 
部 分 命名 来 访问 : 


< linked-server >. < catalog >. <schema >. < object > 


下 面 的 例子 通过 Oracle 的 OLE-DB 提供 者 来 建立 连接 到 Oracle 服务 器 的 链接 服务 器 : 


exec sp_addlinkedserver OraSvr, ‘Oracle 7.3’, “MSDAORA’ , ‘ OracleServer’ 
该 链接 服务 器 上 的 一 个 查询 表达 为 : 


select * 
from OraSvr. CORP. ADMIN. SALES; 


此 外 ，SQL Server 支持 内 置 的 参数 化 的 表 值 函 数 ， 称 为 openrowset 和 openquery， 它 们 允许 用 提供 
者 支持 的 本 地 语言 把 未 经 解释 的 查询 分 别 发 送 给 提供 者 或 链接 服务 器 。 下 述 查询 合并 了 存储 在 Oracle 
服务 器 中 和 微软 索引 服务 器 ( Microsoft Index Server) 中 的 信息 。 它 列 出 了 包含 词语 Data” 和” Access ”的 
所 有 文档 以 及 它们 的 作者 ， 并 按 作者 的 部 门 和 名 称 排序 。 
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select e. dept, f. DocAuthor, f. FileName 
from OraSvr. Corp. Admin. Employee e, 
openquery ( EmpFiles, 
' select DocAuthor, FileName 
from scope( “c: \ EmpDocs” ) 
where contains(’ * “Data” near( ) “Access” ° °) >0°) asf 
where e. name = f. DocAuthor 
order by e. dept, f. DocAuthor ; 


关系 引擎 用 OLE-DB 接口 打开 链接 服务 器 上 的 行 集合 (rowset) ， 获 取 行 并 管理 事务 。 对 于 每 个 作为 
链接 服务 器 访问 的 OLE-DB 数据 源 ， 在 运行 SQL Server 的 服务 器 上 必须 有 一 个 OLE-DB 提供 者 。 能 在 特 


定 OLE-DB 数据 源 上 使 用 的 Transact-SQL 操作 集合 依赖 于 OLE-DB 提供 者 的 能 力 。 只 要 性 价 比 高 ，SQL 


Server 就 把 关系 操作 ( 比如 连接 、 约 束 、 投 影 、 排 序 和 分 组 操作 ) 推 给 OLE-DB 数据 源 。SQL Server 用 微 
软 的 分 布 式 事务 协调 器 ( Microsoft Distributed Transaction Coordinator) 以 及 提供 者 的 OLE-DB 事务 接口 来 
保证 跨越 多 个 数据 源 的 事务 的 原子 性 。 


30.9 复制 


SQL Server 的 复制 是 一 套 技术 ， 用 来 将 数据 和 数据 库 对 象 从 一 个 数据 库 复制 并 分 布 到 另 一 个 数据 
库 ， 并 跟踪 变化 ， 在 不 同 数据 库 之 间 保 持 同 步 以 维护 一 致 性 。SQL Server 复制 还 提供 大 部 分 数据 库 模 
式 变化 的 内 联 复制 ， 无 须 任何 中 断 或 重新 配置 。 

典型 的 数据 复制 是 为 了 增加 数据 可 用 性 。 出 于 建立 报表 的 目的 ， 复 制 能 够 上 卷 来 自 地 理 位 置 分 散 
的 站 点 的 全 部 数据 ， 并 给 在 局 域 网 上 的 远程 用 户 、 拨 号 连接 或 因特网 上 的 移动 用 户 分 发 数据 。 通 过 向 
外 扩展 以 改善 在 各 副本 之 间 整 体 读 的 性 能 (这 在 为 Web 网 站 提供 的 中 间 层 数据 高 速 缓存 服务 中 是 常见 
的 ) ， 微 软 SQL Server 复制 还 提高 了 应 用 的 性 能 。 

30. 9.1 复制 模型 

SQL Server 把 出 版 -订阅 (Publish-Subscribe ) 比喻 引入 到 数据 库 复制 中 ， 并 把 这 种 出 版 业 比 喻 扩展 
到 其 整个 复制 管理 和 监视 工具 中 。 

出 版 者 (publisher) 是 一 个 使 得 数据 可 用 于 复制 到 其 他 服务 器 的 服务 器 。 出 版 者 可 以 有 一 个 或 多 个 
出 版 物 ， 每 个 代表 逻辑 相关 的 数据 和 数据 库 对 象 的 集合 。 出 版 物 中 的 离散 对 象 (包括 表 、 存 储 过 程 、 用 
户 自 定 义 函 数 、 视 图 、 物 化 视图 以 及 更 多 ) 称 为 文章 (article) 。 向 出 版 物 增 加 一 篇 文章 允许 广泛 定制 该 
对 象 复制 的 方式 ， 比 如 限制 哪些 用 户 可 订阅 以 接受 它 的 数据 ， 以 及 数据 集 应 该 在 表 的 投影 或 选择 的 基 
础 上 分 别 通 过 “水 平 " 和 “垂直 ”过 滤器 来 如 何 过 滤 。 

订阅 者 (subscriber) 是 从 出 版 者 那里 接收 复制 数据 的 服务 器 。 订 阅 者 可 以 方便 地 从 一 个 或 多 个 出 版 
者 那里 只 订阅 他 们 所 需 的 出 版 物 ， 无 需 考 虑 每 个 实现 的 复制 选项 的 数量 或 类 型 。 依 赖 于 所 选择 的 复制 
选项 类 型 ， 订 阅 者 要 么 用 作 只 读 副 本 ， 要 么 可 以 改变 数据 ， 并 把 改动 自动 传播 回 出 版 者 ， 继 而 传播 到 
所 有 其 他 副本 。 订 阅 者 也 可 以 重新 出 版 他 们 所 订阅 的 数据 ， 支 持 和 企业 需求 一 样 灵 活 的 复制 拓扑 。 

分 发 者 ( distributor) 是 扮演 多 种 角色 的 服务 器 ， 这 取决 于 所 选择 的 复制 选项 。 至 少 它 用 作 存 储 历 史 
和 错误 状态 信息 的 仓库 。 在 其 他 情况 下 ， 它 被 额外 地 用 作 存 储 与 转发 队列 的 中 介 ， 将 复制 的 有 效 载荷 
的 递送 扩展 到 所 有 订阅 者 。 

30.9.2 复制 选项 

微软 SQL Server 复制 提供 了 很 大 范围 内 的 复制 选项 。 为 了 选择 使 用 合适 的 复制 选项 ， 数 据 库 设 计 
者 必须 确定 应 用 需求 ， 考 虑 所 涉及 站 点 的 自治 操作 以 及 所 需 的 事务 一 致 性 程度 。 

快照 复制 ( snapshot replication ) 完 全 按照 在 某 一 时 刻 出 现 的 数据 与 数据 库 对 象 来 复制 和 分 发 它们 。 
快照 复制 无 需 跟 踪 持 续 的 变化 ， 因 为 变化 不 会 增 量 地 传播 给 订阅 者 。 订 阅 者 通过 由 出 版 定义 的 完全 出 
新 的 数据 集 来 定期 更 新 。 快 照 复 制 的 可 用 选项 可 以 过 滤 发 布 数据 ， 并 人 允许 订阅 者 修改 复制 数据 并 把 这 
些 变化 传播 回 出 版 者 。 这 种 类 型 的 复制 最 适合 于 较 少 量 的 数据 ， 并 且 当 更 新 通常 影响 到 足够 多 的 数据 
时 ， 复 制 数据 的 完全 刷新 是 有 效 的 。 
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利用 事务 复制 ( transactional replication) ， 出 版 者 把 数据 的 初始 快照 传播 给 订阅 者 ， 然 后 以 离散 的 事 
务 或 命令 的 形式 把 增 量 的 数据 修改 转发 给 订阅 者 。 增 量 修改 的 跟踪 发 生 在 SQL Server 核心 引擎 的 内 部 ， 
它 在 出 版 数据 库 的 事务 日 志 中 标记 影响 复制 对 象 的 事务 。 一 个 称 作 日 志 读 取代 理 (log reader agent) 的 复 
制 进程 从 数据 库 事 务 日 志 里 读 取 这 些 事务 ， 应 用 可 选 的 过 滤器 ， 并 把 它们 保存 在 分 发 数据 库 中 。 分 发 
数据 库 的 行为 就 像 是 支持 事务 复制 的 存储 与 转发 机 制 的 可 靠 队 列 ( 可 靠 队 列 和 26. 1. 1 节 中 描述 的 持久 
队列 一 样 ) 。 另 外 一 个 称 为 分 发 代理 ( distribution agent) 的 复制 进程 随后 将 这 些 变化 转发 到 每 个 订阅 者 
与 快照 复制 类 似 ， 事 务 复制 为 订阅 者 提供 选项 ， 使 得 更 新 要 么 使 用 两 阶段 提交 来 反映 那些 变化 在 发 布 
方 和 订阅 方 是 一 致 的 ， 要 么 在 订阅 方 将 变化 排队 ， 由 一 个 复制 进程 来 异步 检索 ， 该 复制 进程 稍 后 将 变 
化 传播 给 出 版 者 。 当 需要 保存 多 个 更 新 之 间 的 中 间 状 态 时 ， 这 种 类 型 的 复制 更 合适 。 

归并 复制 ( merge replication) 允许 企业 中 每 个 副本 完全 自治 地 工作 ,无 论 是 在 线 还 是 离线 。 系 统 在 
每 个 复制 数据 库 里 跟踪 出 版 方 和 订阅 方 的 出 版 对 象 变化 的 元 数据 ， 复 制 代理 在 复制 对 之 间 进 行 同步 时 
把 这 些 数据 改变 归并 在 一 起 ， 并 通过 自动 冲突 检测 与 消除 来 保证 数据 收敛 。 同 步 进 程 中 使 用 的 很 多 冲 
突 解决 策略 选项 构建 在 复制 代理 中 ， 定 制 的 冲突 消解 方案 可 以 通过 使 用 存储 过 程 或 者 可 扩展 的 组 件 对 
象 模型 ( COM ) 接口 来 编写 。 这 种 类 型 的 复制 并 不 复制 所 有 中 间 状 态 ， 而 只 复制 同步 时 的 数据 当前 状 
态 。 当 没有 连接 到 任何 网 络 时 仍然 需要 副本 具备 自治 更 新 的 能 力 时 ， 这 种 复制 是 合适 的 。 


30. 10 .NET 中 的 服务 器 编程 

SQL Server 支持 在 SQL Server 进程 内 托管 .NET 公共 语言 运行 库 (Common Language Runtime， 
CLR) ， 使 得 数据 库 程 序 员 可 以 把 业务 逻辑 编写 为 函数 、 存 储 过 程 、 触 发 器 、 数 据 类 型 以 及 聚集 。 在 数 
据 库 内 部 运行 应 用 程序 代码 的 能 力 为 这 类 应 用 构架 的 设计 增加 了 灵活 性 ， 它 们 要 求 业务 逻辑 靠近 数据 
执行 ， 且 不 能 承受 将 数据 转移 到 数据 库 外 的 中 间 过 程 来 执行 计算 的 代价 。 

. NET 公共 语言 运行 库 (CLR ) 是 一 种 运行 库 环 境 ， 带 有 一 种 强 类 型 的 中 间 语 言 ， 可 以 运行 如 C#、 
Visual Basic, C++, COBOL 和 J++ 以 及 其 他 的 多 种 现代 编程 语言 ， 支 持 内 存 的 垃圾 收集 、 抢 占 式 线 
程 、 元 数据 服务 (类 型 映射 ) 、 代 码 验 证 以 及 代码 访问 安全 性 。 运 行 库 使 用 元 数据 来 定位 和 加 载 类 ， 在 
内 存 中 分 配 实例 ， 处 理 方 法 调用 ,产生 本 地 代码 ,强制 安 全 性 以 及 设置 运行 库 上 下 文 边界 . 

通过 使 用 汇编 (assembly) 来 将 应 用 程序 代码 部 署 到 数据 库 中 ,汇编 是 打包 的 单元 、 部 署 和 .NET 应 
用 程序 代码 版 本 。 将 应 用 程序 代码 部 署 到 数据 库 中 为 管理 、 备 份 和 恢复 整个 数据 库 应 用 (代码 和 数据 ) 
提供 了 统一 的 方式 。 一 旦 汇编 注册 到 数据 库 中 ， 用 户 可 以 通过 使 用 可 扩展 性 协议 来 利用 SQL DDL 语句 
将 汇编 中 的 入 口 点 暴露 出 来 ,这些 协议 是 定义 好 的 并 在 这 些 DDL 语句 的 执行 中 强制 实施 ; 这 些 DDL 语 
句 可 以 充当 标量 或 者 表 函 数 、 过 程 、 触 发 器 、 类 型 和 聚集 。 存储 过 程 、 触 发 器 和 函数 通常 需要 执行 
SQL 查询 和 更 新 ， 这 是 通过 这 样 的 组 件 来 完成 的 ， 它 在 数据 库 进程 内 实现 了 所 使 用 的 ADO. NET 数据 
访问 API。 

30. 10.1 .NET 基本 概念 

在 .NET 框架 中 ,程序 员 用 高 级 编程 语言 编写 程序 代码 实现 一 个 类 ， 定义 其 结构 ( 如 域 或 类 属性 ) 
和 方法 。 有 些 这 样 的 方法 可 以 是 静态 函数 。 编 译 程序 后 产生 一 个 文件 ， 称 为 汇编 (assembly) ， 它 包含 
用 微软 中 间 语 言 ( Microsoft Intermediate Language ，MSIL) 编 译 的 代码 ， 以 及 一 个 包含 所 有 对 依赖 汇编 引 
用 的 清单 (manifest) 。 清 单 是 每 个 汇编 不 可 或 缺 的 一 部 分 ， 它 使 汇编 能 够 自 描述 。 汇 编 清 单 包含 描述 程 
序 中 定义 的 所 有 结构 、 域 、 属 性 、 类 、 继 承 关系 、 函 数 和 方法 的 汇编 元 数据 。 清 单 建立 了 汇编 的 标识 ， 
指定 了 构成 汇编 实现 的 文件 ， 指 定 了 构成 汇编 的 类 型 和 资源 ， 详 细 说 明了 编译 时 对 其 他 汇编 的 依赖 ， 
并 指定 了 汇编 正常 运行 所 需要 的 权限 集合 。 这 些 信息 在 运行 时 用 来 解决 引用 ， 执 行 版 本 绑 定 策略 ， 并 
验证 载 人 汇编 的 完整 性 。. NET 框架 支持 称 为 自 定义 属性 ( custom attribute ) 的 带 外 (out-of-band ) 机 制 ， 
用 应 用 程序 可 能 希望 从 元 数据 中 捕获 的 附加 信息 或 方面 来 注释 类 、 属 性 、 函 数 和 方法 。 所 有 . NET 编 
译 器 处 理 这 些 注释 时 都 不 会 解释 它们 ， 而 是 将 它们 存储 到 汇编 的 元 数据 中 。 所 有 这 些 注释 可 以 和 其 他 
任何 元 数据 一 样 ， 通 过 使 用 一 组 公共 的 映射 API 来 进行 检查 。 托 管 代 码 ( managed code) 指 在 CLR 中 而 
不 是 直接 由 操作 系统 执行 的 MSIL。 托 管 代码 应 用 程序 得 到 公共 语言 运行 库 服 务 ， 例 如 垃圾 自动 收集 、 
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运行 库 类 型 检查 以 及 安全 性 支持 。 这 些 服 务 帮 助 提 供 统一 的 、 平 台 及 语言 无 关 的 托管 代码 应 用 行为 。 
在 执行 时 ， 即 时 (Just-In-Time，JIT) 编译 器 将 MSIL 翻译 为 本 地 代码 (如 Intel X86 代码 ) 。 在 此 翻译 过 程 
中 ， 代 码 必 须 通 过 一 个 验证 过 程 ， 它 检查 MSIL 和 元 数据 以 发 现代 码 是 否 可 以 确定 为 类 型 安全 的 
30. 10.2 SQL CLR 宿主 

SQL Server 和 CLR 是 两 种 不 同 的 运行 库 ， 具 有 不 同 的 线程 、 调 度 和 内 存 管理 的 内 部 模型 。SQL 
Server 支持 协作 的 、 非 抢占 式 线程 模型 ， 其 中 DBMS 
线程 周期 地 或 者 在 等 待 封锁 或 IO 时 自动 让 出 执行 ， 
而 CLR 支持 抢占 式 线程 模型 。 如 果 运 行 在 DBMS 内 
的 用 户 代码 可 以 直接 调用 操作 系统 (0S ) 的 线程 原 
语 ， 那 么 它 与 SQL Server 任务 调度 就 集成 得 不 好 ， 
并 会 降低 系统 的 可 扩展 性 。CLR 不 区 分 虚拟 内 存 和 
物理 内 存 ， 但 是 SQL Server 直接 管理 物理 内 存 并 要 
求 在 可 配置 的 范围 内 使 用 物理 内 存 。 

线程 、 调 度 和 内 存 管 理 的 不 同 模型 为 扩展 DBMS 
以 支持 数 千 的 并 发 用 户 会 话 提出 了 集成 方面 的 挑战 
当 CLR 寄居 在 SQL Server 进程 内 时 ，SQL Server 通 : : f ’ 
过 模拟 CLR 的 操作 系统 来 解决 这 个 问题 。CLR 调用 90-5 CUR SOL Server 操作 系统 服务 的 集成 
SQL Server 实现 的 低层 原 语 用 于 线程 、 调 度 、 同 步 和 内 存 管 理 ( 见 图 30-5) 。 这 种 方法 提供 了 下 述 可 扩 
展 性 和 可 靠 性 优点 : 

公共 线程 、 调 度 和 同步 ( common threading, scheduling, and synchronization). CLR 调用 SQL Server 
的 API 既 为 运行 用 户 代 码 也 为 其 自身 的 内 部 使 用 ( 如 垃圾 收集 和 类 的 终结 线程 ) 而 创建 线程 。 为 了 在 多 
个 线程 间 实 现 同步 ，CLR 调用 SQL Server 同步 对 象 。 这 使 得 当 一 个 线程 正在 等 待 同步 对 象 时 ，SQL 
Server 调度 器 能 够 调度 其 他 任务 。 例 如 ， 当 CLR 开始 收集 垃圾 时 ， 它 的 所 有 线程 都 要 等 待 垃圾 收集 完 
毕 。 由 于 CLR 线程 以 及 它们 正在 等 待 的 同步 对 象 对 SQL Server 调度 器 来 说 是 已 知 的 ，SQL Server 调度 
器 可 以 调度 运行 其 他 数据 库 任 务 的 且 不 涉及 CLR 的 线程 。 进 而 言 之 ， 这 使 得 SQL Server 能 够 检测 到 涉 
及 CLR 同步 对 象 所 持 有 封锁 的 死 锁 ， 并 运用 传统 技术 来 消除 死 锁 。SQL Server 调度 器 能 够 检测 并 停止 
很 长 时 间 没 有 让 出 的 线程 。 将 CLR 线程 与 SQL Server 线程 挂钩 的 能 力 意味 着 SQL Server 调度 器 能 够 识 
别 出 运 行 在 CLR 中 的 失控 线程 并 管理 它们 的 优先 级 ， 这 样 它 们 就 不 会 消耗 太 多 的 CPU 资源 ， 从 而 影响 
系统 的 吞吐 量 。 这 些 失控 线程 被 挂 起 并 放 回 队列 中 。 重 复 犯 错 的 线程 不 会 分 配 到 对 其 他 正在 执行 的 工 
作 线 程 来 说 不 公平 的 时 间 片 。 如 果 犯 错 线 程 消耗 了 50 倍 被 允许 的 时 间 片 量 ， 则 在 它 被 允许 再 次 运行 前 
将 延 后 50 次 ， 因 为 调度 器 不 能 区 分 什么 时 候 是 计算 过 长 并 失控 和 什么 时 候 是 合法 的 长 

公共 内 存 管理 (common memory management), CLR 调用 SQL Server 原 语 来 分 配 和 收回 它 的 内 存 
由 于 CLR 使 用 的 内 存 是 占有 系统 使 用 的 总 内 存 的 ，SQL Server 可 以 保持 在 其 配置 的 内 存 范围 内 并 保证 
CLR 和 SQL Server 不 会 互相 竞争 内 存 。 而 且 ， 当 系统 资源 受 限 时 ，SQL Server 可 以 拒绝 CLR 的 内 存 请 |12: | 
求 ， 并 当 其 他 任务 需要 内 存 时 要 求 CLR 减少 其 内 存 使 用 。 1255| 
30.10.3 可 扩展 性 协定 

所 有 运行 在 SQL Server 进程 内 的 用 户 托管 的 代码 以 扩展 的 形式 与 DBMS 组 件 交 互 。 当 前 的 扩展 包 
括 标 量 函 数 、 表 函数 、 过 程 、 触 发 器 、 标 量 类 型 和 标量 聚集 。 对 于 每 一 项 扩展 都 有 一 个 共同 的 协定 来 
定义 用 户 代码 必须 实现 的 属性 或 者 服务 ， 以 便 作 为 这 些 扩展 之 一 ， 以 及 当 调 用 托管 代码 时 该 扩展 能 从 
DBMS 获得 的 服务 。SQL CLR 利用 类 和 存储 在 汇编 元 数据 中 的 定制 属性 信息 来 强制 用 户 代码 实现 这 些 
可 扩展 性 协定 。 所 有 用 户 汇 编 存储 在 数据 库 中 。 所 有 关系 和 汇编 元 数据 在 SQL 引擎 内 通过 一 组 统一 的 
接口 和 数据 结构 来 处 理 。 当 数据 定义 语言 (DDL) 语 句 所 注册 的 一 个 特定 的 扩展 晴 数 、 类 型 或 队 集 被 处 
理 时 ， 系 统 通过 分 析 其 汇编 元 数据 来 确保 用 户 代 码 实现 相应 的 协定 。 如 果 协 定 实现 了 了， 那么 DDL 语句 
就 成 功 ， 否 则 就 失败 。 下 一 小 节 描 述 SQL Server 当前 执行 的 特定 协定 中 的 关键 方面 。 
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30.10.3.1 #42 
一 般 地 ， 我 们 将 标量 函数 、 过 程 和 触发 器 归 为 例 程 。 例 程 作为 静态 类 函数 实现 ， 可 以 通过 定制 属 
性 指定 如 下 属性 : 


IsPrecise。 如 果 这 个 布尔 属性 为 false ， 则 意味 着 例 程 体 涉及 不 精确 计算 ， 如 浮 点 操作 。 涉 及 不 
精确 函数 的 表达 式 不 能 被 索引 。 

UserDataAccess。 如 果 该 属性 的 值 为 read， 那 么 例 程 读 用 户 数据 表 。 和 否则 该 属性 的 值 为 None， 
表示 例 程 不 访问 数据 。 不 访问 任何 用 户 表 的 查询 ( 直接 地 或 通过 视图 和 函数 间接 地 ) 被 认为 不 访 
问 用 户 数 据 。 

SystemDataAccess。 如 果 该 属性 的 值 为 read， 那么 例 程 读 系统 目录 或 虚拟 系统 表 。 
IsDeterministic。 如 果 该 属性 的 值 为 true， 那 么 给 定 相 同 的 输入 值 、 本 地 数据 库 状 态 和 执行 的 上 
下 文 环境 ， 认 为 例 程 产生 相同 的 输出 值 。 

IsSystemVerified。 它 指示 确定 性 和 精确 性 属性 是 否 由 SQL Server 确认 或 执行 (如 内 置 插件 、 事 
务 SQL 函数 ) ， 或 者 由 用 户 指定 (如 CLR 函数 )。 

HasExternalAccess。 如 果 该 属性 的 值 为 tue， 那 么 例 程 访 问 SQL Server 之 外 的 资源 ， 如 文件 、 
网 络 Web 访问 和 注册 表 。 


30. 10.3.2 A% 
实现 表 值 函数 的 类 必须 实现 能 在 函数 返回 的 行 上 进行 循环 的 正 numerable 接口 ， 描 述 返回 表 的 模式 


(例如 ， 


列 、 类 型 ) 的 方法 ， 描 述 哪些 列 可 以 为 唯一 性 码 的 方法 ， 以 及 将 行 插入 到 表 中 的 方法 。 


30. 10.3.3 类 型 
实现 用 户 自 定义 类 型 的 类 用 SqlUserDefinedType( ) 属性 注释 ， 该 属性 指定 如 下 特性 : 


Format, SQL Server 支持 三 种 存储 格式 : 本 地 的 、 用 户 自 定义 的 和 . NET 序列 化 的 。 
MaxByteSize。 这 是 以 字 节 为 单位 的 类 型 实例 的 序列 化 二 进 制 表示 的 最 大 大 小 。UDT FER I 
可 以 多 达 2GCB。 

IsFixedLength。 这 个 布尔 性 质 指定 类 型 的 实例 是 定 长 的 还 是 变 长 的 。 

IsByteOrdered。 这 个 布尔 性 质 指定 类 型 实例 的 序列 化 二 进 制 表示 是 否 是 二 进 制 有 序 的 。 如 果 此 
属性 为 true， 系 统 可 以 直接 在 这 种 表示 上 执行 比较 而 无 需 将 类 型 实例 实例 化 为 对 象 - 
Nullability。 所 有 系统 内 的 UDT 必须 能 通过 支持 包含 布尔 型 IsNull 方法 的 INullable 接口 来 支持 
null 值 。 

Type conversions。 所 有 UDT 必须 通过 ToString 和 Parse 方法 实现 与 字符 串 的 相互 转换 。 


30.10.3.4 聚集 

除了 支持 类 型 的 协定 ， 用 户 自 定义 聚集 必须 实现 查询 执行 引擎 要 求 的 4 种 方法 来 初始 化 聚集 实例 
的 计算 ,将 输入 值 累 加 到 聚集 提供 的 函数 中 ， 将 聚集 的 部 分 计算 合并 ， 并 检索 最 终 聚 集结 果 。 育 集 可 
以 通过 定制 属性 在 它们 的 类 定义 中 声明 附加 属性 ， 这 些 属 性 被 查询 优化 器 用 来 为 聚集 计算 导出 替代 的 


计划 。 


IsInvariantToDuplicates。 如 果 此 属性 为 true， 那 么 将 数据 传 给 聚集 的 计算 可 以 通过 丢弃 或 引入 
新 的 去 重 操作 来 进行 修改 。 

IsInvariantToNulls。 如 果 此 属性 为 true， 那 么 null 行 可 以 从 输入 中 丢弃 。 然 而 ， 在 group by 操 
作 的 情况 下 必须 注意 不 要 丢弃 整个 组 。 

IsInvariantToOrder。 如 果 此 属性 为 true， 那 么 查询 处 理 器 可 以 忽略 order by 子 句 并 探索 避免 必 
须 对 数据 排序 的 计划 。 


30. 11 XML 支持 


近年 来 关系 数据 库 系统 以 很 多 不 同 的 方式 支持 XML。 关 系数 据 库 系统 中 的 第 一 代 XML 支持 主要 关 
心 的 是 将 关系 数据 导出 为 XML( “Ria XML”), HH XML 标记 格式 的 关系 数据 导 人 回 关 系 表示 中 (“分 


解 XML”) 。 这 些 系统 所 支持 的 主要 应 用 场景 是 如 下 环境 中 的 信息 交换 : 其 中 XML 用 作 ” 传输 格式 ”， 
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并 且 关 系 模式 和 XML 模式 通常 是 相互 独立 地 预定 义 的。 为 了 适用 于 这 种 场景 ， 微 软 SQL Server 提供 了 
扩展 功能 ， 比 如 针对 XML( for xml) 发 布 的 行 集聚 集 器 、OpenXML 行 集 提供 程序 以 及 基于 带 注解 模式 
AY XML 视图 技术 。 

为 了 存储 结构 可 能 随时 间 变 化 的 半 结 构 化 数据 以 及 存储 文档 而 将 XML 数据 分 解 成 关系 模式 可 能 会 
相当 困难 或 者 低 效 。 为 了 支持 这 样 的 应 用 ，SQL Server 实现 了 基于 SQL: 2003 标准 中 的 xml 数据 类 型 
的 本 地 XML。 图 30-6 给 出 了 在 数据 库 中 SQL Server 的 本 地 XML 支持 的 高 层 体系 图 。 它 包括 本 地 存储 
XML 的 能 力 ， 用 XML 模式 集合 对 所 存储 的 XML 数据 进行 约束 和 标定 类 型 的 能 力 ， 以 及 查询 和 更 新 
XML 数据 的 能 力 。 为 了 提供 高 效 的 查询 执行 ， 它 还 提供 了 几 种 XML 专用 索引 类 型 。 最后， 本 地 的 
XML 支持 还 集成 了 “分 解 ”为 关系 数据 以 及 从 关系 数据 "发布" 的 功能 





SQL Server 元 数据 








XML 







XML| 模 式 


SQL Server 索 引 
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index 
index 

30-6 SQL Server 中 本 地 XML 支持 的 体系 概览 


30. 11.1 本 地 存储 和 组 织 XML 

xml 数据 类 型 可 以 存储 XML 文档 和 内 容 片 断 (多 个 文本 或 者 项 部 的 元 素 结 点 )， 并 且 是 在 XQuery 
1. 0/XPath 2. 0 数据 模型 的 基础 上 定义 的 。 该 数据 类 型 可 用 作 存 储 过 程 的 参数 、 变 量 以 及 列 类 型 。 

SQL Server 将 xml 类 型 的 数据 存储 在 作为 blob 的 内 部 二 进 制 格式 中 ， 并 且 为 执行 查询 提供 索引 机 
制 。 该 内 部 二 进 制 格式 提供 了 对 原始 XML 文档 的 高 效 检索 和 重 构 ， 以 及 一 定 的 空间 节省 (平均 有 
20% ) 。 索 引 支 持 高 效 的 查询 机 制 ， 它 可 以 利用 关系 查询 引 敬 和 优化 器 ; 更 多 细节 将 在 后 面 30. 11.3 节 
中 介绍 。 

SQL Server 提供 了 称 为 XML 模式 集合 (XML schema collection) 的 数据 库 元 数据 概念 ， 它 关联 一 个 
SQL 识别 器 和 一 个 或 多 个 目标 命名 空间 的 模式 组 件 集合 。 
30.11.2 查询 和 更 新 XML 数据 类 型 

SQL Server 在 XML 数据 类 型 上 提供 了 几 种 基于 XQuery 的 查询 和 修改 能 力 。 这 些 查询 和 修改 能 力 通 
过 使 用 定义 在 xml 数据 类 型 上 的 方法 来 支持 。 本 节 的 其 余部 分 将 描述 一 些 这 样 的 方法 

每 种 方法 将 一 个 文字 串 作为 查询 串 以 及 潜在 的 其 他 变 元 。XML 数据 类 型 ( 该 方法 应 用 在 其 上 ) 为 路 
径 表 达 式 提供 了 上 下 文 项 ， 并 用 相关 XML 模式 集合 ( 如 果 没 有 提供 集合 ， 则 该 XML 数据 就 被 认为 是 未 
标定 类 型 的 ) 提供 的 所 有 类 型 信息 构成 范围 内 的 模式 定义 。SQL Server 的 XQuery 实现 是 静态 标定 类 型 
的 ， 因 此 支持 早期 检测 路 径 表 达 式 的 拼写 错误 、 类 型 错误 和 基数 不 匹配 的 检查 ， 以 及 某 些 附加 的 优化 。 

query 方法 接收 一 个 XQuery 表达 式 并 返回 一 个 未 标定 类 型 的 XML 数据 类 型 实例 (如 果 需 要 标定 该 
数据 的 类 型 ， 它 可 以 转换 为 一 个 目标 模式 集合 ) E XQuery 规范 术语 中 ， 我 们 设 定 构造 模式 为 strip” 
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下 面 的 例子 展示 了 一 个 简单 XQuery 表达 式 ， 它 概括 了 一 份 差 旅 报告 文档 中 的 复杂 Customer 元 素 ， 除 了 
1258| 别 的 信息 以 外 ， 该 文档 还 包含 一 个 名 称 、 一 个 ID 属性 和 销售 指导 信息 ， 这 些 信息 包含 在 标记 的 实际 差 
1259 旅 报告 注解 中 。 这 份 概要 针对 具有 销售 指导 的 Customer 元 素 展示 了 名 称 和 销售 指导 . 


select Report. query( * 
declare namespace ¢ = “urn; example/customer” ; 
for $cust in /e; doc/c; customer 
where $cust/c; notes//c; saleslead 
return 
< customer_id =” $cust/@ id” > | 





$cust/c; name, 
$cust/c; notes//c; saleslead 
| </customer >’ ) 
from TripReports ; 


上 述 XQuery 查询 在 存储 于 表 TripReports 的 每 行 上 的 doc 属性 中 的 XML 值 上 执行 。 该 SQL 查询 结果 中 的 
每 行 包含 了 在 一 个 输入 行 中 的 数据 上 执行 该 XQuery 查询 的 结果 。 

value 方法 接收 一 个 XQuery 表达 式 和 一 个 SQL 类 型 名 称 ， 从 XQuery 表达 式 的 结果 中 抽取 出 单个 的 
原子 值 ， 并 将 其 词法 形式 转换 为 指定 的 SQL 类 型 。 如 果 XQuery 表达 式 的 结果 为 一 个 结 点 ， 则 该 结 点 的 
已 标定 类 型 的 值 将 会 隐 式 地 抽取 为 一 个 原子 值 ， 然 后 转换 为 SQL 类 型 (用 XQuery 的 术语 来 说 ， 该 结 点 
将 被 “原子 化 ”; 结果 转换 为 SQL) 。 注 意 value 方法 执行 静态 类 型 检查 ， 至 多 返回 一 个 值 

exist 方法 接收 一 个 XQuery 表达 式 ， 如 果 该 表达 式 产生 一 个 非 空 结果 则 返回 1， 否 则 返回 0。 

最 后 ，mod 态 -方法 提供 了 一 种 机 制 在 子 树 层 改变 XML 值 ， 在 树 中 指定 位 置 插入 一 棵 新 子 树 ， 改 变 
一 个 元 素 或 者 属性 的 值 ， 以 及 删除 子 树 。 下 面 的 例子 删除 了 某 年 份 以 前 的 所 有 顾客 的 saleslead 元 素 ， 
该 年 份 由 SQL 变量 或 者 名 为 @ year 的 参数 给 出 : 


update TripReports 

set Report. modify ( 

“declare namespace c = “um; example/customer” ; 

delete /c; doc/c: customer//c; saleslead[ @ year < sql: variable(“@ year”) |’); 


30.11.3 XQuery 表达 式 的 执行 

正如 前 面 所 提 到 的 ，XML 数据 以 内 部 的 二 进 制 表示 存储 。 但 是 ， 为 了 执行 XQuery 表达 式 ，XML 
数据 类 型 在 内 部 转换 为 一 种 称 为 结 点 表 的 形式 。 该 内 部 结 点 表 基 本 上 使 用 行 来 表示 结 点 。 每 个 结 点 接 
受 一 个 OrdPath 标识 符 作 为 它 的 nodeID( OrdPath 标识 符 是 修改 过 的 杜威 (Dewey) 十 进 制 编号 计划 ; 关于 
OrdPath 的 更 多 信息 请 参见 文献 注解 中 的 文献 ) 。 每 个 结 点 还 包含 码 信息 来 指 回 到 该 结 点 所 属 的 原始 
SQL 行 ， 有 关 名 字 和 类 型 ( 以 标记 化 的 形式 ) 的 信息 、 值 ， 以 及 其 他 信息 。 由 于 OrdPath 将 文档 顺序 和 

层次 信息 都 进行 了 编码 ， 因 此 结 点 表 在 码 信息 和 OrdPath 的 基础 上 聚集 ， 从 而 路 径 表达 式 或 者 子 树 重 

组 都 能 利用 简单 的 表 扫描 完成 。 

所 有 XQuery 和 更 新 表达 式 随后 都 翻译 为 这 个 内 部 结 点 表 上 的 一 棵 代数 操作 运算 符 树 ; 该 树 使 用 常 
用 的 关系 运算 符 和 一 些 专门 为 XQuery 代数 设计 的 运算 符 。 然 后 结果 树 被 嫁接 至 关系 表达 式 的 代数 树 
中 ， 因 此 最 后 查询 执行 引擎 接收 到 单 棵 执行 树 ， 并 且 它 能 对 其 优化 和 执行 。 为 了 避免 昂贵 的 运行 时 转 
换 ， 用 户 可 以 通过 采用 主 XML 索引 来 预先 物化 结 点 表 。SQL Server 进一步 提供 了 三 种 XML 辅助 索引 以 
使 查询 执行 能 够 更 多 地 利用 索引 结构 : 

© path 索引 提供 了 对 路 径 表 达 式 简单 类 型 的 支持 。 

© properties 索引 提供 了 对 通常 情况 下 的 性 质 值 比 较 的 支持 。 

。 value 索引 非常 适用 于 在 比较 中 使 用 通配符 的 查询 。 

关于 SQL Server 中 的 XML 索引 和 查询 处 理 的 更 多 信息 请 参见 文献 注解 中 的 文献 


30.12 SQL Server 服务 代理 
通过 在 SQL Server 中 提供 队 排 队 、 可 靠 消 息 的 支持 ， 服 务 代理 帮助 开发 人 员 创建 松 耦 合 的 分 布 式 应 
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Ho 许多 数据 库 应 用 使 用 异步 处 理 来 提高 可 扩展 性 和 对 交互 型 会 话 的 响应 时 间 。 常 用 的 异步 处 理 方法 是 
使 用 工作 表 。 与 在 单个 数据 库 事务 中 执行 业务 流程 的 所 有 工作 不 同 ， 一 个 应 用 程序 进行 修改 来 表明 当前 
未 完成 的 工作 ， 然 后 向 工作 表 中 插入 一 条 待 执行 工作 的 记录 。 只 要 资源 允许 ， 应 用 程序 处 理工 作 表 并 完 
成 业务 流程 。 服 务 代 理 是 数据 库 服 务 器 的 一 部 分 ， 它 直接 支持 该 方法 用 于 应 用 开发 。Transact-SQL 语 言 包 


括 针 对 服务 代理 的 DDL 和 DML 语句 。 另 外 ，SQL Server 中 为 服务 代理 提供 了 SQL Server 管理 对 象 ( SQL 


Server Management Object，SMO)。 这 些 允许 从 托管 代码 来 编程 访问 服务 代理 对 象 。 

以 前 的 消息 排队 技术 集中 于 单条 消息 。 服 务 代理 的 基本 通信 单元 是 会 话 (conversation ) 一 个 持 
久 的 、 可 靠 的 、 全 双 工 的 消息 流 。SQL Server 保证 一 个 会 话 中 的 消息 按 序 刚好 向 一 个 应 用 分 发 一 次 。 
也 可 能 指派 一 个 从 1 到 10 的 优先 级 给 一 个 会 话 。 来 自 较 高 优先 级 会 话 中 的 消息 发 送 和 接收 要 快 于 来 自 
较 低 优先 级 会 话 的 消息 。 会 话 发 生 在 两 个 服务 之 间 。 服 务 是 会 话 的 命名 端点 。 每 个 会 话 是 一 个 会 话 组 
的 一 部 分 。 相 关 会 话 可 以 与 同一 个 会 话 组 关联 。 

消息 是 强 标定 类 型 的 ， 例 如 ,每 条 消息 都 有 特定 类 型 。SQL Server 可 以 选择 性 地 验证 消息 是 否 是 
格式 良好 的 XML， 消息 是 否 为 空 ， 或 者 消息 是 否 遵循 某 个 XML 模式 。 协定 ( contract ) 定义 了 会 话 所 人 允 
许 的 消息 类 型 ， 以 及 哪些 会 话 参 与 者 能 够 发 送 该 类 型 的 消息 。SQL Server 为 只 需要 可 靠 流 的 应 用 提供 
默认 的 协定 和 消息 类 型 。 

SQL Server 将 消息 存储 在 内 部 表 中 。 这 些 表 并 不 能 直接 访问 ， 而 是 由 SQL Server 给 出 队列 ( queue ) 
作为 这 些 内 部 表 的 视图 。 应 用 从 一 个 队列 接收 消息 。 一 个 接收 操作 返回 来 自 同 一 个 会 话 组 的 一 个 或 多 
个 消息 。 通 过 控制 对 底层 表 的 访问 ，SQL Server 能 够 有 效 地 执行 消息 排序 、 相 关 消 息 关联 以 及 封锁 ， 
由 于 队列 是 内 部 表 ， 它 们 不 需要 为 备份 、 恢 复 、 故 障 转移 或 者 数据 库 镜 像 做 特殊 处 理 。 应 用 表 和 关联 
的 排队 消息 都 由 数据 库 进行 备份 、 恢 复 和 故障 转移 。 当 镜像 故障 转移 完成 时 ， 存 在 于 镜像 数据 库 中 的 
代理 会 话 会 在 停止 点 继续 执行 一 一 即使 该 会 话 发 生 在 两 个 位 于 不 同 数据 库 中 的 服务 之 间 。 

服务 代理 操作 的 封锁 粒度 是 会 话 组 ， 而 不 是 特定 的 会 话 或 者 单个 消息 。 通 过 在 会 话 组 上 施加 封 
锁 ， 服 务 代 理 自动 帮助 应 用 避免 处 理 消息 中 的 并 发 问题 。 当 一 个 队列 包含 多 个 会 话 时 ，SQL Server 保 
证 同一 时 间 只 有 一 个 队列 阅读 者 可 以 处 理 属于 一 个 给 定 会 话 组 的 消息 。 这 就 消除 了 应 用 自身 包含 死 
锁 避 免 逻 辑 的 需要 一 一 这 是 在 许多 消息 应 用 中 常见 的 错误 来 源 。 该 封锁 语义 的 另 一 个 好 的 副作用 是 
应 用 可 以 选择 使 用 会 话 组 作为 存储 和 检索 应 用 状态 的 码 。 相 对 于 在 传统 消息 排队 系统 中 发 现 的 原子 
消息 原 语 ， 决 定 把 会 话 形式 化 为 通信 原 语 带 来 了 许多 优点 ， 上 述 编程 模型 的 好 处 仅仅 是 这 些 优点 的 
两 个 例子 ， 

当 一 个 队列 包含 了 需要 处 理 的 消息 时 ，SQL Server 能 够 自动 激活 存储 过 程 。 为 了 按 正 到 达 的 通信 
量 来 调整 运行 的 存储 过 程 数量 ， 激 活 逻辑 监视 队列 以 查看 是 否 存在 对 另 一 个 队列 阅读 者 有 用 的 工作 . 
SQL Server 同时 考虑 已 经 存在 的 阅读 者 接收 消息 的 速率 以 及 可 用 的 会 话 组 数量 来 决定 什么 时 候 启 动 男 
一 个 队列 阅读 者 。 被 激活 的 存储 过 程 、 存 储 过 程 的 安全 环境 以 及 将 启动 的 实例 的 最 大 数量 都 为 单独 的 
队列 而 配置 。SQL Server 还 提供 了 一 个 外 部 激活 器 (external activator) 。 当 新 的 消息 插入 到 队列 中 时 ， 这 
个 特性 允许 SQL Server 之 外 的 应 用 被 激活 。 然 后 该 应 用 可 以 接收 和 处 理 消息 。 借 助 于 这 样 的 做 法 ， 
CPU 密集 型 工作 可 以 印 载 给 SQL Server 之 外 的 应 用 ， 可 能 在 一 台 不 同 的 计算 机 上 。 并 且 ， 长 周期 任务 
(如 : Web 服务 调用 ) 可 以 在 阻碍 数据 库 资 源 的 情况 下 执行 。 外 部 激活 器 遵循 与 内 部 激活 相同 的 逻辑 ， 
当 消 息 积聚 在 一 个 队列 中 时 ， 可 以 配置 为 激活 一 个 应 用 的 多 个 实例 

作为 对 实例 中 异步 消息 的 逻辑 扩展 ， 服 务 代 理 还 提供 了 SQL Server 实例 间 的 可 靠 消息 ， 人 允许 开发 
人 员 轻 松 地 建立 分 布 式 应 用 。 会 话 能 够 出 现在 单个 SQL Server 实例 中 ,或 者 出 现在 两 个 SQL Server 实 
例 之 间 。 本 地 和 远程 会 话 使 用 同样 的 编程 模型 。 

安全 性 和 路 由 都 是 声明 式 配 置 的 ， 不 需要 改变 队列 阅读 者 。SQl Server 使 用 路 由 ( route) 将 服务 名 映 





射 为 会 话 中 另 一 个 参与 者 的 网 络 地 址 。SQL Server 还 能 够 为 会 话 执行 消息 转发 和 简单 的 负载 均衡 。SQL 


Server 提供 可 靠 的 、 恰 好 一 次 的 按 序 分 发 ， 不 论 一 个 消息 要 经 过 多 少 个 实例 。 跨 越 多 个 SQL Server 实例 
的 会 话 能 够 在 网 络 层 (点 到 点 ) 和 会 话 层 ( 端 到 端 ) 得 到 保护 。 当 使 用 端 到 端的 安全 性 时 ， 直 到 消息 到 达 
最 终 目 的 地 之 前 ， 消 息 内 容 都 保持 加 密 状态 ， 而 消息 头 对 于 消息 所 经 过 的 每 个 SQL Server 实例 都 是 可 
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用 的 。 在 实例 内 部 应 用 标准 SQL Server 权限 。 加 密 发 生 在 消息 离开 实例 的 时 候 。 

SQL Server 使 用 一 种 二 进 制 协议 在 实例 间 发 送 消息 。 该 协议 将 大 消息 拆 成 片断 并 允许 来 自 多 个 消 
息 的 片段 交叉 。 片 断 化 使 得 SQL Server 能 够 快速 传递 较 小 的 消息 ， 即 使 在 一 个 大 消息 正在 传输 过 程 中 
的 情况 下 。 该 二 进 制 协议 不 使 用 分 布 式 事务 或 者 两 阶段 提交 。 相 反 ， 该 协议 要 求 接收 者 确认 消息 片断 ， 
SQL Server 简单 地 、 周 期 性 地 重 发 消息 片断 ， 直 到 该 片断 被 接收 者 确认 。 确 认 大 都 包含 在 回复 消息 头 
部 ， 尽 管 在 没有 回复 消息 可 用 时 会 使 用 专用 的 回复 消息 。 

SQL Server 包含 了 一 个 命令 行 诊断 工具 (ssbdiagnose) 来 帮助 分 析 服 务 代理 的 部 署 并 调查 问题 。 这 个 
工具 可 以 在 配置 模式 或 运行 时 模式 运行 。 在 配置 模式 下 ， 此 工具 检查 一 对 服务 是 否 可 以 交换 消息 并 返 
回 任何 配置 错误 。 这 些 错误 的 例子 是 : 失效 的 队列 和 缺失 的 返回 路 由 。 在 第 二 种 模式 下 ， 此 工具 连接 
到 两 个 或 更 多 的 SQL Server 实例 并 监控 SQL 跟踪 器 事件 ， 以 发 现 运行 时 的 服务 代理 问题 。 此 工具 的 输 
出 可 以 发 送 给 文件 以 便 自 动 处 理 。 


30.13 商务 智能 


SQL Server 的 商务 智能 组 件 包含 三 个 子 组 件 : 
e SQL Server 集成 服务 (SQL Server Integration Service，SSIS) ， 它 提供 了 从 多 源 集 成 数据 、 执 行 与 
清洗 数据 并 将 数据 转换 为 公共 形式 相关 的 转换 ， 以 及 将 数据 加 载 到 数据 库 系 统 的 方法 。 








1263 e SQL Server 分 析 服 务 (SQL Server Analysis Service，SSAS) ， 它 提供 了 OLAP 和 数据 挖掘 能 力 。 








e SQL Server 报表 服务 (SQL Server Reporting Service，SSRS ) 。 

集成 服务 、 分 析 服 务 和 报表 服务 各 自在 独立 的 服务 器 中 实现 ， 并 且 能 彼此 独立 地 安装 在 相同 或 不 
同 的 机 器 上 。 它 们 能 通过 本 地 连接 、OLE-DB 或 者 ODBC 驱动 连接 到 各 种 数据 源 ， 比 如 平面 文件 、 电 子 
表格 或 者 各 种 关系 数据 库 系 统 。 

它们 一 起 提供 了 一 个 端 到 端的 解决 方案 ， 进行 抽取 、 转 换 和 加 载 数据 ， 然 后 对 数据 建 模 并 添加 分 
析 功 能 ， 最 后 建立 和 分 发 数据 上 的 报表 。 不 同 的 SQL Server 商务 智能 组 件 能 够 集成 并 相互 辅助 。 这 里 
有 几 个 常见 的 利用 组 件 组 合 的 场景 : 

© 建立 清洗 数据 的 SSIS 包 ， 使 用 SSAS 数据 挖掘 生成 的 模式 。 

。 使 用 SSIS 加 载 数据 到 SSAS 立方 体 ， 处 理 它 ， 并 且 在 SSAS 立方 体 上 执行 报表 。 

© 建立 SSRS 报表 来 发 布 挖掘 模型 的 发 现 ， 或 者 在 SSAS OLAP 组 件 中 包含 的 数据 。 

下 面 的 小 节 给 出 了 每 个 这 样 的 服务 器 组 件 的 功能 和 体系 结构 的 概览 。 
30.13.1 SQL Server 集成 服务 

微软 SQL Server 集成 服务 (SQL Server Integration Service, SSIS) 是 企业 数据 转换 和 数据 集成 的 解决 
方案 ， 可 以 用 它 从 相 异 的 源 中 抽取 、 转 换 、 聚 集 和 合并 数据 ， 并 把 它 转移 到 单个 或 多 个 目的 地 。 可 以 
使 用 SSIS 来 执行 以 下 任务 : 

。 从 异 构 的 数据 存储 中 合并 数据 。 

。 刷新 数据 仓库 和 数据 集 市 中 的 数据 。 

© 在 数据 加 载 到 目的 地 之 前 清洗 数据 。 

。 批量 加 载 数据 到 联机 事务 处 理 (OLTP) 和 联机 分 析 处 理 (OLAP) 数据库 中 。 

。 发 送 通知 。 

。 建立 商务 智能 到 数据 转换 处 理 中 。 

。 自动 管理 功能 。 

1264 SSIS 为 上 述 任务 提供 了 一 组 完整 的 服务 、 图 形 化 工具 、 可 编程 对 象 以 及 API。 这 些 提供 创建 大 型 
的 、 健 壮 的 和 复杂 的 数据 转换 解决 方案 的 能 力 ， 而 无 需 任何 定制 编程 。 但 是 ，API 和 可 编程 对 象 可 以 
在 需要 的 时 候 用 来 创建 定制 元 素 或 者 将 数据 转换 功能 集成 到 定制 应 用 中 。 

SSIS 数据 流 引 擎 提供 了 内 存 缓冲 区 ， 用 于 将 数据 从 源 移动 到 目的 地 ， 并 调用 从 文件 和 关系 数据 库 
中 抽取 数据 的 源 适 配器 。 该 引擎 还 提供 修改 数据 的 转换 以 及 将 数据 加 载 到 数据 存储 中 的 目标 适配器 。 
基于 模糊 ( 近似) 匹配 的 去 重 是 SSIS 提供 的 转换 的 一 个 例子 。 如 果 需 要 的 话 ， 用 户 可 以 编写 他 们 自己 的 
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转换 。 图 30-7 显示 了 一 个 如 何 组 合 多 种 转换 来 清洗 和 加 载 图 书 销售 信息 的 例子 ; 来 自 销售 数据 的 图 书 
标题 在 出 版 数据 库 上 进行 匹配 ， 如 果 没 有 匹配 ， 就 执行 模糊 查找 来 处 理 有 小 错误 ( 比如 拼写 错误 ) 的 标 
题 。 有 关 可 信和 度 和 数据 来 源 的 信息 与 清洗 过 的 数据 存储 在 一 起 。 
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图 30-7 使 用 模糊 查找 的 数据 加 载 


30. 13.2 SQL Server 分 析 服 务 


分 析 服 务 组 件 为 商务 智能 应 用 提供 联机 分 析 处 理 (OLAP) 和 数据 控 气 功能。 分析 服 务 支 持 瘦 客户 端 
体系 架构 。 计 算 引 擎 在 服务 器 端 ， 因 此 查询 在 服务 器 端 处 理 ， 避 免 了 需要 在 客户 端 和 服务 器 之 间 传 输 
大 量 数据 。 

30. 13.2.1 SQL Server 分 析 服 务 : OLAP 

Analysis Server 使 用 统一 维度 模型 ( Unified Dimensional Model，UDM ) ， 它 弥补 了 传统 关系 报表 和 
OLAP 即席 分 析 之 间 的 差距 。 统 一 维度 模型 (UDM ) 的 角色 是 提供 用 户 和 数据 源 之 间 的 桥梁 。UDM 创建 
在 一 个 或 多 个 物理 数据 源 之 上 ， 然 后 最 终 用 户 使 用 各 种 客户 端 工具 之 一 (例如 Microsoft Excel) 在 UDM 
上 发 布 查询 。 

并 非 只 有 DataSource 模式 的 维度 建 模 层 ，UDM 为 定义 强大 而 详尽 的 业务 催 辑 、 规 则 以 及 语义 定 
义 提 供 了 丰富 的 环境 。 通 过 定义 元 数据 目录 的 本 地 语言 翻译 以 及 维度 数据 ， 用 户 能 够 在 UDM 数据 上 
使 用 他 们 的 本 地 语言 ( 比如 法 语 或 者 印 地 语 ) 来 浏览 和 生成 报表 。 分 析 服 务 定 义 了 复杂 时 间 维 ( 财务 
的 、 报 告 的 、 生 产 的 ， 等 等 ) ， 并 能 够 使 用 多 维 表达 式 (MDX) 语 言 来 定义 强大 的 多 维 业 务 逻 辑 ( 年 增 
长 、 年 度 至 今 ) 。UDM 允许 用 户 定 义 面向 业务 的 视角 ， 每 个 视角 仅 展 示 模 型 的 一 个 特定 子 集 (度量 、 
维 、 属 性 、 业 务 规则 ， 等 等 ) ， 该 子 集 与 一 个 特定 的 用 户 组 相关 。 商 务 常 常 定义 关键 性 能 指标 ( Key 
Performance Indicator，KPI) ， 它 是 用 于 度量 业务 健康 程度 的 重要 指标 。 这 类 KPI 的 例子 包括 销售 额 、 


718 第 九 部 分 实例 研究 


1 259 
1266 


1267 


每 员工 收入 以 及 客户 保有 率 。UDM 允许 定义 这 样 的 KPI， 使 得 能 以 更 容易 理解 的 方式 来 分 组 和 展示 
数据 。 

30. 13.2.2 SQL Server 分 析 服 务 : 数据 挖掘 

SQL Server 提供 各 种 挖掘 技术 ， 并 有 丰富 的 图 形 化 界面 来 查看 挖掘 结果 。 所 支持 的 挖掘 算法 包括 

。 关联 规则 (在 交叉 销售 应 用 中 很 有 用 ) 。 

© 分 类 和 预测 技术 ， 比 如 决策 树 、 回 归 树 、 神 经 网 络 和 朴素 贝 叶 斯 。 

。 时 间 序 列 预 测 技术 ， 包 括 ARIMA 和 ARTXP。 

。 聚 类 技术 ， 比 如 最 大 期 望 和 k-means( 与 序列 聚 类 技术 配合 ) 。 

另外 ，SQL Server 提供 了 可 扩展 的 体系 架构 来 插入 第 三 方 数据 挖掘 算法 和 可 视 化 工具 ， 

SQL Server 还 支持 数据 挖掘 扩展 (Data-Mining Extensions, DMX) 这 种 对 SQL 的 扩展 。DMX 是 用 来 
与 数据 挖掘 模型 交互 的 语言 ， 就 像 SQL 是 用 来 与 表 和 视图 交互 的 一 样 。 通过 DMX， 可 以 创建 和 训练 模 
型 并 将 其 存储 在 分 析 服 务 数据 库 中 。 然 后 ， 可 以 浏览 模型 以 考虑 模式 ， 或 者 通过 使 用 特殊 的 prediction 
join 语法 ， 将 模型 应 用 到 新 的 数据 上 以 执行 预测 。DMX 语言 支持 一 些 功能 和 构造 ， 来 容易 地 确定 一 个 
预测 的 类 及 其 置信 度 ， 就 像 在 推荐 引擎 中 那样 来 预测 相关 项 的 列表 ， 或 者 甚至 返回 关于 一 个 预测 的 信 
息 和 支持 事实 。SQL Server 中 的 数据 挖掘 能 够 用 于 存储 在 关系 或 多 维 数据 源 中 的 数据 上 。 通 过 特定 的 
任务 和 转换 ， 也 能 够 支持 其 他 数据 源 ， 人 允许 在 集成 服务 的 操作 型 数据 流水 线 上 直接 进行 数据 挖掘 。 数 
据 挖掘 结果 可 以 通过 图 形 化 控制 、OLAP 立方 体 上 特殊 的 数据 挖掘 维 或 者 简单 地 用 报表 服务 中 的 报表 
来 展现 。 
30. 13.3 SQL Server 报表 服务 


报表 服务 是 一 个 基于 服务 器 的 报表 平台 ， 可 用 来 创建 和 管理 包含 来 自 关 系 和 多 维 数据 源 的 数据 的 
表格 式 、 和 矩阵 式 、 图 形 化 和 自由 格式 的 报表 。 创建 的 报表 能 够 通过 基于 Web 的 连接 来 查看 和 管理 。 矩 
阵 式 报表 可 以 为 高 层次 的 查看 汇总 数据 ， 同 时 提供 下 钻 报表 中 对 细节 的 支持 。 参 数 化 报表 可 用 于 基于 
运行 时 提供 的 值 来 过 滤 数 据 。 用 户 可 以 从 各 种 查看 格式 中 选择 喜欢 的 格式 来 在 运行 中 提供 报表 ， 用 于 
数据 操纵 或 打印 。 还 可 以 用 API 来 扩展 或 将 报表 功能 集成 到 定制 的 解决 方案 中 。 基 于 服务 器 的 报表 提 
供 了 一 种 方式 用 于 集中 报表 的 存储 和 管理 、 设 置 对 报表 和 文件 夹 的 策略 和 安全 访问 、 控 制 报表 如 何 处 
理 和 分 发 ， 以 及 报表 如 何在 业务 中 使 用 的 标准 化 。 


文献 注解 


关于 使 用 C2 认证 系统 的 SQL Server 详细 信息 可 以 在 www. microsoft. com/Downloads/ Release. asp? 
ReleaseID =25503 上 获得 。 

SQL Server 的 优化 框架 是 基于 Graefe[ 1995 ] 提出 的 级 联 优化 器 原型 的 。Simmen 等 [ 1996 | 对 减少 分 组 列 
的 方案 进行 了 讨论 。Galindo-Legaria 和 Joshi[ 2001 | 与 Elhemali 等 [2007 ] 提 出 了 各 种 执行 策略 ，SQL Server 在 
子 查询 的 基于 代价 的 优化 中 考虑 了 这 些 策 略 。Chaudhuri 等 [ 1999 ] 论述 了 关于 SQL Server 自 调 优 方面 的 其 他 
附加 信息 。Chaud huri 和 Shim[ 1994] 与 Yan 和 Larson[ 1995 | 论述 了 聚集 运算 的 重 排序 。 

Chatziantoniou 和 Ross[ 1997 ] 与 Galindo-Legaria 和 Joshi{ 2001 | 提出 了 SQL Server 用 于 请 求 自 连接 的 SQL 
查询 的 一 种 替代 方案 。 在 该 方案 下 ， 优 化 器 检测 模式 并 考虑 每 段 执 行 。Pellenkoft 等 [1997 ] 论述 了 使 用 完全 
的 、 本 地 的 和 非 元 余 的 转换 集合 来 产生 完整 搜索 空间 的 优化 方案 。Graefe 等 [1998 ] 讨论 了 支持 基本 的 聚集 、 
连接 、 有 些 优化 、 扩 展 以 及 关于 数据 倾斜 的 动态 调整 的 散 列 操作 。Graefe 等 [1998 | 仅 为 了 用 查询 所 需要 的 列 
集合 来 装配 行 的 目的 而 提出 联合 索引 的 思想 。 这 种 观点 认为 ， 该 方法 有 时 候 比 扫描 基 表 要 快 ， 

Blakeley[ 1996 | 与 Blakeley 和 Pizzo[ 2001 ] 提供 了 通过 OLE-DB 与 存储 引擎 通信 相关 的 讨论 。Blakeley 等 
[2005 ] 详细 描述 了 SQL Server 的 分 布 和 异 构 查 询 功 能 的 实现 。Acheson 等 [2004 ] 提供 了 在 SQL Server 进程 中 
集成 . NET CLR 的 细节 。 

Blakeley 等 [2008 ] 更 详细 地 描述 了 UDT、UDAgg 和 UDF 的 协定 。Blakeley 等 [2006] 介 绍 了 ADO. NET 实 
体 框架 。Melnik 等 [2007] 描 述 了 ADO. NET 实体 框架 后 面 的 映射 技术 。Adya 等 [2007] 提供 了 ADO. NET 实 
体 框架 体系 架构 的 概述 。SQL: 2003 标准 在 SQLAXML[ 2004 ] 中 定义 。Rysl 2001 | 提供 了 关于 SQL Server 2000 
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XML 功能 的 更 多 细节 。Rys[2004 | 提供 了 对 for xml 聚集 扩展 的 概述 。 关 于 能 够 在 客户 端 或 CLR 中 使 用 的 
XML 功能 的 信息 ， 请 参考 http: //msdn. microsoft. com/XML/Building-XML/XMLandDatabase/ default. aspx 上 的 
白皮书 集 。XQuery 1. 0/XPath 2. 0 数据 模型 在 Walsh 等 [2007 ] 中 定义 。Rys[ 2003 ] 提供 了 在 关系 数据 库 环境 
中 实现 XQuery 的 技术 的 概述 。OrdPath 计数 方案 在 O'Neil 等 [2004 | 中 讲述 ; Pal 等 [2004 ] 和 Baras 等 [2005 | 
提供 了 更 多 关于 SQL Server 2005 中 的 XML 索引 和 XQuery 代数 化 和 优化 方面 的 信息 。 
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附录 A 给 出 了 用 作 我 们 的 运行 实例 的 大 学 数据 库 的 全 部 细节 内 容 ， 包 括 E-R A, SQL DDL 
和 贯穿 全 书 的 示例 数据 。(DDL 和 示例 数据 可 从 本 书 网 站 db-book. com 下 载 ， 作 为 实验 性 练习 
之 用 。) 
其 余 的 附录 并 没有 包含 在 本 书 的 印刷 本 中 ， 但 可 以 通过 本 书 网 站 db-book. com 在 线 下 载 
它们 包括 : 
e 附录 B( 高 级 关系 数据 库 设 计 )， 首 先 介 绍 了 多 值 依赖 的 理论 ; 回想 一 下 ， 多 值 依 闲 是 
在 第 8 章 介 绍 的 。 接 下 来 阐述 了 投影 -连接 范式 ,该 范式 基于 一 种 叫做 连接 依赖 的 约 
束 形式 ; 连接 依赖 是 多 值 依 赖 的 一 种 泛 化 形式 。 该 章 以 称 作 域 码 范式 的 另 一 种 范式 
结束 。 
e 附录 C( 其 他 关系 查询 语言 ) 首 先 给 出 了 关系 查询 语言 一 一 基于 样 例 的 查询 (QBE)， 这 
种 语言 是 为 非 程序 员 的 使 用 而 设计 的 。 在 QBE 中 ， 查 询 看 起 来 就 像 一 组 表 ， 这 些 表 中 
包含 待 检索 数据 的 样 例 。 随 后 介绍 了 微软 Access 的 基于 QBE 的 图 形 化 查询 语言 ， 接 着 
是 Datalog 语言 ， 其 语法 仿照 了 逻辑 编程 语言 Prolog。 
© 附录 D( 网 状 模型 ) 和 附录 下 (层次 模型 ) 介 绍 了 网 状 和 层次 数据 模型 。 这 两 种 数据 模型 
产生 于 关系 模型 之 前 ， 并 提供 了 比 关系 模型 更 低层 次 的 抽象 。 它 们 抽象 掉 一 些 用 于 在 
磁盘 上 存储 数据 的 实际 数据 结构 的 一 些 细 节 ， 但 不 是 所 有 的 细节 。 这 些 模型 仅 在 少数 
遗留 应 用 中 使 用 。 
从 附录 B 到 附录 下 ， 我 们 用 一 个 具有 如 图 2-15 所 示 的 模式 的 银行 企业 来 阐述 我 们 的 概念 
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详细 的 大 学 模式 


在 本 附录 中 ， 将 给 出 我 们 的 运行 实例 大 学 数据 库 的 全 部 详细 内 容 。 在 A. 1 节 我 们 介绍 本 书 使 用 
的 完整 模式 ， 以 及 该 模式 对 应 的 E-R 图 。 在 A. 2 节 我 们 介绍 运行 大 学 实例 的 相对 完整 的 SQL 数据 定 
义 。 除 了 列 出 每 个 属性 的 数据 类 型 ， 我 们 还 引入 了 大 量 约束 。 最 后 ， 我 们 在 A. 3 节 给 出 了 对 应 于 我 
们 的 模式 的 示例 数据 。 从 本 书 的 网 站 db-book. com 上 可 以 获取 用 于 创建 模式 中 所 有 关系 并 向 其 中 导 
入 示例 数据 的 SQL 脚本 。 


A. 1 完整 模式 


图 A-1 显示 了 本 书 使 用 的 大 学 数据 库 的 完整 模式 。 图 A-2 显示 了 对 应 于 该 模式 的 E-R 图 ， 该 图 
贯穿 全 书 。 


| classroom(building, room number, capacity) 
department(dept -name, building, budget) | 
course(course_id, title, dept-name, credits) 

instructor(ID, name, dept_name, salary) 

section(course_id, sec.id, semester, year, building, roon_number, time_slot_id) 








student(ID, name, dept_name, tot.cred) 
takes(ID, course.id, sec id, semester, year, grade) 
advisor(s_ID, i_ID) at 
time.slot(time_slot_id, day, start_time, end-time) 
prereq(course.id, prereq id) 


图 A-1 大 学 数据 库 的 模式 
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图 A-2 大 学 企业 的 E-R 
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A.2 DDL 


在 本 节 中 ， 给 出 关于 我 们 的 例子 的 相对 完整 的 SQL 数据 定义 。 除 了 列 出 每 个 属性 的 数据 类 型 ， 
我 们 还 引入 了 大 量 的 约束 。 


create table classroom 


( building varchar (15), 
room_number varchar (7), 
capacity numeric (4, 0), 


primary key (building, room_number) ) ; 


create table department 


( dept_name varchar (20), 
building varchar (15), 
budget numeric (12, 2) check (budge: > 0), 


primary key (dept_name) ) ; 


create table course 


( course_id varchar (8), 

title varchar (50) , 

dept_name varchar (20) , 

credits numeric (2, 0) check (credits > 0), 


primary key (course_id) , 
foreign key ( dept_name) references department 
on delete set null) ; 


create table instrucior 


(ID varchar (5) , 

name varchar (20) not null, 

dept_name varchar (20), 

salary numeric (8, 2) check (salary > 29000) , 


primary key (/D) , 
foreign key (dept _name) references department 
on delete set null) ; 


create table section 


( course_id varchar (8), 

sec_id varchar (8) , 

semester varchar (6) check ( semester in 

( Fall’ ,’ Winter’ ,’ Spring’ ,’ Summer’ ) ) , 

year numeric (4, 0) check (year > 1701 and year < 2100) , 
building varchar (15) , 

room_number varchar (7), 

time_slot_id varchar (4), 


primary key (course_id, sec_id, semester, year) , 

foreign key (course_id) references course 
on delete cascade, 

foreign key (building, room_number) references classroom 
on delete set null) ; 


在 上 述 DDL 中 ， 如 果 元 组 的 存在 取决 于 引用 的 元 组 ， 我 们 为 外 码 约束 增加 了 on delete cascade 
声明 。 例 如 我 们 为 从 section( 根据 弱 实 体 section 产生 ) 到 course( 该 弱 实 体 的 标识 性 联系 ) 的 外 码 约束 添 
加 了 on delete cascade 声明 。 在 其 他 外 码 约束 中 我 们 要 么 指定 为 on delete set null( 它 通 过 把 引用 值 设 
为 空 的 方式 来 删除 引用 元 组 ) ， 要 么 不 增加 任何 声明 ( 它 防 止 删除 任何 引用 元 组 ) 。 例 如 ， 如 果 删 除 
一 个 系 ， 我 们 不 希望 把 相关 的 教师 也 删除 ; 从 instructor 到 department 的 外 码 约 束 实际 上 把 dept_name 
属性 设置 为 空 。 男 一 方面 ， 关 系 prereg( 将 在 下 面 给 出 ) 的 外 码 约束 防止 删除 这 样 的 课程 : 该 课程 作为 
另 一 门 课程 的 先 修 课 。 对 于 下 面 将 给 出 的 advisor 关系 ， 如 果 删 除 一 位 教师 ， 我 们 允许 把 iD 设置 为 
空 ， 但 是 如 果 删 除 被 引用 的 学 生 ， 那 么 就 删 掉 advisor 元 组 。 
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create table teaches 


(ID varchar (5), 
course_id varchar (8), 
sec_id varchar (8), 
semester varchar (6), 
year numeric (4, 0), 


primary key (/D, course_id, sec_id, semester, year) , 

foreign key (course_id, sec_id, semester, year) references section 
on delete cascade , 

foreign key (/D) references instructor 
on delete cascade) ; 


create table student 


(ID varchar (5), 

name varchar (20) not null, 

dept_name varchar (20), 

tot_cred numeric (3, 0) check (tot_cred >= 0), 


primary key (/D), 
foreign key ( dept_name) references department 
on delete set null) ; 


create table takes 


(ID varchar (5), 
course_id varchar (8), 
sec_id varchar (8), 
semester varchar (6), 
year numeric (4, 0), 
grade varchar (2), 


primary key (ID, course_id, sec_id, semester, year) , 
foreign key (course_id, sec_id, semester, year) references section 
on delete cascade , 
foreign key (/D) references student 
on delete cascade) ; 


create table advisor 
(s_ID varchar (5), 
i_ID varchar (5), 
primary key (s_/D) , 
foreign key (i_/D ) references instructor (ID) 
on delete set null, 
foreign key (s_/D) references student (ID) 
on delete cascade) ; 


create table prereq 
( course_id varchar(8) , 
prereq_id varchar(8) , 
primary key (course_id, prereq_id) , 
foreign key (course_id) references course 
on delete cascade, 
foreign key (prereq_id) references course) ; 


下 面 对 表 time_slot 的 create table 语句 可 以 在 大 多 数 数据 库 系 统 上 运行 ， 但 不 能 在 Oracle 上 工作 
(至 少 不 适 用 于 Oracle 11 版 本 ) ， 因 为 Oracle 不 支持 SQL 标准 类 型 time, 


create table time_slot 
(time_slot_id varchar (4) , 


day varchar (1) check (day in(’M’,’T’,’W’,’R’,’F’,°S’,’U’)), 
start_time time , 
end_time time, 


primary key (time_slot_id, day, start_time) ) ; 


这 些 例子 说 明了 在 SQL 中 指定 时 间 的 语法 :“08: 30’, 613; 55’ AS: 30PM’. HF Oracle 不 


支持 time 类 型 ， 对 于 Oracle 我 们 使 用 如 下 模式 来 代替 : 


create table time_slot 


( time_slot_id 
day 

start_hr 
start_min 
end_hr 


end_min 


其 区 别 在 于 : start_time 被 替换 成 两 个 属性 start_hr 和 start_min, [A] FE end_time 被 蔡 换 成 属性 end_ 
hr 和 end_min。 这 些 属性 上 还 有 约束 来 保证 只 有 代表 有 效 时 间 值 的 数字 才能 出 现在 这 些 属性 中 。 这 个 
版 本 的 time_slot 模式 在 包括 Oracle 在 内 的 所 有 数据 库 上 都 能 运行 。 注 意 尽管 Oracle 支持 datetime 数 
据 类 型 ， 但 datetime 包括 特定 的 日 、 月 、 年 以 及 时 间 ， 用 在 这 里 并 不 合适 ， 因 为 我 们 只 想 用 时 间 ， 
把 时 间 属 性 拆 分 成 小 时 和 分 钟 部 分 还 有 两 种 替代 方案 , 但 是 它们 都 不 可 取 。 第 一 种 替代 方案 是 采用 
varchar 类 型 ， 但 是 这 样 就 难以 在 字符 串 上 施加 有 效 性 约束 ， 也 不 方便 执行 时 间 上 的 比较 。 第 二 种 替 
代 方 案 是 把 时 间 编 码 成 整数 ， 该 整数 表示 从 午夜 以 来 的 分 钟 ( 或 秒 ) 数 ， 但 是 这 种 方案 需要 每 次 查询 


varchar (4), 
varchar (1) , 


MRA 详细 的 大 学 模式 


numeric (2) check (start_hr >=0 and end_hr < 24), 
numeric (2) check (start_min >=0 and start_min < 60), 
numeric (2) check (end_hr >=0 and end_hr < 24), 
numeric (2) check (end_min >= 0 and end_min < 60), 
primary key (time_slot_id, day, start_hr, start_min) ) ; 


有 额外 代码 来 进行 标准 时 间 表 示 和 整数 编码 之 间 的 转换 。 因 此 我 们 选用 两 部 分 表示 的 方案 。 


A. 3 示例 数据 


在 本 节 我 们 将 为 前 一 节 定 义 的 每 个 关系 提供 示例 数据 ， 如 图 A-3 ~ 图 A-14 所 示 。 












































A-4 department 关系 


| building | roomnumber | capacity 
Packard | 101 500 
Painter 514 10 | 
Taylor 3128 70 
Watson | 100 30 
Watson | 120 50 

A-3 classroom 关系 

dept-name | building | budget 
Biology Watson 90000 
Comp. Sci. | Taylor 100000 
Elec.Eng. | Taylor | 85000 
Finance Painter | 120000 
History Painter 50000 
Music Packard | 80000 
Physics Watson | 70000 























courseid | title dept_name | credits 
| BIO-101 | Intro. to Biology | Biology 4 
BIO-301 | Genetics | Biology 4 
BIO-399 | Computational Biology Biology 3 
CS-101 Intro. to Computer Science | Comp. Sci. 4 
| CS-190 | Game Design Comp. Sci. | 4 
CS-315 | Robotics | Comp. Sci. 3 
CS-319 Image Processing Comp. Sci. 3 
CS-347 Database System Concepts | Comp. Sci. 3 
EE-181 Intro. to Digital Systems Elec. Eng. 3 
FIN-201 | Investment Banking Finance 3 
HIS-351 | World History History 3 
MU-199 | Music Video Production Music | 3 
PHY-101 | Physical Principles | Physics | 4 








图 A-5 course 关系 
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ID name | deptname | salary 
10101 | Srinivasan | Comp. Sci. | 65000 
12121 | Wu Finance 90000 
15151 | Mozart Music 40000 | 
22222 | Einstein Physics 95000 
32343 | El Said History 60000 
33456 | Gold Physics | 87000 | 
45565 | Katz Comp. Sci. | 75000 | 
58583 | Califieri History 62000 
76543 | Singh Finance 80000 
76766 | Crick Biology 72000 
83821 | Brandt Comp. Sci. | 92000 
98345 | Kim Elec. Eng. | 80000 











图 A-6 instructor 关系 


| courseid | secid | semester | year | building | roomnumber | time-slot.id 


























BIO-101 1 Summer | 2009 | Painter 514 | B 
BIO-301 1 Summer | 2010 | Painter 514 | A 
CS-101 1 Fall 2009 | Packard 101 | H 
CS-101 1 Spring 2010 | Packard 101 P 
CS-190 1 | Spring | 2009 | Taylor 3128 E 
CS-190 2 Spring 2009 | Taylor 3128 A 
CS-315 1 Spring 2010 | Watson 120 D 
CS-319 1 Spring 2010 | Watson 100 B 
CS-319 2 Spring 2010 | Taylor 3128 | C 
CS-347 1 Fall 2009 | Taylor 3128 | A 
EE-181 1 Spring 2009 | Taylor 3128 | € 
FIN-201 1 Spring 2010 | Packard 101 B 
HIS-351 1 | Spring 2010 | Painter 514 G 
MU-199 1 | Spring 2010 | Packard 101 D 
PHY-101 | 1 Fall 2009 | Watson 100 A 











A-7 section 关系 




















ID courseid | secid | semester | year 
10101 | CS-101 1 | Fall | 2009 | 
10101 | CS-315 1 Spring | 2010 
10101 | CS-347 1 Fall | 2009 
12121 | FIN-201 1 Spring | 2010 
15151 | MU-199 1 Spring 2010 
22222 | PHY-101 1 Fall 2009 
32343 | HIS-351 1 Spring 2010 

| 45565 | CS-101 1 Spring 2010 

| 45565 | CS-319 1 Spring | 2010 

| 76766 | BIO-101 1 Summer | 2009 | 

| 76766 | BIO-301 1 Summer | 2010 
83821 | CS-190 1 Spring | 2009 
83821 | CS-190 2 | Spring | 2009 
83821 | CS-319 2 Spring 2010 
98345 | EE-181 1 Spring 2009 














图 A-8 teaches 关系 

















ID name | deptname | tot-cred | 
00128 | Zhang Comp. Sci. 102 
12345 | Shankar | Comp. Sci. 32 
19991 | Brandt History 80 
23121 | Chavez Finance 110 
44553 | Peltier Physics 56 
45678 | Levy Physics 46 
54321 | Williams | Comp. Sci. 54 
55739 | Sanchez | Music 38 
70557 | Snow Physics 0 
76543 | Brown Comp. Sci. 58 
76653 | Aoi Elec. Eng. 60 
98765 | Bourikas | Elec. Eng. 98 
98988 | Tanaka Biology 120 














图 A-9 student 关系 
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[页 | coursed | seeid | semester | year | grade 








00128 | CS-101 1 | Fall | 2009 | A 
00128 | CS-347 1 | Fall 2009 | A- 
12345 | CS-101 1 | Fall 2009 | C 
12345 | CS-190 2 | Spring | 2009 A 
12345 | CS-315 1 | Spring | 2010 | A 
12345 | CS-347 1 Fall | 2009 | A 
19991 | HIS-351 1 | Spring | 2010 | B 
23121 | FIN-201 1 | Spring | 2010 | C+ 
44553 | PHY-101 1 | Fall 2009 | B- 
45678 | CS-101 1 | Fall 2009 | F 
45678 | CS-101 1 | Spring | 2010 | B+ 
45678 | CS-319 1 | Spring | 2010 | B 
54321 | CS-101 1 | Fall 2009 | A- 
54321 | CS-190 2 Spring | 2009 | B+ 
55739 | MU-199 1 | Spring | 2010 | A- 
76543 | CS-101 1 | Fall 2009 | A 
76543 | CS-319 2 Spring 2010 | A 
76653 | EE-181 1 | Spring | 2009 | C 
98765 | CS-101 1 | Fall | 2009 | C- 
98765 | CS-315 1 | Spring | 2010 | B 
98988 | BIO-101 1 Summer | 2009 | A 
98988 | BIO-301 1 Summer | 2010 | null 





























图 A-10 takes 关系 


00128 | 45565 | 
12345 | 10101 

23121 | 76543 | 
44553 | 22222 | 
45678 | 22222 | 
76543 | 45565 
76653 | 98345 | 
98765 | 98345 
98988 | 76766 | 


FA A-11 advisor 关系 


























| time-slot_id | day | start.time | endtime 
A M 8:00 8:50 
A W 8:00 8:50 
A F 8:00 8:50 
B M 9:00 9:50 
B W 9:00 9:50 
B F 9:00 9:50 
C M 11:00 11:50 
C W 11:00 11:50 
€ F | 1100 11:50 | 
D M 13:00 13:50 
D WwW 13:00 13:50 
D F 13:00 13:50 
E T 10:30 11:45 
E R 10:30 11:45 
F T 14:30 15:45 
F R 14:30 15:45 
G M 16:00 16:50 
G Ww 16:00 16:50 
G F 16:00 16:50 
H W 10:00 12:30 




















A-12  time_slot 关系 
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图 A-14 具有 起 始 和 终止 时 间 被 拆 分 成 小 时 和 分 钟 的 iime_slot 关系 


























course.id | prereq-id 
BIO-301 | BIO-101 
BIO-399 | BIO-101 | 
CS-190 | CS-101 | 
CS-315 | CS-101 | 
CS-319 | cs-101 | 
CS-347 CS-101 | 
EE-181 PHY-101 | 
图 A-13 prereg KK 
time-slotid | day | starthr | startmin | endhr | endmin | 
A M 8 0 T & 50 
A W 8 0 8 50 
A F 8 0 8 50 
B M 9 0 9 50 
B W 9 0 9 50 
B F 9 0 9 50 
C M 11 0 11 50 
€ W 11 0 11 50 
C F 11 0 11 50 
D M 13 0 13 50 
D WwW 13 0 13 50 
D F 13 0 13 50 
E a. 10 30 ‘GI 45 
E R 10 30 11 45 
F T 14 30 15 45 
F R 14 30 15 45 
G M 16 0 16 50 
G W 16 0 16 50 
& |F 16 0 16 50 
H WwW 10 0 12 30 
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1138-1139 
false cycle and( [RIF ) , 846-847 
IBM DB2 and, 1200-1203, 1217-1218 
index structure and( 索引 结构 ) ，704-708 
insert operation and( 插 和 操作) 697-701 
lock and( 锁 ) ，661-686 ，839-842 
logical undo and( 逻辑 undo), 749-750 
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force output and ( 强制 输出 ) , 725-726 
history of( 历史 ) 29-31 
indexing and( 索 引 ) ，475-531 (参见 index) 
information retrieval and( 信息 检索 ) 915-937 
lock and( 锁 ) 661-679 (参见 lock) 
main-memory( 主 存 ) ，1105-1108 
mobile( 移动 ) ，1079-1085 
modification and( 修改 ) 98-103, 728-729 
multimedia( 多 媒体 ) 1076-1079 
normalization and( 标准 化 ) ，18-20 
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time in( 时 间 ) , 1062-1064 
DataBase Administrator (DBA) ( 数据 库 管 理 员 ) ， 
28-29, 149, 1152, 1214-1215, 1243 
database schema( 数据 库 模 式 ). BR schema 
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key and( 码 ) 330-333 
lossless( 无 损 ) , 345-346 
.lossless-join( 无 损 连 接 ) , 345-346 
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deletion ( 删除 ) 61, 63, 98-100, 102, 161 
concurrency control and ( 并 发 控制 ) , 697-701 


EXEC SQL and, 171 
hashing and( 散 列 ) , 510, 513, 516, 523 
integrity constraint and( 完整 性 约束 ) 133 
PostgreSQL and，1130-1131 
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demand-driven pipelining ( 需求 驱动 流水 线 )， 
569-570 
denormalization ( 解除 规范 化 ) ，363-364 
dependency preservation ( 保持 依赖 ) 334-336, 
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direct-access storage( 随机 访问 存储 ) 431 
directory ( 目录 ) ，935-937 
directory information tree ( DIT) (目录 信息 树 )， 
872-875 
directory system( 目录 系统 ) ，870-875 
dirty block( 脏 块 ) 741 
dirty page table( 脏 页 表 ) ，750-756 1244-1245 
dirty read( 读 脏 数 据 ) 1137, 1181 
dirty write( 写 脏 数据 ) ，649 
disable trigger ( 使 触发 器 无 效 ) 185 
disconnected operation ( 断 连 操作 ) ，395-396 
disjoint entity set( 不 相交 实体 集 ) 300 
disjoint specialization ( 不 相交 特殊 化 ) , 296-297 
disjunction ( 析 取 ) , 545-546, 594 
disk-arm-scheduling ( ## E), 437 
disk controller ( 磁盘 控制 器 ) 434 
distinct type ( 独特 类 型 ) , 84-86, 138-141 
distinguished name( DN) ( 可 区 分 的 名 称 ) ，872 
distributed database ( 分 布 式 数据 库 ) 876-878 
availability and( 可 用 性 ) ，847-853 
cloud-based( 基于 云 的 ) 861-870 
commit protocol and( 提交 协议 ) ，832-838 
concurrency control and ( 并 发 控制 )，835-836 ， 
839-847 
deadlock handling and( 死 锁 处 理 ) 844-847 


directory system and( 目录 系统 ) 870-875 

failure and( 故障 ) ，831-835 

fragmentation and( 分 片 ) 826-829 

heterogeneous( 异 构 ) , 825-826, 857-861 

homogeneous( 同 构 ) , 825-826 

join and( 连接 ) 855-857 

lock and( 锁 ) , 839-847 

partition and( 划分 ) 835 

persistent messaging and( 持久 消息 ) ，836-838 

query processing and( 查询 处 理 ) 854-860 

recovery and( 恢复 ) ，835-836 

replication and( 复制 ) 826, 829, 843-844 

storage and( 存储 ) ，826-830 

timestamp and( Hf IEJ Æ) , 842-843 

transparency and ( 透明 性 ) 829-830 

unified view of data and ( 数据 统 一 视图 ) 858-859 
distributed-lock manager ( 分 布 式 锁 管 理 器 ) 840 
distributed system ( 分 布 式 系统 ) 

autonomy and( 自治 ) ，785 

availability and( 可 用 性 ) ，785 

example of( 例子 ) 786 

global transaction and( 全 局 事务 ) ，784 

greater potential for bug in( 更 大 的 出 错 可 能 性 )， 

787-788 
implementation and( 实现 ) ，786-788 
increased processing overhead of (增加 的 处 理 开 
销 ) ，788 

local transaction and( 局 部 事务 ) 784 

node and( 结 点 ) ，784 

ready state and( 就 绪 状 态 ) ，787 

replication and( 复制 ) , 785 

sharing data and( 共享 数据 ) ，785 


software-development cost and (软件 开发 代 

价 ) ，787 
two-phase commit protocol(2PC ) and (两 阶段 提交 

协议 ) ，786-788 

distributor ( 分 发 者 ) 1252 

divisive clustering( 分 裂 聚 类 ) , 907-908 

Document Object Model (DOM) (文档 对 象 模 
型 ) ，390 

Document Type Definition( DTD) ( 文档 类 型 定义 ) ， 
990-994 

domain( 域 ) , 42 

domain constraint( 域 约束 ) 11 

Domain-Key Normal Form ( DKNF) ( 域 码 范 


xX), 360 
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domain relational calculus ( 域 关 系 演 算 ) 249 
example query( 样 例 查 询 ) 246-247 
expressive power of language( 语言 表达 能 力 ) ，248 
formal definition( 形式 化 定义 ) 245 
safety of expression ( 表达 式 安全 性 ) 247-248 
double-pipelined hash-join ( 双流 水 线 散 列 连接 )， 
571-572 
drill down( 下 钻 ) ，201 
Driver-Manager class( 驱动 程序 管理 器 类 ) ，160 
drop index( 删除 索引 ) ，529 
drop table( WX), 63, 164 
drop trigger ( 删除 触发 器 ) 185 
drop type ( 删除 类 型 ) 140 
dumping ( 转 储 ) , 743-744 
duplicate elimination ( 消除 重复 ) 563-564 
durability ( 持久 性 ) 22-23, 104, 625, 630-631 
defined ( 定义 的 ) 628 
distributed transaction and( 分 布 式 事务 ) 830-832 
one-safe( 一 方 保 险 ) ，758 
remote backup system and( 远程 备份 系统 ) ，758 
storage structure and( 存储 结构 ) 632-633 
two-safe( 两 方 保险 ) 758 
two-very-safe( 两 方 强 保险 ) ，758 
dynamic SQL( 动态 SQL), 58, 158, 175 


e-catalog( 电子 目录 ) 1103 
Eclipse，386 
E-commerce( 电子 商务 ) ，1102-1105 
efficiency ( 效率 ) 6-8 
election algorithm ( 选举 算法 ) , 851-852 
embedded SQL( Azt SQL), 58, 158, 169-173 
empty relation( 空 关 系 ) 93-94 
encryption ( 加 密 ) 
Advanced Encryption Standard (AES) (扩展 加 密 标 
准 ) ，412-413 
application of( 应 用 ) 411-417 
asymmetric-key ( 非 对 称 密 钥 ) 412 
authentication and( 鉴定 ) 415-417 
challenge-response system and (询问 - 回答 系 
统 ) 415 
database support and( 数据 库 支持 ) 414-415 
dictionary attack and( 字 典 攻 击 ) ，414 
digital certificate and( 数字 证 书 ) ，416-417 
digital signature and( 数字 签名 ) ，416 
nonrepudiation and( 不 可 否认 性 ) 416 
Oracle and, 1165-1166 
prime number and( 素数 ) , 413 
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public-key ( 4254H) , 412-414 
Rijndael algorithm and( Rijndael 算法 ) ，412-413 
technique of 技术 ) , 412-414 
end-user information ( RA RASS), 407-408 
enterprise information( 企业 信息 ) 1-2 
Entity Data Model ( 实体 数据 模型 ) 395 
entity-relationship (E-R) diagram ( 实体 联系 图 )， 
17-18 
alternative notation for( 替代 记号 ) 304-310 
basic structure of( 基本 结构 ) 274-275 
complex attribute( 复杂 属性 ) ，277-278 
entity set and( 实体 集 ) ，279-281 
generalization and( 概 化 ) 298 
identifying relationship and( 标识 性 联系 ) ，280 
mapping cardinality ( 映射 基数 ) 276 
nonbinary relationship set ( 非 二 元 联系 集 )， 
278-279 
relationship set( 联系 集 ) ，278-279 
roles( 角色 ) ，278 
university enterprise example( 大 学 企业 例子 ) ，282- 
283 
weak entity set( 弱 实 体 集 ) 279-281 
entity-relationship (E-R) model ( 实体 -联系 模型 ) ， 
9, 17-18, 259, 313-314, 963 
aggregation and( 聚集 ) 301-302, 304 
alternative modeling data notation and ( 替代 数据 建 
模 记 号 ) 304-310 
atomic domain and( 原子 域 ) ，327-329 
attribute and ( 属性 ) ，263，267-269，290-291 ， 
294-295 ，298-299 ，327-329 
complex data type and( 复杂 数据 类 型 ) 946-947 
constraint and( 约束 ) ，269-272 
design issue and( 设计 问题 ) ，290-295 
enterprise schema and( 企业 模式 ) ，262 
entity set and( 实体 集 ) 262-267, 272-274, 279- 
286, 290-291, 296-298 
extended feature ( 扩展 特性 ) 295-304 
generalization and( 概 化 ) , 297-304 
normalization and( 标准 化 ) 361-362 
object-oriented data model and ( 面向 对 象 数据 模 
型 ) 27 
reduction to relational schema and (转换 为 关系 模 
xt) , 283-290 
redundancy and( JER) , 272-274 
relationship set and ( fk A) , 264-267, 286-290, 
291-295 , 296-297 
specialization and( 特 化 ) , 295-297 


Unified Modeling Language (UML) and( 统一 建 模 语 
A), 308-310 
entity set( 实体 集 ) 
alternative notation for( 替代 记号 ) ，304-310 
attribute and( 属性 ) ，263 ，284-285 290-291 
condition-defined( 条件 定义 的 ) ，299 
defined( 定义 的 ) ，262-263 
design issue and( 设计 问题 ) 290-292 
disjoint( 不 相交 ) ，299 
extension of( 扩展 ) 263 
generalization and( 概 化 ) ，297-304 
identifying relationship and( 标识 性 联系 ) ，280 
overlapping( Æ), 299 
property of( 性 质 , 262-264 
relationship set and( KA) , 264-267, 291-292 
removing redundancy in( 消除 元 余 )，272-274 
role of( 角色 ) ，264-265 
simple attribute and( 简单 属性 ) ，283-284 
strong( 58 ) , 283-285 
subclass( FÆ), 298 
superclass ( 超 类 ) , 298 
superclass-subclass relationship and ( #28 - F % H% 
系 ) 296-297 
Unified Modeling Language (UML) and( 统一 建 模 语 
言 )，308-310 
user-defined( 用 户 自 定义 ) ，299 
weak ( 55), 279-281, 285-286 
Entity SQL( 实体 SQL) 395 
Enterprise Resource Planning (ERP) system( 企业 
资源 规划 系统 ) 1101 
entropy measure ( 1 ##) ，897-898 
equi-join( 等 值 连 接 ) , 549-559, 563, 566, 571, 
807, 819 
equivalence ( 等 价 ) 
cost analysis and( 代价 分 析 ) ，601-602 
join ordering and( 连接 次 序 ) , 588-589 
relational algebra and( 关系 代数 ) , 582-590 
transformation example for( 转换 例子 ) 586-588 
Error-Correcting Code (ECC) organization ( 纠 错 码 
组 织 ) 444-445 
ERWin, 1194 
escape( X), 77 
evaluation primitive ( 计算 原 语 ) , 539 
every clause( every 子 句 ) 90 
except clause( except 子 句 ) 82-83, 93, 188 
exchange system ( 交换 系统 ) 1104 
exclusive-mode lock ( 排他 型 锁 ) , 661 


EXEC SQL，169-173 

execute ( 执行 ) 147 

existence bitmap ( 存在 位 图 ) 526-527 

exists clause( exists 子 句 ) 93 

extensibility contract( 可 扩展 性 约定 ) ，1256-1258 

external language routine (外 部 语言 例 程 )， 
179-180 

external sort-merge algorithm ( 外 排序 归并 算法 )， 
548-549 


Facebook, 31, 862 
factorial( 阶乘 ) ，639 
fact table( 事实 表 ) ，891-892 
fail-stop assumption( 故障 -停止 假设 ) ，722 
false cycle( 假 环 ) ，846-847 
false drop( REF), 929 
false negative(iR@F) , 903, 929-930 
false positive ( 误 选 中 ) , 903, 929-930 
false value ( 假 值 ) 90, 208 
fanout( AH), 487 
fetching, 21, 138, 906, 1078, 1097 
advanced SQL and (高 级 SQL), 161, 166-173, 
176, 180, 194 
application design and ( 应 用 程序 设计 ) 389-397, 
1030, 1038 
IBM DB2 and, 1199, 1202, 1209, 1211, 1219 
information retrieval and ( 信息 检索 ) 921, 929, 
936 (参见 information retrieval) 
Microsoft SQL Server and, 1241, 1251 
object-based database and (基于 对 象 的 数据 库 )， 
965, 969-972 
PostgreSQL and, 1137, 1146, 1151, 1153 
storage and ( # fi#), 437, 439, 444 (参见 
storage ) 
Web crawler and( W248 (G4) , 930-931 
Fibre Channel interface ( 光纤 通道 接口 ) 434, 436 
fifth normal form( 第 五 范式 ) 360 
file header( 文件 头 ) , 454 
file manager ( 文件 管理 器 ) 21 
file organization (文件 组 织 )，3- 4. 参见 
also storage 
B* -tree and(B’* 树 )，500-502 
blob ( 二进制 大 对 象 )，138，166，457，502 ， 
1013, 1198-1199, 1259 
block-access time and( 块 访问 时 间 ) , 438 
clob (字符 大 对 象 数据 类 型 ) 138, 166, 457, 
502, 1010-1013, 1196-1199 
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fixed-length record and( 定 长 记录 ) 452-454 
hashing ( 散 列 ) , 457 
heap file( 堆 文件 ) 457 
indexing and( 索引) ，475 (参见 index) 
journaling system and( 日 志 系 统 ) ，439 
multitable clustering and ( Z # R fF), 458, 
460-462 
pointer and( 指针 ) , 454 
security and( 安全 性 ) 5-6 (参见 security) 
sequential ( 顺序 ) ，457-459 
structured ( 结构 化 的 ) ，451-468 
system structure and( 系统 结构 ) 451-452 
variable-length record and( Æ KIER), 454-457 
file scan( 文件 扫描 ) 541-544, 550, 552, 570 
final/not final expression ( final/not final 表达 式 )， 
949, 953 
fine-granularity parallelism ( 细 粒 度 并 行 ) 771 
FireWire interface( 火线 接口 ) 434 
first committer wins ( 先 提交 者 胜 ) 692-693 
first updater wins ( 先 更 新 者 胜 ) ，693 
flash storage( 闪存 ) 403 
B* -tree and(B’* 树 )，506 
cost of( 代价 ) ，439 
erase speed and( 擦 除 速 度 ) 440 
hybrid disk drive and( 混合 磁盘 驱动 器 ) ，440-441 
NAND, 430, 439-440 
NOR, 430, 439 
flash translation layer( 闪存 转换 层 ) 440 
floppy disk( 软盘 ) , 430 
flow-distinct ( flow-distinct 操作 ) , 1240-1241 
FLWOR (for, let, where, order by, return ) 
expression( FLWOR 表达 式 ) , 1002-1003 
forced output ( 强制 写 出 ) 465, 725-726 
force policy ( 强制 策略 ) ，739-740 
for each row clausel for each row 子 句 ) 181-184 
for each statement clause ( for each statement + 
J), 68, 183 
foreign key( 外 码 ) , 46, 61-62, 131-133 
fourth normal form( 第 四 范式 ) , 356, 358-360 
fragmentation (4+) , 827-829 
Free Space Control Record( FSCR) ( 自由 空间 控制 
记录 ) ，1202 
from statement( from 语句 ) 
aggregate function and( 聚集 函数 ) ，84-90 
basic SQL query and( 基本 SQL 查询 ) ，63-74 
on multiple relation( 多 关系 ) 66-71 
natural join and( 自然 连接 ) 71-74 
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null value and( 空 值 ) 83-84 
rename operation and( 更 名 运算 ) 74-75 
set operation and( 集合 运算 ) , 79-83 
on single relation( 单 关 系 ) 63-66 
string operation and( 字 符 串 运算 ) 76-79 
subquery and( 子 查询 ) 95-96 
full outer join (全 外 连接 )，117-120，233-234 ， 
565-566 
functional dependency ( KUK), 18, 129 
attribute set closure and( 属性 集 闭 包 ) , 340-342 
augmentation rule and( 增补 律 ) 339 
BCNF algorithm and(BCNF 算法 ) ，349-352 
Boyce-Codd normal form and ( Boyce-Codd 范式 )， 
333-336 2 
canonical cover and( 正则 有 覆盖) ，342-345 
closure of a set( 集合 闭 包 ) ，338-340 
decomposition rule( 分 解 规则 ) ，339 
dependency preservation and( 保持 依赖 ) ，334-336， 
346-348 
extraneous( 无 关 的 ) 342 
higher normal form and( 更 高 级 范式 ) ，337-338 
key and( #4) , 330-333 
lossless decomposition and ( 无 损 分 解 ) , 345-346 
multivalued( 多 值 ) , 355-360 
pseudotransitivity rule( 伪 传 递 律 ) 339 
reflexivity rule and( 自 反 律 )，339 
theory of( 理论 ) ，338-348 
third normal form and (第 三 范式 )，336-337， 
352-355 
transitivity rule and( 传递 律 ) ，339 
union rule( 合并 律 ) 339 
functionally determined attributes ( phi AUER Ze AY JR HE) , 
340-342 
function-based index( SEF RAAIRS|) , 1167-1168 
function ( 函数 )， BIL specific function 
declaring( 声明 ) , 174-175 
external language routine and (外 部 语言 例 程 )， 
179-180 
IBM DB2 and, 1197-1198 
language construct for( 语言 结构 ) 176-179 
polymorphic( 多 态 ) ，1128-1129 
PostgreSQL, 1133-1135 
state transition( 状态 转换 ) , 1134 
syntax and( 语 法) 173-174, 178 
writing in SQL( 用 SQL 书写 ) 173-180 
XML and( 可 扩展 标记 语言 ) 1006-1007 
fuzzy checkpoint ( 模糊 检查 点 ) 742-743, 750-752 


generalization ( 概 化 ) 
aggregation and( 聚集 ) 301-302 
attribute inheritance and( 属性 继承 ) , 298-299 
bottom-up design and( 自 底 向 上 设计 ) , 297 
condition-defined( 条 件 定义 的 ) 299 
constraint on( 约束 ) ，299-301 
disjoint( 不 相交 ) ，300 
entity-relationship (E-R) model and( 实体 - 联系 模 
型 ) 297-304 
overlapping( #i#) , 300 
partial( 部 分 ) 300 
representation of( 表示 ) ，302-304 
subclass set and( 子 类 集 ) 298 
superclass set and( 超 类 集 ) 298 
top-down design and( A Jii{a] Fixit) 297 
total( 38) , 300 
user-defined ( 用 户 自 定 义 ) 299 
Generalized Inverted Index (GIN) (通用 倒 排 索 
引 ) ，1149 
generalized-projection ( 广义 投影 ) 235 
Generalized Search Tree ( GiST) (通用 搜索 树 )， 
1148-1149 
geographic data( 地 理 数据 ) ，1061 
application of( 应 用 ) , 1068 
information system and( 信息 系统 ) 1065 
raster data and( 光栅 数据 ) ，1069 
representation of( 表示 ) ，1065-1066 ，1069-1070 
spatial query and( 空间 查询 ) 1070-1071 
vector data and( 矢量 数据 ) 1069 
getColumnCount method ( getColumnCount 方法 ) , 
164-165 
getConnection method( getConnection 方法 ) 160 
GET method( GET 方法 ) 405 
getString method( getString 方法 ) 161 
Gini measure( 吉 尼 度量 ) 897 
Glassfish，386 
global class identifier( 全 局 类 别 标识 ) ，1055 
global company identifier( 全 局 公司 标识 ) ，1055 
Global Positioning System (GPS) (全 球 定 位 系 
统 ) ，1068 
global product identifier( 全 局 产品 标识 ) 1055 
global wait-for graph ( 全 局 等 待 图 ) 845-847 
Google，31 
application design and ( 应 用 程序 设计 ) , 378-382, 
396, 407 
distributed database and ( 分布 式 数据 库 )，862， 
866-867 


information retrieval and ( 信息 检索 ) 933 (参见 
information retrieval ) 
PageRank and, 922-925 
grant( grant 语句 ) , 144-150 
granted by current role, 150 
graph-based protocol ( 基于 图 的 协议 ) , 671-674 
Greenplum, 816 
group by ( 按 …… 分 组 ) 86-89, 96, 194, 203, 
206-209 
growing phase( 增长 阶段 ) 667-669 


hacker( $8). 参见 security 
handoff( 交接 ) ，1081 
hard disk( 硬盘 ) ，29-30 
hardware RAID( 硬件 RAID) , 448 
hardware tuning ( 硬件 调整 ) , 1035-1038 
harmonic mean( 调和 平均 数 ) , 1046 
hash cluster access ( 散 列 聚 类 访问 ) , 1173 
hash function ( 散 列 函数 )，457- 458, 476, 
530-531 
closed( 闭 )，513 
data structure and( 数据 结构 )，515-516 
deletion and( 删 除 ) 510, 513, 516, 523-524 
dynamic( 动态 ) 515-523 
extendable( 可 扩展 的 ) 515 
index and( 索 引 ) ，514-515 523-524 
insertion and( 捅 人 )，5$13 ，$16-$24 
insufficient bucket and( {F Æ), 512 
join and( 连接 ) ，809-810 
lookup and( ###¥) , 516-518, 522, 524 
open( F), 513 
Oracle and, 1170 
overflow and( XH), 512-513 
partitioning and( 划分 ) ，807 
PostgreSQL and，1148 
query and( 查 询 ) , 516-522 
skew and( (yij#}) , 512 
static( 静态 ) 509-515, 522-523 
update and( 更 新 ) 516-522 
hash join( 散 列 连接 ) ，602 
basics of( 基本 ) , 558-559 
build input and( 构造 用 输入 ) ，558 
cost of( 代价 ) , 561-562 
double-pipelined ( 双流 水 线 ) ，571-572 
hybrid( 混合 ) 562 
overflow and( et) 560 
query processing and( 查询 处 理 ) 557-562 
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recursive partitioning and( 递归 划分 ) , 539-540 
skewed partitioning and( 偏 斜 划 分 ) ，560 
hash-table overflow( 散 列 表 溢 出 ) 560 
having( having 语句 ) , 88-89, 96 
heap file ( 3x4), 457, 523, 1147-1149, 1153 
heuristics ( 启发 式 ) 1075-1076 
data analysis and( 数据 分 析 ) , 899, 910 
distributed database and( 分 布 式 数据 库 ) ，859 
greedy( 贪心 ) 910 
IBM DB2 and, 1211 
information retrieval and( 信息 检索 ) 934 
Microsoft SQL Server and, 1240 
Oracle and, 1176 
parallel database and( 并 行 数 据 库 ) 815 
query optimization and (查询 优化 )，598- 605, 
615-616 
Hibernate system( Hibernate 系统 ) , 393-395 
hierarchical architecture( 层次 结构 ) 781, 784 
hierarchical classification( 层次 分 类 ) , 935-937 
hierarchical clustering ( 层次 聚 类 ) ，907-908 
hierarchical data model( 层次 数据 模型 ) 9 
high availability( 高 可 用 性 ) ，756 
HIPAA，1248 
histogram (BAH), 195, 591-596, 616, 801, 
901, 1152, 1175, 1211, 1239 
HITS algorithm( HITS 算法 ) 925 
home processor ( 本 地 处 理 器 ) , 803 
homonym( 同义词 ) ，925-927 
horizontal fragmentation ( 水 平分 片 ) 827-828 
horizontal partitioning( 水 平分 区 ) 798 
hot-spare configuration ( 热 备 份 配置 ) 758 
hot swapping ( 热 交 换 ) ，449 
householding ( 住宅 操作 ) ，891 
HP-UX，1193 
hub ( 链接 中 心 ) 924 
hybrid disk drive( 混合 磁盘 驱动 ) ，440-441 
hybrid hash join( 混合 散 列 连接 ) 562 
hybrid merge join( 混合 归并 连接 ) 557 
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lazy propagation ( 延迟 传播 ) ，844 ，868 
lazywriter( SQLServer 的 后 台 服务 线程 之 一 ) 1246 
LDAP Data Interchange Format (LDIF) (LDAP 数 
据 交 换 格 式 ) ，872 
Least Recently Used (LRU) scheme (最 近 最 少 使 
用 模式 ) 465-467 
left outer join ( 左 外 连接 )，116-120，233-235， 
565-566 
legacy system ( 遗产 系统 ) 1050-1051 
Lightweight Directory Access Protocol (LDAP) ( 轻 
量 级 目录 访问 协议 ) 406, 871-875 
like( like 运算 ) 76-77 
linear regression ( 线性 回归 ) , 902 
linear search( 线性 搜索 ) ，541-542 
linear speedup( 线性 加 速 比 ) ，778-780 
Linux, 1124, 1193-1194, 1212 
Local-Area Network (LANs) (局 域 网 )，788- 
789, 1081 
localtimestamp ( 当地 时 间 戳 ) 137 
local wait-for graph( 局 部 等 待 图 ) 845 
location-dependent query ( 位 置 相 关 的 查询 ) 1080 
locking protocol ( 封锁 协议 ) ，666 
biased( 有 偏 ) , 841 
distributed lock manager( 分 布 式 锁 管理 器 ) 840 
graph-based( 基于 图 的 ) ，671-674 
majority( 多 数 ) ，840-841 
primary copy( 主 拷贝 ) 840 
quorum consensus( 法 定 人 数 同意 ) ，841-842 
single lock-manager( 单一 锁 管 理 器 ) 839 
timestamping( 时 间 惟 ) , 842-843 
two-phase ( 两 阶段 ) 667-669 
lock manager( 锁 管理 器 ) ，670-671，773 
lock ( $ ) 
adaptive granularity and( 自 适 应 粒度 ) 776 
caching and( 高 速 缓存 ) 776 
call back and( 回调 ) ，776 
compatibility function and( 兼容 性 函数 ) ，662 
concurrency control and( 并 发 控制 ) ，661-674 
deadlock and ( 4E & ), 665-666, 674-679, 839, 
841, 844-847, 1217-1220, 1243-1246 
distributed database and ( 分 布 式 数据 库 ) , 839-847 
dynamic( 动态 的 ) 1243 
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exclusive ( 排他) , 651, 661-662, 668-669, 672- 
673, 679, 691, 698-702, 706-710, 729-730, 
740-741, 803, 839, 841 

false cycle and( {RIF ) , 846-847 

fine-grained ( 4 ALE) , 756 

granting of ( 授予 ) , 666-667 

growing phase and( 增 长 阶段 ) 667-669 

IBM DB2 and，1217-1220 

implementation of( 实现 ) 670-671 

intention mode and( 意向 模式 ) 680 

logical undo operation and (逻辑 undo 操作 )， 
744-750 

long-duration transaction and( 长 事务 ) 1110-1111 

lower/higher level( 更 低 / 更 高 级 别 ) 745 

Microsoft SQL Server and，1242-1244 ，1246 

multiple granularity and( 多 粒度 ) 679-682 

multiversion scheme and( 多 版 本 机 制 ) 691-692 

PostgreSQL and，1143-1145 

recovery system and( 恢复 系统 ) , 744-750 

request operation and (请求 操 作 ) , 662-671, 675- 
680, 709 

shared( 共享 的 ) 661, 841 

shrinking phase and( 收缩 阶段 ) 667-669 

starvation and( RZE) , 679 

timestamp and( 时 间 惟 ) , 682-686 

transaction server and( 事务 服务 器 ) ，773-775 

true matrix value and( 真 矩阵 值 ) 662 

wait-for graph and( 等 待 图 ) 676-678, 845-847 

log disk( 日 志 磁 盘 ) 438-439 

logical clock ( 逻辑 时 钟 ) 843 

logical counter ( 逻辑 计数 器 ) ，682 

logical-design phase ( £ $ i it Hr), 16, 
260-261 

logical error ( 逻辑 错误 ) , 721 

logical logging ( i248 A#), 745-746, 1115 

logical operation ( 逻辑 运算 ) 

consistency and( 一 致 性 ) 746 

early lock release and( 锁 的 提前 释放 )，744-750 

rollback and( 回 深 ) ，746-749 

undo log record( undo 日 志 记 录 ) , 745-750 

logical row-id ( 384877 id), 1164-1165 
logical undo operation ( 逻辑 undo 操作 ) , 745-750 
log record( 日 志 记录 ) 

ARIES and, 750-756 

buffering and( 4 7#) , 738-739 

Compensation Log Record (CLR) and( 补偿 日 志 记 
$), 751-752, 754 
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identifier and( 标识 ) ，727 

old/new value and( 旧 / 新 值 ) ，727-728 

physical ( 物理 的 ) 745 

recovery system and (恢复 系统 )，726-728， 
730-734 

redo and( 重 做 ) , 729-734 

steal/no-steal policy and( 抢 占 / 非 抢占 策略 ) ，740 

undo( 撤销 ) ，729-734 ，745-746 

Write-Ahead Logging (WAL) rule and( 先 写 日 志 规 


则 ) ，739-741 
Log Sequence Number ( LSN) (日 志 序列 号 ) 750- 
755 


log writer process( 写 日 志 进 程 ) 773-774 
long-duration transaction( 长 事务 ) 
compensation transaction and (补偿 事务 )， 
1113-1114 
concurrency control and( 并 发 控制 ) ，1111-1112 
graph-based protocol and( 基于 图 的 协议 ) ，1110 
implementation issue( 实现 问题 ) ，1114-1115 
multilevel( 多 级 别 ) 1111-1112 
nesting and( Æ), 1111-1112 
nonserializable execution and( 不 可 串 行 化 的 执行 ) ， 
1110-1111 
operation logging and( 操作 日 志 ) 1115 
performance and( 性 能 ) ，1110 
recoverability and( 可 恢复 性 ) 1110 
subtask and( 子 任务 ) ，1109 
timestamp and( 时 间 惟 ) ，1110 
two-phase locking and( 两 阶段 封锁 ) 1110 
uncommitted data and( 未 提交 数据 ) 1109 
lookup( 查找 ) 600, 1086 
concurrency control and( 并 发 控制 ) 700, 704-708 
distributed database and (分 布 式 数 据 库 )，865， 
867, 870 
fuzzy( 模糊 ) , 890, 1266 
index and(#&4|), 482, 485-500, 505-513, 516- 
518, 522, 524 
Microsoft SQL Server and, 1238, 1241, 1266 
PostgreSQL and, 1148 
query processing and( 查询 处 理 ) , 544, 552-553 
lossless-join decomposition (无 损 连 接 分 解 )， 
345-346 
lossy decomposition( 有 损 分 解 ) ，345-346 
lost update( 丢失 修改 ) ，692 


machine learning( 机 器 学 习 ) ，25-26 
magnetic disk( 磁盘 ) ，430 


block and( 块 ) 436-439 
buffering and( 缓冲 ) ，437-438 
checksum and( 校 验 和 ) ，434 
crash and( Ayer) , 434 
data-transfer rate and( 数据 传输 率 ) , 435-436 
disk controller and( 磁盘 控制 器 ) , 434 
failure classification and( 故障 分 类 ) ，722 
hybrid( 混合 ) ，440-441 
log disk and( 日 志 磁 盘 ) 438-439 
mean time to failure and( 平 均 故 障 时 间 ) ，436 
optimization of disk-block access and( 磁盘 块 访 问 优 
化 ) 436-439 
parallel system and( 并 行 系统 ) 781-782 
performance measure of ( 性 能 度量 ) 435-436 
physical characteristic of ( 物理 特征 ) 432-435 
read-ahead and( 预 读 ) 437 
read-write head and( 读 - 写 磁头 ) 432-435 
recording density and( 记录 密度 ) 433-434 
Redundant Array of Independent Disk ( RAID) and 
(独立 磁盘 见 余 阵列 ) 441-449 
scheduling and( 调度 ) 437 
scrubbing and (擦洗) ，448 
sector and( A X), 432-434 
seek-time and ( 寻 道 时 间 ) , 435-436 
size of( 大 小 ) 433 
main-memory database system ( 主 存 数据 库 系 
统 ) 724n1 
majority protocol( 多 数 协议 ) , 840-841, 848-849 
man-in-the-middle attack( 中 间 人 攻击 ) ，406 
many server，many-router model( 多 服务 器 多 路 由 
器 模型 ) ，1094 
many-server, single-router model( 多 服务 器 单 路 由 
器 模型 ) ，1093 
many-to-many mapping ( 多 对 多 了 映射 )，270， 
276-277 
many-to-one mapping( 多 对 一 映射 ) , 270, 276 
mapping cardinality ( 映射 基数 )，269-270， 
276-277 
markup language (标记 语言 ) . 参见 
specific language 
file processing and( 文件 处 理 ) , 981-982 
structure of ( 结构 ) , 981-990 
tag and( 标签 ) 982-985 
transaction and( 事务 ) , 983-985 
master-slave replication( 主 - 从 复制 ) , 843-844 
master table( 主 表 ) ，1032-1033 
materialization ( 物化 ) ，567-568 


Materialized Query Table ( MQT) (物化 查询 表 )， 
1212-1214, 1221 
materialized view ( 物化 视图 ) , 123-124, 607 
aggregation and( 聚集 ) 610-611 
IBM DB2 and, 1212-1214 
index selection and( 索引 选择 ) , 612 
join operation and( 连接 运算 ) 609 
maintenance and( 维护 ) ，608-611 
Oracle and，1171-1172，1174，1188 
performance tuning and( 性 能 调整 ) ，1039-1040 
projection and( 投影 ) 609-610 
query optimization and( 查询 优化 ) ，611-612 
replication and( 复制 ) 1251-1253 
selection and( 选 择 ) 609-610 
max( max 函数 ) 84, 86, 96, 236, 566-567 
Mean Time To Failure ( MTTF ) (平均 故障 时 
间 ) , 436 
Media Access Control 
$), 1129 
mediator( 中 间 件 ) , 859-860, 1018-1019 
memory( A#). 参见 storage 
buffer and( 缓冲 区 ) 1184 (参见 buffer) 
bulk loading of index and( 索引 批量 加 载 ) 503-504 
cache( 高 速 缓存 ) 429, 817-818 (参见 caching) 
data access and( 数据 访问 ) ，724-726 
flash( 闪存 ) 403, 430, 439-441, 506 
force output and ( 强制 输出 ) 725-726 
magnetic-disk( 磁盘 ) , 430, 432-439 
main( 主要 ) 429-430 
main-memory database and ( 主 存 数据 JÆ), 
1105-1108 
Microsoft SQL Server and, 1246-1247 
multitasking and( 多 任务 调度 ) ，1092-1095 
. NET Common Language Runtime (CLR) and(. NET 
公共 语言 运行 库 ) 1255-1256 
nonvolatile random-access ( 非 易 失 性 随机 存 
W), 438 
optical ( 光盘 ) , 430 
Oracle structure and( Oracle #4) , 1183-1184 
overflow and( ¥ i), 560 
persistent programming language and ( 持久 化 程序 设 
计 语 言 ) 964-972 
query cost and( 查询 代价 ) , 544 
recovery system and( 恢复 系统 )，724-726 (参见 
Recovery system ) 
redo log buffer and( redo 日 志 缓 冲 区 ) 1184 
shared pool( 共享 池 ) ，1184 
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merge-join( 归并 连接 ) ，553 
merge-purge operation ( 合并 -清除 操作 ) ，890-891 
merging( 归并 ) 
complex( 复杂 的 ) ，1173-1174 
duplicate elimination and( 消除 重复 ) 563-564 
Oracle and，1173-1174 
parallel external sort-merge and( 并 行 外 排序 -归并 ) ， 
806 
performance tuning and( 性 能 调整 ) ，1033 
query processing and (查询 处 理 ) , 547-549, 553- 
555i, 557 
mesh system( 网 格 系统 ) , 780-781 
message delivery process( 消息 传递 处 理 ) 838 
metadata ( 元 数据 ) ，12，164-166 
Microsoft ( 微软 ) 3, 31, 141 
advanced SQL and( 高 级 SQL), 160n3, 169, 173, 
180, 184, 197, 205 
application design and( 应 用 程序 设计 ) 387, 395- 
401 ，406-407 
distributed database and( 分 布 式 数据 库 ) ，863 
parallel database and( 并 行 数 据 库 ) 816 
query optimization and( 查询 优化 ) ，612 
storage and( 存储 ) ，438 
Microsoft Active Server Pages (ASP) ，397 
Microsoft Database Tuning Assistant，1040 
Microsoft Distributed Transaction Coordinator ( MS 
DTC) ，1242 
Microsoft Office, 55, 399, 1016 
Microsoft SQL Server, 1042, 1121 
business intelligence and ( 商务 智能 ) , 1263-1267 
compilation and( 编译 ) , 1236-1237 
compression and( 压缩 ) 1236 
concurrency control and( 并 发 控制 ) 1241-1246 
data access and( 数据 访问 ) ，1248-1250 
database mirroring and( 数据 库 镜 像 ) 1245-1246 
data mining and( AEF SHH) , 1266-1267 
data type and( 数据 类 型 ) , 1229-1230 
design tool and( 设计 工具 ) , 1223-1228 
development of( 开发 ) 1223 
filegroup and( 文 件 组 ) 1233-1234 
indexing and( 索引) ，1231-1236 
lock and( 锁 ) ，1242-1244 
management tool and( 管理 工具 ) 1223-1228 
memory management and( 内 存 管理 ) 1246-1247 
page unit and( 页 单元 ) ，1233-1234 
partition and( 划分 ) 1235 
Query Editor( 查询 编辑 器 ) ，1224-1225 
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query processing and (查询 处 理 )，1223-1231 ， 
1236-1241, 1250-1251 
read-ahead and( 预 读 ) , 1235-1236 
recovery and( 恢复 ) , 1241-1246 
reordering and( 重 排序 ) 1238-1239 
replication and( 复制 ) , 1251-1253 
routine and( 例 程 ) 1231 
security and( 安全 性 ) 1247-1248 
server programming in . NET(. NET 服务 器 编程 ) , 
1253-1258 
snapshot isolation and( 快照 隔离 ) 1242, 1244 
SQL Profiler and, 1225-1227 
SQL Server Broker and (SQL Server 代理 )， 
1261-1263 
SQL Server Management Studio and, 1223-1224, 
1227-1228 
SQL variation and( SQL 变化 ) 1228-1233 
storage and( 存储 ) ，1233-1236 
system architecture( 系统 体系 结构 ) 1246-1248 
table and( 表 ) ，1234 
thread pooling and( 线程 池 ) ，1246 
trigger and( 触发 器 ) 1232-1233 
tuning and( 调整 ) 1224, 1227 
type and( 类 型 ) 1257-1258 
update and( 更 新 ) ，1232-1233 ，1239 
Windows Mobile and，1223 
XML support and(XML 支持 ) ，1258-1261 
Microsoft Transaction Server，1091 
Microsoft Window, 195, 426, 1078 
IBM DB2 and, 1193-1194, 1212 
PostgreSQL and, 1124, 1155 
SQL Server and, 1223-1224, 
1246-1248 
storage and( 存储 ) 438 
min( min 函数 ) 84, 86, 236, 566-567 
minpctused( minpctused 指令 ) , 1203 
minus (minus 操作 ) , 82n7 
mirroring ( 镜像 ) 441-442, 444, 1245-1246 
mobility ( 移动 性 ) 1062, 1086 
broadcast data and( 广播 数据 ) ，1082-1083 
consistency and( 一 致 性 ) 1083-1085 
disconnectivity and( WŒ), 1083-1085 
handoff and( 交接 ) ，1081 
invalidation report and( 失效 报告 ) ，1083 
mobile computer model and (移动 计算 机 模型 , 
1080-1082 
query and( 查 询 ) , 1082 


1228, 1242, 


recoverability and( A] PRE TE), 1083 
routing and( 路由) , 1082 
update and( 更 新 ) 1083-1084 
version-numbering scheme and (版 本 编号 方案 )， 
1083-1084 
wireless communication and( 无 线 通 信 ) ，1080-1082 
Model-View-Control design ( 模型 -视图 -控制 设计 ) ， 
1157-1158 
Most Recently Used (MRU) scheme( 最 近 最 常 使 
用 模式 ) ，467 
most-specific type ( 最 明确 类 型 ) 953 
MPEG ( Moving Picture Experts Group) (移动 图 像 
专家 组 ) ，1077-1078 
multicore processor( 多 核 处 理 器 ) ，817-819 
multidatabase system( 多 数据 库 系 统 ) ，857-861 
multidimensional data( 多 维 数 据 ) ，199 
multimaster replication( 多 主 副 本 ) ，844 
multimedia data( 多 媒体 数据 ) ，1062 
multimedia database ( 多 媒体 数据 库 ) 1076-1079 
multiple granularity ( 多 粒度 ) 
concurrency control and( 并 发 控制 ) ，679-682 
hierarchy definition for( 层次 定义 ) 679 
Intention-eXclusive (IX) mode and (意向 排他 模 
式 ) ，680 
Intention-Shared ( IS) mode and ( & [nj H & $ 
xt) , 680 
locking protocol and( 封锁 协议 ) , 681-682 
Shared and Intention-eXclusive (SIX) mode and( t& 
享 意向 排他 模式 ) , 680 
tree architecture and( 树 体系 结构 ) 679-682 
multiple-key access |( 多 码 访问 ) ，506-509 
multiquery optimization( 多 查询 优化 ) ，614 
multiset relational algebra( 多 重 集 关系 代数 ) 238 
multiset type( 多 重 集合 类 型 ) 956-961 
multisystem application( 多 系统 应 用 ) ，1096 
multitable cluster file organization ( 多 表 聚 簇 文 件 组 
织 ) ，458 ，460-462 
multitasking ( 多 任务 调度 ) 771, 1092-1095 
multithreading ( 多 线程 ) 817-818, 1093 
multivalued attribute (多 值 属性 )，267-268， 
327-329 
multivalued dependency ( 多 值 依赖 ) 355-360 
MultiVersion Concurrency Control (MVCC) ( 多 版 本 
并 发 控制 ) 
DDL command and (数据 定义 语言 命令 )， 
1144-1145 
DML command and (数据 操纵 语言 命 今 )， 


1138-1139 
implementation of( 实现 ) ，1139-1143 
implication of using( 使 用 ……- 的 推理 ) 1143-1144 
index and( 索 引 ) ，1145 
isolation level and( 隔离 性 级 别 ) ，1137-1138 
lock and( 锁 ) 1145 
recovery and( 恢复 ) 1145-1146 
schema for( 模式 ) 689-692 
multiway split( 多 路 分 划 ) ，898 
MySQL, 31, 76, 111, 160n3, 1123, 1155 


Naive Bayesian classifier ( 朴素 贝 叶 斯 分 类 器 )， 
901, 1191, 1266 
naive user( 无 经 验 的 用 户 ) 27-28 
name server( 名 字 服 务 器 ) 829 
NAND flash memory ( NAND 快 闪存 储 器 ) 430, 
440-441 
natural join( 自然 连接 ) 49-50, 87, 113 
condition and( 条件) ，114-115 
full outer( 全 外 ) , 117-120, 233-234, 565-566 
inner( A) , 117-120, 601 
left outer( 左 外 ) , 116-120, 233-235, 565 
on condition and( on 4&f#) , 114-115 
outer( 4h) , 115-120 
SQL query and( SQL 查询 ) , 71-74 
relational algebra and( 关系 代数 ) , 229-232 
right outer( Æ $F), 117-120, 233-234, 565-566 
type and( 类 型 ) 115-120 
nearest-neighbor query (最 近邻 居 查 询 )， 
1070-1071 
negation( 取 反 ) ，595 
nested-loop join( RERE), 1071 
IBM DB2 and, 1209-1210 
Oracle and, 1173 
parallel ( 并 行 ) 807, 810-811 
PostgreSQL and, 1152-1153 
query optimization and (查询 优化 )，600n2， 
602, 604 
query processing and ( # if] Ah FH) , 550-555, 558- 
560, 565, 571, 573 
nested subquery ( kKEF 214 ) 
application development and (应 用 程序 开发 )， 
1031, 1047 
duplicate tuple and( 重 复元 组 , 94-95 
empty relation and( ZX), 93-94 
from clause and( from 子 句 ) 95-96 
optimization of( 优化 ) 605-607 
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scalar( 标量 ) ，97-98 
set operation and( 集合 运算 ) , 90-93 
with clause and( with 子 句 ) 97 
nesting ( RE) 
ARIES and, 755-756 
concurrency control and( 并 发 控制 ) ，679 ，709 
granularity and( 粒度 ) ，679 
IBM DB2 and，1197，1209-1210，1218 
long-duration transaction and( 长 事务 ) ，1112-1113 
object-based database and (基于 对 象 的 数据 库 ) , 
945, 948, 958-961 
Oracle and, 1159, 1164, 1182 
query and ( # J), 601-607, 1004-1007, 1013- 
1014, 1017 
transaction and ( # 4), 1091, 1112-1113, 
1116, 1218 
XML and( 可 扩展 标记 语言 ) 27, 943, 984-998 , 
1001, 1004-1007, 1010 
. NET, 169 
NetBean, 386, 397 
. NET Common Language Runtime (CLR) (. NET 
公共 语言 运行 库 ) 
aggregate and( RÆ), 1257-1258 
basic concept of( 基本 概念 ) 1254 
extensibility contract and( 扩展 性 约定 ) 1256-1258 
Microsoft SQL Server and, 1253-1258 
routine and( j£), 1256-1257 
SQL hosting and( SQL 宿主 ) 1254-1256 
table function and( # PXL) , 1256-1257 
type and( EH) , 1257-1258 
Netezza, 816 
Network ( 网 络 ) 
data model and( 数据 模型 ) 9, 1080-1082 
local area( 局 域 ) 788-789, 1081 
mobility and( 移动 性 ) 1079-1085 
wide-area type and( 广 域 类 型 ) 788, 790-791 
nextval for，1043 
node( 结 点 ). 参见 storage 
B -tree and(B* #}) , 485-506 
coalescing ( XER), 491, 706 
distributed system and( 分 布 式 系统 ) 784 
IBM DB2 and，1200-1201 
mesh architecture and( 网 格 体系 结构 ) 780-781 
multiple granularity and( 多 粒度 ) ，679-682 
nonleaf( 非 叶 ) ，487 
overfitting and( 过 度 适应 ) ，899-900 
splitting of (4728) , 491, 706 
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update and( 更 新 ) 491-500 
XML and( 可 扩展 标记 语言 ) 998 
no-force policy ( 非 强 制 策 略 ) ，739-740 
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index and( 索 引 ) ，1135-1136，1146-1151 

isolation level and (隔离 性 级 别 )，1137- 
1138, 1142 


join and( 连 接 ) 1153 
lock and( 锁 ) , 1143-1145 
major release of ( 主要 发 行 版 本 ) 1123-1124 
MultiVersion Concurrency Control (MVCC) and( 多 
版 本 并 发 控制 ) ，1137-1146 
operator class and( 操作 算 子 类 ) 1150 
operator statement and( 运算 符 语句 ) 1136 
parallel database and( 并 行 数据 库 ) 816-817 
performance tuning and( 性 能 调整 )，1042 
pointer and( 指针 ) 1134, 1147-1148 
procedural language and( 过 程 化 语言 ) ，1136 
query optimization and ( 查询 优化 ) ，582 ，593 
query processing and( 查 询 处 理 ) 1151-1154 
recovery and( 恢复 ) 718 
rollback and( 回 深 ) 1142-1144 
rule and( 规则 ) ，1130-1131 
serializability and( 可 串 行 化 ) 1142-1143 
server programming interface ( 服务 器 编程 接 
口 ) 1136 
sort and( 排序 ) 1153 
SQL basics and (SQL 基础 )，140，160，173 ， 
180，184 
state transition and( 状态 转换 ) 1134 
storage and( 存储) 1146-1151 
system architecture( 系统 体系 结构 ) 1154-1155 
system catalog and( 系统 目录 ) 1132 
transaction management in ( 事务 管理 ) 649, 653, 
1137-1146 
tree and( 树 ) 1148-1149 
trigger and( 触发 器 ) 1153-1154 
trusted/untrusted language and( 可 信 / 不 可 信 语 言 ) ， 
1136 
tuple ID and( 元 组 标识 符 ) ，1147-1148 
tuple visibility and( 元 组 可 见 性 ) 1139 
type( 类 型 ) 1126-1129, 1132-1133 
updateand( 更 新 ) 1130, 1141-1144, 1147-1148 
user interface( 用 户 界 面 ) 1124-1126 
vacuum( vacuum 命令 ) 1143 
precedence graph( 优先 图 ) , 644 
precision ( #7), 903 
predicate read( 谓词 读 ) , 697-701 
prediction ( 预测 ) 
classifier and( 分 类 器 ) , 894-904 
data mining and( 数据 控 掘 ) , 894-904 
join and( 连接 ) 1267 
prepared statement( 预备 语句 ) 162-164 
presentation facility( 表示 设施 ) , 1094-1095 
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presentation layer( 表示 层 ) 391 
prestige ranking( 威望 度 排名 ) , 920-925, 930-931 
primary copy( 主 拷贝 ) 840 
primary key( 主 码 ) 45-46, 60-62 
decomposition and ( 分 解 ) 354-355 
entity-relationship ( E-R) model and (实体 -联系 模 
型 ) 271-272 
functional dependency and( 函数 依赖 ) 330-333 
integrity constraint and( 完整 性 约束 ) 130-131 
primary site( 主 站 点 ) 756 
privacy ( 隐私 ) 402, 410-411, 418, 828, 869- 
870, 1104 
privilege ( 权限 ) 
all( 全 部 ) 143-144 
execute and( 执 行 ) ，147 
granting of ( 授予 ) ，143-145 
public，144 
revoking of( 撤回 ) 143-145, 149-150 
transfer of( 转移 ) ，148-149 
procedural DML( 过 程 性 数据 操纵 语言 ) 10 
procedural language( 过 程 性 语言 ) 20 
advanced SQL and (高 级 SQL )， 
173, 178 
IBM DB2 and, 1194 
Oracle and, 1160, 1191 
PostgreSQL and, 1130, 1133, 1136 
relational model and( 关 系 模型 ) 47-48 
procedure( 过 程 ) 
declaring( 声明 ) 174-175 
external language routine and (外 部 语言 例 程 , 
179-180 
language construct for( 语言 结构 ) 176-179 
syntax and( 语法 ) 173-174, 178 
writing in SQL( 用 SQL 写 ) 173-180 
producer-driven pipeline( 生产 者 驱动 流水 线 ) 569- 
570 
Program Global Area (PGA) ( 程序 全 局 区 ) 1183 
programming language (编程 语言 ) . 参见 
specific language 
accessing SQL from( 访问 SQL) , 157-173 
mismatch and( 不 匹配 ) , 158 
variable operation of ( 变量 操作 ) 158 
projection ( 投影 ) 
intraoperation parallelism and( 操作 内 并 行 ) 811 
Oracle and，1187 
query and( 查询) , 564, 597 
view maintenance and( 视图 维护 ) , 609-610 


157-158, 


785 
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Project-Join Normal Form ( PJNF) (投影 连接 范 
式 ) ，360 

project operation ( 投影 运算 ) 219 

PR quadtree( PR 四 叉 树 ) 1073 

pseudotransitivity rule ( 伪 传 递 律 ) 339 

public-key encryption( 公 钥 加 密 ) ，412-414 

publishing( 发 布 ) 1013, 1251-1253 

pulling data( 下 拉 数 据 ) ，570-571 

purity( 纯度 ) ，897 

Python ( Python 语言 ) 180, 377, 387, 1123, 
1125, 1136 


QBE, 37, 245, 770 
quadratic split( 二 次 方 分 裂 ) 1075-1076 
quadtree( 四 叉 树 ) 1069, 1072-1073 
query ( 查询 )，10 
ADO. NET and, 169 
availability and( 可 用 性 ) ，826-827 
B -tree and(B’* 树 )，488-491 
basic structure of SQL( SQL 基本 结构 )，63-71 
caching and( 高 速 缓存 ) ，400-401 
Cartesian product and( 稍 卡 儿 积 )，50-51，68-69， 
71-75, 120, 209, 217, 222-229, 232, 573, 
584, 589, 595-596, 606, 616 
complex data type and( 复杂 数据 类 型 ) 946-949 
correlated subquery and( 相关 子 查询 ) 93 
Data-Definition Language (DDL) and( 数据 定义 语 
A), 21-22 
Data-Manipulation Language (DML) and( 数 据 操 纵 
语言 ) 21-22 
decision-support( 决策 支持 ) ，797 
delete and( 删 除 ) 98-100 
distributed database and (分布 式 数据 库 ) 825-878 
(参见 distributed database ) 
hashing and ( #7) ), 475, 516-522 (参见 hash 
function ) 
index and(#5|), 475 (参见 indices) 
information retrieval and( 信息 检索 ) 915-938 
insert and( 4A), 100-101 
intermediate SQL and( 中 级 SQL) , 113-151 
JDBC and( Java 数据 库 连 接 ) 158-166 
location-dependent( 位 置 相 关 ) ，1080 
metadata and( 元 数据 ) ，164-166 
multiple-key access and( 多 码 访问 ) ，506-509 
on multiple relation( 多 关系 ) ，66-71 
natural join and( 自然 连接 ) 71-74, 87, 113-120 
(参见 join) 


nearest-neighbor( 最 近邻 居 ) ，1070-1071 

nested subquery ( #22 F # if]) 90-98 

null values and( 空 值 ) 83-84 

object-based database and ( 基于 对 象 的 数据 库 )， 
945-975 

ODBC and( 开 放 数据 库 互联 ) , 166-169 

OLAP and( 联机 分 析 处 理 ) ，197-209 

Oracle and，1171-1172 

PageRank and，922-923 

parallel database and( 并 行 数 据 库 ) ，797-820 

persistent programming language and( 持久 化 程序 设 
计 语 言 ) ，964-972 


point( 点 ) ，799 
programming language access and( 编程 语言 访问 ) ， 
157-173 


range ( 范围 ) 799 
read only( Rix), 804 
recursive ( 递归 ) , 187-192 
result diversity and( 结果 多 样 性 ) 932 
ResultSet object and (结果 集 对 象 ) 159, 161, 
164-166, 393, 397-398, 490 
retrieving result ( 检索 结果 ) , 161-162 
scalar subquery and( 标量 子 查询 ) , 97-98 
security and( 安全 性 ) ，402-417 
servlet and( Java 服务 器 端 程序 ) 383-391 
set operation and( 集合 运算 ) 79-83, 90-93 
on single relation( 单 关系 ) 63-66 
spatial data and( 空间 数据 ) ，1070-1071 
string operation and( 字符 串 运 算 , 76-79 
transaction server and( 事务 服务 器 ) ，775 
universal Turing machine and( 通 用 图 灵机 ) ，14 
user requirement and( 用 户 需 求 ) 311-312 
view and( 视图 ) ，120-128 
XML and( 可 扩展 标记 语言 ) ，998-1008 
query cost( 查询 代价 ) 
Microsoft SQL Server and，1237-1239 
optimization and( 优化 ) , 580-581, 590-602 
processing and ( 处 理 ) , 540-541, 544, 548, 555- 
557, 561 
query evaluation engine ( 查询 计算 引擎 ) 22 
query-evaluation plan( 查询 计算 计划 ) , 537-539 
choice of ( 选择 ) , 598-607 
expression and( 表达 式 ) 567-572 
materialization and( 物化 ) , 567-568 
optimization and( 优化 ) , 579-616 
pipelining and( 流水线 ) , 568-572 
response time and( 啊 应 时 间 ) , 541 


set operation and( 集合 运算 ) 564 
viewing( 视图 ) 582 
query-execution engine ( 查询 执行 引擎 ) 539 
query-execution plan( 查询 执行 计划 ) ，539 
query language (查询 语言 )，249. 参见 
specific language 
accessing from a programming language ( 通过 编程 语 
言 访问 ) ，157-173 
centralized system and( 集中 式 系统 ) 770-771 
domain relational calculus and ( 域 关 系 演 算 )， 
245-248 
expressive power of language ( 语言 表达 能 力 ) , 244, 
248 
formal relational ( 形式 化 关系 ) , 217-248 
nonprocedural ( 非 过 程 化 ) , 239-244 
procedural( 过 程 化 ) ，217-239 
relational algebra and( 关系 代数 ) ，217-239 
relational model and( 关系 模型 ) 47-48, 50 
temporal ( 时 态 的 ) 1064 
tuple relational calculus and (元 组 关系 演算 )， 
239-244 
query optimization ( 查询 优化 )，22，537，539， 
552-553, 562, 616 
access path selection and ( ij [a] BR 7% ve FE), 
1174-1176 
aggregation and( 聚集 ) 597 
cost analysis and( 代价 分 析 ) , 580-581, 590-602 
distributed database and( 分 布 式 数据 库 ) , 854-855 
equivalence and( 等 价 ) ，582-588 
estimating statistics of expression result( 表达 式 结果 
集 统计 大 小 的 估计 ) , 590-598 
heuristics in( 启发 式 ) ，602-605 
IBM DB2 and，1211-1212 
join minimization( 连接 最 小 化 ) ，613 
materialized view and( 物化 视图 ) ，607-612 
Microsoft SQL Server and, 1236-1241 
multiquery ( 多 查询 ) , 614 
nested subquery and( i #- #F ify) , 605-607 
Oracle and, 1173-1178 
parallel database and( 并 行 数 据 库 ) 814-817 
parametric( 参数 化 ) ，615 
parallel execution and( 并 行 执行 ) 1178-1179 
partial search and( 部 分 搜索 ) ，1240 
partition and( 划分 ) 1174-1176 
plan choice for( 计划 选择 ) , 598-607 
PostgreSQL and, 1151-1154 
process structure and ( 进程 结构 ) , 1179 
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relational algebra and ( 关系 代数 )，579-590 

result caching and ( 结果 高 速 缓 存 ) 1179-1180 

set operation and( 集合 运算 , 597 

shared scan and( HFHH), 614 

simplification and( 简化 ) , 1237-1238 

SQL Plan Management and (SQL 计划 管理 )， 
1177-1178 

SQL Tuning Advisor and (SQL 调 优 顾问 )， 
1176-1177 

top-K, 613 

transformation and( 转换 ) , 582-590, 1173-1174 

update and( 更 新 ) , 613-614 


query processing ( 查询 处 理 ) , 21-22, 30, 32 


aggregation( 聚集 ) 566-567 

basic step of ( 基本 步骤 ) 537 

binding and( 绑 定 ) , 1236-1237 

comparison and( 比较 ) 544-545 

compilation and( 编译 ) ，1236-1237 

cost analysis of( 代价 分 析 ) ，540-541，544，548 ， 
555-557, 561 

CPU speed and( CPU 速度 ) 540 

distributed database and (分 布 式 数据 库 )，854- 
857, 859-860 

distributed heterogeneous ( 分 布 式 异 构 ) , 1250-1251 

duplicate elimination and( 去 重 ) 563-564 

evaluation of expression( 表达 式 计算 ) , 567-572 

executor module and( 执行 器 模块 ) 1152-1153 

file scan and (文件 扫描 )，5$41-$44，550， 
$52, 570 

hashing and( #91] ) , 557-562 

IBM DB2 and, 1207-1216 

identifier and( 标识) , 546 

information retrieval and( 信息 检索 ) , 915-937 

join operation and ( 连接 运算 ) 549-566 

LINQ and, 1249 

materialization and( 物化 ) , 567-568, 1212-1214 

Microsoft SQL Server and, 1223-1231, 1236-1241, 


1250-1251 


mobile( 移动 ) 1082 

operation evaluation and( 操作 计算 ) , 538-539 
Oracle and, 1157-1158, 1172-1180 

parsing and( 解析 ) , 537-539, 572-573, 1236-1237 
pipelining and( 流水 线 ) , 568-572 

PostgreSQL and, 1151-1154 

projection and( 投影 ) 563-564 

recursive partitioning and( 递 归 划 分 ) 539-540 
relational algebra and( 关系 代数 ) 537-539 
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reordering and( 重 排序 ) 1238-1239 

selection operation and( 选择 运算 ) ，541-546 

set operation and( 集合 运算 ) 564-565 

sorting and( 排序 ) 546-549 

SQL and ( 结构 化 查询 语言 ) 537-538 

standard planner and( 标准 规划 器 ) ，1152 

syntax and( 语 法) 537 

transformation and( 转换 ) , 854-855 

trigger and( 触发 器 ) ，1153-1154 

XML and( 可 扩展 标记 语言 ) 1259-1260 
question answering( 问答 ) ，933-934 
queueing system ( 排队 系统 ) 1034-1035 
quorum consensus protocol ( 法 定 人 数 同 意 协议 ) ， 

841-842 


random access( 随机 访问 ) 437 
random sample( 随机 例子 ) ，593 
random walk model( 随机 游 走 模型 ) ，922 
range-partitioning sort( 范围 划分 排序 ) ，805 
range-partitioning vector( 范围 划分 向 量 ) 801 
range query( 范围 查询 ) ，799 
ranking (分级) ，192-195 
Rapid Application Development ( RAD) ( 快速 应 用 
开发 ) 
function library and( KJE), 396 
report generator and ( 报表 生成 器 ) , 399-400 
user interface building tool and ( 用户 界面 构建 工 
FL) , 396-398 
Web application framework and ( Web 应 用 构架 )， 
398-399 
raster data( 光栅 数据 ) , 1069 
Rational Rose, 1194 
read-ahead( 预 读 ) , 437 
read committed ( 读 提 交 ) 
application development and( 应 用 程序 开发 ) ，1042 
Microsoft SQL Server and, 1242 
Oracle and, 1181 
PostgreSQL and, 1138, 1141-1142 
transaction management and ( ¥ 4 @ FH), 649, 
658, 685, 701-702 
read one, write all available protocol ( 读 一 个 、 写 
所 有 可 用 协议 ) 849-850 
read one, write all protocol ( 读 一 个 、 写 所 有 协 
议 ) ，849 
read only query( 只 读 查 询 ) ，804 
read quorum ( 读 法 定 人 数 ) 841-842 
read uncommitted ( 读 未 提交 ) ，648 


read-write contention ( 读 写 竞争 ) 1041-1042 
read/write operations ( 读 / 写 操作 ) , 653-654 
real, double precision ( 浮 点 数 与 双 精 度 浮 点 
数 ) 59 
real-time transaction system (实时 事务 系统 )， 
1108-1109 
recall( 查 全 率 ) ，903 
recovery interval( 恢复 间隔 ) ，1244-1245 
recovery manager ( 恢复 管理 器 ) 22-23 
recovery system ( 恢复 系统 )，186，631，760- 
761, 1083 
action after crash( Aya aE) , 736-738 
algorithm for( 算法 ) 735-738 
ARIES, 750-756 
atomicity and( 原子 性 ) , 726-735 
buffer management and ( 缓冲 区 管理 ) 738-743 
checkpoint and( 检查 点 ) ，734-735 742-743 
concurrency control and( 并 发 控制 ) 729-730 
data access and( 数据 访问 ) ，724-726 
database mirroring and( 数据 库 镜像 ) ，1245-1246 
database modification and( 数据 库 修 改 ) ，728-729 
disk failure and( 磁盘 故障 ) , 722 
distributed database and( 分 布 式 数据 库 ) 835-836 
early lock release and( 早期 锁 释 放 ) , 744-750 
fail-stop assumption and( 故障 停止 假设 ) ，722 
failure and( 故障 ) , 721-723, 743-744 
force/no-force policy and ( 强制 / 非 强 制 策略 ) 739- 
740 
IBM DB2 and, 1200-1203, 1217-1218 
logical undo operation and (逻辑 undo 操作 )， 
744-750 


log record and ( H i id X), 726-728, 730-734, 
738-739 

Log Sequence Number (LSN) and (日 志 序 列 
&), 750 

long-duration transaction and( 长 事务 ) 1110 


Microsoft SQL Server and, 1241-1246 

Oracle and, 1180-1183 

partition and( 划分 ) 1169-1172 

PostgreSQL and，1145-1146 

redo and( 重 做 ) ，729-738 

remote backup ( 远程 备份 ) 723, 756-759, 850, 
1095-1096 

rollback and( 回 滚 ) , 729-734, 736 

shadow-copy scheme and( 影子 拷贝 模式 ) 727 

snapshot isolation and( 快照 隔离 ) ，729-730 

steal/no-steal policy and( 抢 占 / 非 抢占 策略 ) ，740 


storage and( 存储 ) , 722-726, 734-735, 743-744 
successful completion and( 成 功 完成 )，723 
undo and( 撤销 ) ，729-738 
workflow and( 工 作 流 )，1101 
write-ahead logging (WAL) rule and( 先 写 日 志 规 
MW) ，739-741，1145-1146 
recovery time( 恢复 时 间 ) ，758 
recursive partitioning ( 递归 划分 ) , 539-540 
recursive query ( 递归 查询 ) , 187 
iteration and( 7&f*) , 188-190 
SQL and( 结构 化 查询 语言 ) 190-192 
transitive closure and( 传递 闭 包 ) 188-190 
recursive relationship set( 递归 联系 集 ) ，265 
redo( 重 做 ) 
actions after crash( 表 溃 后 动作 ) 736-738 
pass (ji) ，754 
phase( 阶段 ) 736-738 
recovery system and( 恢复 系统 ) 729-738 
redundancy ( TR), 4, 261-262, 272-274 
redundant array of independent disk (RAID) ( 独立 
磁盘 郊 余 阵列 ) 435, 759, 1147 
bit-level striping( 比特 级 拆 分 ) ，442-444 
Error-Correcting-Code (ECC) organization and( 纠 错 
码 组 织 ) 444-445 
hardware issue( 硬件 问题 ) ，448-449 
hot swapping and( 热 交 换 ) 449 
levels( 级 别 ) ，444-448 
mirroring and( 镜像 ) 441-442, 444 
parallelism and( 并 行 ) ，442-444 
parity bit and( 奇偶 校 验 位 ) ，444-446 
performance reliability and( 性 能 可 靠 性 ) 442-444 
performance tuning and( 性 能 调整 ) ，1037-1038 
recovery system and( 恢复 系统 ) 723 
reliability improvement and( 提高 可 靠 性 ) ，441-442 
scrubbing and( 擦洗 ) ，448 
software RAID and( 软件 独立 磁盘 元 余 阵列 ) 448 
striping data and( 拆 分 数据 ) , 442-444 
reference ( 参照 ) 131-133, 148 
referencing new row as ( referencing new row as 子 
句 ) 181-182 
referencing new table as ( referencing new table as 
子 句 ) ，183 
referencing old row as ( referencing old row as 子 
句 ) 182 
referencing old table as ( referencing old table as 子 
句 ) 183 
referencing relation( 参照 关系 ) 46 
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referential integrity ( 参照 完整 性 ) 11, 46-47, 
131-136, 151, 181-182, 628 
referral( 引用 ) 875 
reflexivity rule( 自 反 律 ) ，339 
region quadtree( 区 域 四 叉 树 ) 1073 
regression( 回归 ) ，902-903 ，1048-1049 
relational algebra (关系 代数 )，51-52，248- 
249, 427 
aggregate function( 聚集 函数 ) , 235-239 
assignment ( 赋值 ) 232 
avg( 求 平均 ) ，236 
Cartesian-product( 笛 卡 儿 积 ) 222-226 
composition of relational operation and ( 关系 运算 的 
组 合 ) ，219-220 
count-distinct( count-dintinct 运算 ) ，236 
equivalence and( 等 价 ) , 582-588, 601-602 
expression transformation and (表达 式 转 换 )， 
582-590 
expressive power of language( 语言 表达 能 力 ) , 244 
formal definition of( 形式 化 定义 ) 228 
fundamental operation( 基本 运算 ) 217-228 
generalized-projection( 广义 投影 ) 235 
join expression( 连接 表达 式 ) ，239 
max( 最 大 值 函 数 ) 236 
min( 最 小 值 函 数 ) 236 
multiset( 多 重 集 ) 238 
natural-join( 自然 连接 ) ，229-232 
outer-join( 外 连接 ) ，232-235 
project operation( 投影 运算 ) 219 
query optimization and( 查询 优化 ) , 579-590 
query processing and( 查询 处 理 ) ，537-539 
rename( 更 名 ) ，226-228 
select operation ( 选择 运算 ) ，217-219 
semijoin strategy and ( 半 连 接 策 略 ) 856-857 
set-difference( 集合 差 ) ，221-222 
set-intersection( 集合 交 ) ，229 
SQL and( 结构 化 查询 语言 ) 219, 239 
sum( 求 和 ) , 235-236 
union operation( 并 运算 ) ，220-221 
relational database design( 关系 数据 库 设 计 ) 368 
atomic domain and( 原子 域 ) 327-329 
attribute naming( 属性 命名 ) 362-363 
decomposition and( 分 解 ) ，329-338 ，348-360 
design process and( 设计 过 程 ) 361-364 
feature of good( 良好 特性 ) 323-327 
first normal form and( 第 一 范式 ) 327-329 
fourth normal form and( 第 四 范式 ) 356, 358-360 
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functional dependency and ( 函数 依赖 ) 329-348 

larger schema and( 更 大 模式 ) 324-325 

multivalued dependency and( 多 值 依赖 ) 355-360 

normalization and( 规范 化 ) 361-362 

relationship naming( 关系 命名 ) ，362-363 

second normal form and( 第 二 范式 ) 336n5, 361 

smaller schema and( 更 小 模式 ) 325-327 

temporal data modeling and (时 态 数 据 建 模 )， 
364-367 

third normal form and( 第 三 范式 ) ，336-337 

relational database ( 关系 数据 库 ) 

access from application program and( 通 过 应 用 程序 
访问 ) ，14-15 

Data-Definition Language and( 数据 定义 语言 )，14 

Data-Manipulation Language (DML) and( 数据 操纵 
语言 ) ，13-14 

storage and( 存 储 ) ，1010-1014 

table and( 表 ) 12-13 

relational model( 关系 模型 ) ，9 

disadvantage of ( 缺点 ) 30 

domain and( 域 ) 42 

key and( 码 ) 45-46 

natural join and( 自然 连接 ) , 49-50 

operation and( 运算 ) 48-52 

query language and( 查 询 语言 ) 47-48, 50 

referencing relation and( 参照 关系 ) 46 

schema for( #3) , 42-47, 302-304, 1012 

structure of ( 结构 ) 39-42 

table for( Æ) , 39-44, 49-51, 202-205 

tuple and( 元 组 ) 40-42, 49-50 

relation instance( KARP), 42-45, 264 

relationship set ( 联系 集 ) 

alternative notation for( 替代 记号 ) 304-310 

atomic domain and( 原子 域 ) 327-329 

attribute placement and( 属性 布局 ) ，294-295 

binary vs，n-ary( 二 元 与 了 元 ) 292-294 

descriptive attribute( 描述 性 属性 ) ，267 

design issue and( 设计 问题 ) 291-295 

entity-relationship diagram and (实体 联系 图 )， 
278-279 

entity-relationship ( E-R) model and (实体 -联系 模 
型 ) 264-267, 286-290, 296-297 

entity set and( 实体 集 ) , 291-292 

naming of ( 命名 ) , 362-363 

nonbinary( 非 二 元 的 ) , 278-279 

recursive( 递归 ) ，265 

redundancy and( JCA), 288 
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schema combination and( 模式 组 合 ) ，288-290 
superclass-subclass( 超 类 - 子 类 ) ，296-297 
Unified Modeling Language (UML) and( 统一 建 模 语 
A), 308-310 
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称 ) 872 
relevance ( 相关 性 ) 
adjacency test and( 相 邻 测试 ) ，922-923 
hub and( 链接 中 心 ) 924 
PageRank and, 922-923, 925 
popularity ranking and( 流行 度 排 名 ) , 920-922 
ranking using TF-IDF (使 用 TF-IDF 排名 )，917- 
920, 925 
search engine spamming and ( #8 # 5| %& VE We), 
924-925 
similarity-based retrieval and ( 基于 相似 性 的 检索 ) ， 
919-920 
TF-IDF approach and ( TF-IDF 方法 )，917-925 ， 
928-929 
using hyperlink and( 使 用 超 链接 ) ，3421 
Web crawler and( 网 络 疏 虫 ) 930-931 
relevance feedback( 相关 反馈 ) 919-920 
remote backup system ( 远程 备份 系统 )，723， 
756-759, 850, 1095-1096 
Remote-Procedure-Call (RPC) mechanism ( 远程 
过 程 调用 机 制 ) 1096 
rename operation ( 更 名 运算 ) 75-76, 226-228 
repeat( 重复 ) 176 
repeatable read( 可 重复 读 ) ，649 
repeat loop( 重复 循环 ) 188, 341, 343, 490 
replication ( 复制 ) 
cloud computing and( 云 计算 ) 866-868 
distributed database and( 分 布 式 数据 库 ) 843-844 
Microsoft SQL Server and, 1251-1253 
system architecture and (系统 体系 结构 )，785， 
826, 829 
report generator ( 报表 生成 器 ) , 399-400 
Representation State Transfer (REST) ( 表示 状态 
转移 ) 395 
request forgery ( 请 求 伪造 ) 403-405 
request operation ( 请 求 操作 ) 
deadlock handling and( 死 锁 处 理 ) 675-679 
lock and( ##i) , 662-671, 675-680, 709 
lookup and( #¢ 4%) , 706 
multiple granularity and( 多 粒度 ) , 679-680 
multiversion scheme and( 多 版 本 机 制 ) 691 
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timestamp and( 时 间 惟 ) , 682 
resource manager( 资源 管理 器 ) 1095 
response time ( 响应 时 间 ) 
application design and (应 用 程序 设计 )，400， 
1037，1046 
concurrency control and( 并 发 控制 ) ，688 
E-R model and(E-R 模型 ) 311 
Microsoft SQL Server and, 1261 
Oracle and, 1176-1177, 1190 
query evaluation plan and( 查 询 计算 计划 ) , 541 
query processing and( 查 询 处 理 ) ，541 
storage and( 存 储 ) 444, 1106, 1109-1110 
transaction and( 事务 ) ，636 
system architecture and (系统 体系 结构 )，778， 
798, 800, 802 
restriction ( 约束 ) , 149-150, 347 
ResultSet object ( 结果 集 对 象 ) 159, 161, 164- 
166, 393, 397-398, 490 
revoke ( 撤回 ) 145, 149 
right outer join ( Æ Sb £ #), 117-120, 233-235, 
565-566 
Rijndael algorithm ( Rijndael 算法 ) , 412-413 
robustness ( 健壮 性 ) , 847 
role( 角色 ) , 264-265 
authorization and( 授权 ) , 145-146 
entity-relationship diagram( 实体 联系 图 ) 278 
Unified Modeling Language (UML) and( 统 一 建 模 
语言 ) 308-310 
rollback( 回 滚 ) 173 
ARIES and, 754-755 
cascading ( 级 联 ) , 667 
concurrency control and ( Ff & 4 fill), 667, 670, 
674-679, 685, 689, 691, 709 
IBM DB2 and, 1218 
logical operation and( 逻辑 运算 ) , 746-749 
PostgreSQL and, 1142-1144 
recovery system and( WERA), 729-734, 736 
remote backup system and (远程 备份 系统 )， 
758-759 
transaction and( 事 务 ) 736 
timestamp and( 时 间 惟 ) , 685-686 
undo and, 729-734 
rollback work( rollback work 语句 ) , 127 
rollup( 上 卷 ) 201, 206-210, 1221-1222 
RosettaNet, 1055 
row trigger ( 行 触发 器 ) , 1161-1162 
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Ruby on Rails, 387, 399 
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SAS ( Serial attached SCSI ) 
SCSI) , 434 
Sarbanes-Oxley Act( Sarbanes-Oxley 法 案 ) , 1248 
SATA (serial ATA) ( 47 ATA), 434, 436 
savepoint( 保存 点 ) 756 
scalar subquery ( 标量 子 查询 ) 97-98 
scaleup( 扩展 比 ) ，778-780 
scheduling ( 调度 ) 
Microsoft SQL Server and, 1254-1255 
PostgreSQL and, 1127 
query optimization and( 查询 优化 ) 814-815 
storage and( 存储 ) ，437 
transaction and( 事务 ) 641, 1099-1100, 1108 
schema definition ( 模式 定义 ) ，28 
schema diagram( 模式 图 ) ，46-47 
schema( 模式 ) 8 
alternative notation for modeling data( 数据 建 模 的 替 
代 记 号 ) ，304-310 
authorization on( 授权 ) ，147-148 
basic SQL query structure and (基本 SQL 查询 结 
构 ) , 63-74 
canonical cover and( 正则 覆盖 ) 342-345 
catalog and( A 3%), 142-143 
combination of( 结合 ) , 288-290 
concurrency control and ( 并 发 控制 ) , 
风 concurrency control ) 
Data-Definition Language (DDL) and( 数 据 定 义 语 
言 ) 58, 60-63 
data mining( 数据 挖掘 ) 893-910 
data warehouse( 数据 仓库 ) ，889-893 
entity-relationship (E-R) model and (实体 -联系 模 
型 ) 262-313 
functional dependency and( 本 数 依 顿 ) 329-348 
generalization and( 概 化 ) , 297-304 
larger( 更 大 ) , 324-325 
locks and( 锁 ) , 661-686 
performance tuning of ( 性 能 调整 ) 1038-1039 
physical-organization modification and ( 物理 组 织 修 
改 ) 28 
recovery system and( 恢复 系统 ) , 721-761 
reduction to relational ( 转换 为 关系 模式 ) 283-290 
redundancy of( 元 余 ) 288 
relational algebra and( 关系 代数 ) ，217-239 
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relational database design and (关系 数据 库 设 计 ) ， 
323-368 
relational model and( 关系 模型 ) 42-47 
relationship set and( 联系 集 ) 286-288 
shadow-copy( 影子 拷贝 ) 727 
smaller( 更 小 ) 325-327 
strong entity set and( 强 实体 集 ) 283-285 
timestamp and( fh} |a]#k) , 682-686 
tuple relational calculus( 元 组 关系 演算 ) 239-244 
version-numbering( 版 本 编号 ) 1083-1084 
weak entity set( 弱 实 体 集 ) and, 285-286 
XML document( 可 扩展 标记 语言 文档 ) 990-998 
scripting language ( 脚本 语言 ) 389 
scrubbing ( 擦洗 ) ，448 
search engine spamming (搜索 引擎 作弊)， 
924-925 
search key ( 搜索 码 ) 
hashing and( 散 列 ) , 509-519, 524 
indexing and( 5|), 476-509, 524, 529 
nonunique( 不 唯一 ) , 497-499 
storage and( 存储 ) , 457-459 
uniquifier and( 唯一 化 ) , 498-499 
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second normal form( 第 二 范式 ) 361 
Secure Electronic Transaction ( SET) protocol ( 安 
全 电子 交易 协议 ) ，1105 
security( 安全 性 ) 5, 147 
abstraction and( 抽象 ) 6-8, 10 
application design and( 应 用 程序 设计 ) ，402-417 
audit trail and( 审计 追踪 ) ，409-410 
authentication and( 鉴定 ) 405-407 
authorization and( 授权 ) 11, 21, 407-409 
concurrency control and ( 并 发 控制 ) , 661-710 (& 
见 concurrency control ) 
cross site scripting and ( 路 站 脚本 ) , 403-405 
dictionary attack and( 字 典 攻击 ) 414 
encryption and( 加 密 ) ，411-417，1165-1166 
end-user information and( 最 终 用 户 信息 ) ，407-408 
GET method and( GET 方法 ) 405 
integrity manager and ( 完整 性 管理 器 ) 21 
isolation and( 隔离 性 ) 628, 635-640, 646-653 
key and( 码 ) 45-46 
lock and( $i) 661-686 (参见 lock) 
long-duration transaction and( 长 事务 ) 1109-1115 
man-in-the-middle attack and( 中 间 人 攻击 ) ，406 
Microsoft SQL Server and, 1247-1248 
observable external write and( 可 见 的 外 部 写 ) 634- 
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871 
person-in-the-middle 
ii), 1105 
physical data independence and (物理 数据 独立 
性 ) 6 
privacy and (隐私 )，402，410- 411，418 ，828， 
869-870, 1104 
remote backup system and (远程 备份 系统 )， 
756-759 
request forgery and( 请 求 伪 造 ) ，403-405 
single sign-on system and ( 单 点 登录 系统 )， 
406-407 
SQL injection and(SQL 注入 ) ，402-403 
unique identification and( 唯一 标识 ) ，410-411 
virtual private database and (虚拟 专用 数据 
库 ) ，1166 
Security Assertion Markup Language ( SAML) ( 安 
全 声明 标记 语言 ) 407 
seek time ( 寻 道 时 间 ) , 433, 435-439, 450-451, 
540, 555 
select( select F4) , 363 
aggregate function and( 聚集 函数 ) , 84-90 
attribute specification ( 属性 说 明 ) , 77 
basic SQL query and( 基本 SQL 查询 ) , 63-74 
on multiple relation( 多 关系 ) 66-71 
natural join and( 自然 连接 ) , 71-74 
null value and( 空 值 ) , 83-84 
privilege and( #XPR) , 143-145, 148 
ranking and( 分 级 ) ，194 
rename operation and( 更 名 运算 ) ，74-75 
set membership and( 集合 成 员 ) ，90-91 
set operation and( 集合 运算 ) 79-83 
on single relation( 单 关 系 ) 63-65, 63-66 
string operation and( 字符 串 运 算 ) , 76-79 
select all( select all 子 句 ) 65 
select distinct ( select distinct 子 句 ) 64-65, 84- 
85, 91, 125 
select-from-where( select-from-where 语句 ) 
delete and( 删除 ) , 98-100 
function/procedure writing and ( i W/it #S), 
174-180 
inheritance and( 继承 ) , 949-956 
insert and( f A), 100-101 
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join expression and (连接 表达 式 )，71-74，87， 
113-120 
natural join and( 自然 连接 ) 71-74, 87, 113-120 
nested subquery and( 和 做 套子 查询 ) 90-98 
transaction and( 事务 ) 651-654 
type handling and( 类 型 处 理 ) , 949-963 
update and( 更新) ，101-103 
view and( 视图 ) 120-128 
selection ( 选择 ) 
comparison and( 比较 ) , 544-545 
complex( 复杂 的 ) , 545-546 
conjunctive( €H) , 545-546 
disjunctive( 析 取 ) , 545-546 
equivalence and( 等 价 ) , 582-588 
file scan and ( X 4 H HW ), 541-544, 550, 
552, 570 
identifier and ( 标识 ) , 546 
index and( 5|), 541-544 
intraoperation parallelism and( 操作 内 并 行 ) 811 
linear search and( 线性 搜索 ) 541-542 
relational algebra and( 关系 代数 ) ，217-219 
SQL and( 结构 化 查询 语言 , 
view maintenance and( 视图 维护 ) 609-610 
Semantic Web( 语义 网 ) 927 
semistructured data model ( 半 结 构 化 数据 模型 ) , 
9，27 
sensitivity ( 灵敏 度 ) 903 
Sequel, 57 
sequence association ( 序列 关联 ) , 906-907 
sequence counter( 序号 计数 器 ) 1043 
sequential-access storage ( 顺序 访问 存储 器 )， 
431, 436 
sequential file ( 顺序 文件 ) , 459 
sequential scan ( 顺序 扫描 ) , 1153 
serializability ( $174 ) 
blind write and( 盲 写 ) 687 
concurrency control and (并 发 控制 )，662，666- 
667, 671, 673, 681- 690, 693- 697，701- 
704, 708 
conflict( 冲突 ) , 641-643 
distributed database and ( 分 布 式 数 据 库 ) 860-861 
isolation and( 隔离 性 ) ，648-653 
Oracle and，1181-1182 
order of ( 顺序 ) 644-646 
performance tuning and( 性 能 调整 ) ，1042 
PostgreSQL and，1142-1143 
precedence graph and( 优先 图 ) ，644 
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predicate read and( 谓词 读 ) ，701 
in the real world( 在 现实 世界 中 ) 650 
snapshot isolation and( 快照 隔离 ) ，693-697 
topological sorting and( 拓扑 排序 ) ，644-646 
transaction and( 事务 ) ，640-646 ，648 650-653 
view, 687 
serializable schedule( 可 串 行 化 调度 ) , 640 
Server Programming Interface ( SPI) ( 服务 器 编程 
接口 ) ，1136 
server-side scripting( 服务 器 端 脚 本 ) 386-388 
server system ( 服务 器 系统 ) 
categorization of( 分 类 ) , 772-773 
client-server( 客户 -服务 器 ) 771-772 
cloud-based( 基于 云 的 ) ，777 
data server( 数据 服务 器 ) 773, 775-777 
transaction-server( 事务 服务 器 ) 773-775 
servlet( java 服务 器 端 程序 ) 
client-side scripting and( 客户 端 脚本 ) ，389-391 
example of( 例子 ) , 383-384 
life cycle and( 生命 周期 ) ，385-386 
server-side scripting and( 服务 器 端 脚本 ) 386-388 
session and( 会 话 ) 384-385 
support and( 支持 ) ，385-386 
set clausel set 子 句 ) 103 
set default( set default 语句 ) 133 
set difference( 集合 差 ) 50, 221-222, 585 
set-intersection( 集合 交 ) , 2229 
set null( set null 语句 ) 133 
set operation ( 集合 运算 ) 79, 83 
IBM DB2 and, 1209-1210 
intersect( 交 ) , 50, 81-82, 585, 960 
nested subquery and( ÆT #F if] ) , 90-93 
query optimization and( 查询 优化 ) , 597 
query processing and( 查询 处 理 ) 564-565 
set comparison and( 集合 比较 ) 91-93 
union( 并 ) , 80-81, 220-221, 339, 585 
set role( set role 语句 ) 150 
set transaction isolation level serializable ( set 
transaction isolation level serializable if 
句 ) 649 
shadow-copy scheme ( 影子 拷贝 模式 ) 727 
shadowing( 影子) 441-442 
shadow-paging( 影子 分 页 ) 727 
Shared and Intention-eXclusive (SIX) mode ( 共享 
意向 排他 模式 ) , 680 
shared-disk architecture ( 共享 磁盘 体系 结构 )， 
781, 783, 789 
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shared-memory architecture( 共享 内 存 体系 结构 )， 
781-783 
shared-mode lock( 共享 型 锁 ) ，661 
shared-nothing architecture ( 无 共享 体系 结构 )， 
781, 783-784 
shared scan( 共享 扫描 ) 614 
Sherpa/PNUTS, 866-867 
shredding ( 分 解 ) , 1013, 1258-1259 
similarity-based retrieval ( 基于 相似 性 的 检索 )， 
919-920, 1079 
Simple API for XML (SAX) (XML 的 简单 应 用 程序 
接口 ) 1009 
Simple Object Access Protocol (SOAP) ( 简单 对 象 
访问 协议 ) , 1017-1018, 1056, 1249-1250 
single lock-manager( 单 锁 管理 器 ) , 839-840 
single-server model( 单 服务 器 模型 ) ，1092-1093 
single-valued attribute( 单 值 属性 ) ，267-268 
site reintegration ( 站 点 重建 ) 850 
skew( af), 512° 
attribute-value( 属性 值 ) , 800-801 
parallel database and (并行 数据 库 )，800-801 ， 
805-808, 812, 814, 819 
parallel system and( 并 行 系统 ) , 780 
partitioning and( 划分 ) , 560, 800-801 
slicing( 切片 ) 201 
Small-Computer-System Interconnect (SCSI) (小 
计算 机 系统 互 连 接 ) 434 
snapshot isolation( 快照 隔离 ) 652-653, 704, 1042 
Microsoft SQL Server and, 1244 
recovery system and( 恢复 系统 ) , 729-730 
serializability and( AJ 84744) , 693-697 
validation and ( 有 效 性 检查 ) , 692-693 
snapshot replication ( 快照 复制 ) 1252-1253 
snapshot( 快照 ) 
DML command and (数据 操纵 语言 命令 )， 
1138-1139 
Microsoft SQL Server and，1242 
MultiVersion Concurrency Control (MVCC) and( 多 
版 本 并 发 控制 ) 1137-1146 
PostgreSQL and, 1137-1146 
read committed( 读 提交 ) ，1242 
software RAID ( 软件 独立 磁盘 宛 余 阵列 ) ，448 
Solaris, 1193 
sold-state drive ( 固态 驱动 器 ) 430 
some( some 子 句 ) 90, 92, 92n8 
sorting( 排序 ) , 546 
cost analysis of ( 代价 分 析 ) , 548-549 
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external sort-merge algorithm and ( 外 排序 -归并 算 
法 ) , 547-549 
parallel external sort-merge and( 并 行 外 排序 -归并 ) ， 
806 
PostgreSQL and, 1153 
range-partitioning ( 范围 划分 ) 805 
topological ( 拓扑 的 ) 644-646 
XML and( 可 扩展 标记 语言 ) 1106 
sort-merge-join( 排序 -归并 -连接 ) ，553 
space overhead( 空间 开销 ) 476, 479, 486, 522 
spatial data( 空间 数据 ) 
computer-aided-design data and ( 计算 机 辅助 设计 数 
#5), 1061, 1064-1068 
geographic data and( 地 理 数据 ) , 1061, 1064-1066 
indexing of ( 索引 ) , 1071-1076 
query and( #Æ MJ), 1070-1071 
representation of geometric information and ( 几何 信 
息 的 表示 ) , 1065-1066 
topographical information and( 拓扑 信息 ) ，1070 
triangulation and( 三 角 训 分 ) 1065 
vector data and( 向 量 数据 ) ，1069 
specialization ( 特 化 ) 
entity-relationship (E-R) model and (实体 -联系 模 
型 ) ，295-296 
partial ( 部 分 ) 300 
single entity set and( 单 实 体 集 ) 298 
total ( 全 部 ) 300 
specialty database( 专业 数据 库 ) 943 
object-based database and( 基 于 对 象 的 数据 库 ) ， 
945-975 
XML and( 可 扩展 标记 语言 ) 981-1020 
specification of functional requirement ( 功能 需求 说 
AA), 16, 260 
specificity ( 特异 性 ) 903 
speedup ( 加 速 比 ) , 778-780 
spider trap ( 爬虫 陷阱 ) , 930 
SQL (Structured Query Language) ( 结构 化 查询 语 
B), 10, 13-14, 57, 151, 210, 582 
accessing from a programming language ( 通过 编程 语 
言 访 问 ) , 157-163 
advanced( 高 级 ) ，157-210 
aggregate function( 聚集 函数 ) ，84-90 192-197 
application-level authorization and ( 应 用 级 授权 )， 
407-409 
application program and( 应 用 程序 )，14-15 
array type and( 数组 类 型 , 956-961 
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injection and( 7E A) , 402-403 

insert and( 4A.) , 100-101 
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intermediate( 中 级 ) 113-151 

isolation level and( 隔离 性 级 别 ) 648-653 

JDBC and( Java 数据 库 连 接 ) ，158-166 
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权 ) , 408-409 

large-type object( 大 类 型 对 象 ) 138 

Management of External Data (MED) and( 外 部 数据 
管理 ) ，1077 

Microsoft SQL Server and，1223-1267 

multiset type and( 多 重 集合 类 型 ) 956-961 

MySQL and, 31, 76, 111, 160n3, 1123, 1155 

nested subquery and( 嵌 套 子 查询 ) , 90-98 
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null value and( 空 值 ) 83-84 
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945-975 

ODBC and( 开放 数据 库 互 联 ) 166-169 

OLAP and( 联机 分 析 处 理 ) ，197-209 

Oracle variation and( Oracle 变种 ) 1158-1162 

overview of ( 概述 ) , 57-58 

persistent programming language and ( 持久 化 程序 设 
计 语 言 ) ，964-972 

PostgreSQL and, 31 (参见 PostgreSQL) 

prepared statement and( 预备 语句 ) , 162-164 

procedure writing and( 过 程 写 ) 173-180 

query processing and ( 查询 处 理 ) 537-538 (参见 
query processing ) 
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用 开发 ) 397 
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rename operation and( 更 名 运算 ) ，74-80 
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role and( 角色 ) , 145-146 

schema and ( # xt), 47, 58- 63, 141-143, 
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security and( 安全 性 ) , 402-403 
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set operation and( 集合 运算 ) 79-83 
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据 库 语言 ) 57 

standard for( 标准 ) , 1052-1053 

string operation and( 字符 串 运 算 ) 76-77 

System R and, 30, 57 

time specification in( 时 间 描 述 ) , 1063-1064 

transaction and( 事 务 ) 58, 127-128, 773 (参见 
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transfer of privilege and( 权限 转移 ) ，148-149 

trigger and( 触发 器 ) ，180-187 

tuple and( 元 组 ) ，77-78 (参见 tuple) 
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user-defined type( 用 户 自 定 义 类 型 ) ，138-141 

view and( 视图 ) , 58, 120-128, 146-147 
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SQL Security Invoker( SQL Security Invoker FA), 
147 
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分 析 服 务 ) 1264, 1266-1267 
SQL Server Broker( SQL Server 代理 ) ，1261-1263 
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Server 集成 服务 ) ，1263-1266 
SQL Server Management Studio, 1223-1224, 
1227-1228 
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密 ) 1248 
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ODBC( 开放 数据 库 互 联 ) 1053-1055 
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SQL( 结构 化 查询 语言 ) ，1052-1053 
Wi-Max，1081 
XML( 可 扩展 标记 语言 ) 1055-1056 
X/Open XA, 1053-1054 
Starburst, 1193 
start-up cost( 启动 代价 ) 780 
starvation ( 3€ ) , 679 
Statement object ( 语句 对 象 ) 161-164 
statement trigger( 语句 触发 器 ) , 1161-1162 
state transition ( 状态 转换 ) , 1134 
state value ( 状态 值 ) 1134 
statistics ( 统计 ) 
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maintaining ( 维护 ) , 593 
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597-598 
query optimization and( 查询 优化 ) , 590-598 
random sample and( 随机 例子 ) , 593 
selection size estimation and (选择 大 小 估计 )， 
592-595 
steal policy ( 抢占 策略 ) , 740 
step( 步骤 ) 1096 
stop word( 停 用 词 ) , 918 
storage ( 存储 ) , 427 
archival ( 归档 ) 431 
atomicity and( 原子 性 ) 632-633 
authorization and( 授权 ) ，21 
Automatic Storage Manager and( 自动 存储 管理 器 ) ， 
1186-1187 
backup ( %& 412 ), 431, 723, 756-759, 850, 
1095-1096 
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buffer manager and (缓冲 区 管理 器 )，21 (参见 
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byte amount and( 字 节 数 )，20 
checkpoint and( 检查 点 ) , 734-735, 742-743 
clob value and( 字 符 大 对 象 值 ) 1010-1011 
cloud-based( 基于 云 的 ) 777, 862-863 
column-oriented ( 面向 列 的 ) ，892-893 
content dump and( 内 容 转 储 ) ，743 
cost per bit( 每 比特 代价 ) ，431 
crash and( HAW) , 467-468 (参见 crash) 
data access and( 数据 访问 ) , 724-726 
data-dictionary ( 数据 字典 ) , 462-464 
data mining and( 数据 挖掘 ) 25-26, 893-910 
data-transfer rate and( 数据 传输 率 ) ，435-436 
data warehouse and( 数据 仓库 ) 888 
decision-storage system and (决策 存储 系统 )， 
887-889 
direct-access( 直接 访问 ) ，431 
distributed database and( 分 布 式 数据 库 ) ，826-830 
distributed system and( 分 布 式 系统 ) ，784-788 
dumping and( 转 储 ) , 743-744 
durability and( 持久 性 ) 632-633 
Error-Correcting-Code (ECC) organization and( 纠 错 
码 组 织 ) 444-445 
Exadata and, 1187-1188 
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flat file and( 平 面 文件 ) ，1009-1010 

force output and( 强制 输出 ) ，725-726 

fragmentation and( 分 片 ) 826-829 

hard disk and( 硬盘 ) 29-30 

IBM DB2 and，1200-1203 

index and( 索引 ) ，21 (参见 index) 

information retrieval and( 信息 检索 ) ，915-937 

integrity manager and( 完整 性 管理 器 ) 21 

jukebox( 自动 光盘 机 ) ，431 

magnetic disk( 磁盘 ) , 430, 432-439 

main memory and( 主 存 ) 429-430 

Microsoft SQL Server and, 1233-1236 

mirroring and( 镜像 ) 441-442, 1245-1246 

native( Ax Hh), 1013-1014 

nonrelational data( 非 关 系数 据 ) , 1009-1010 

nonvolatile ( 非 易 失 性 )，432，632，722，724- 
726, 743-744 

optical( 光盘 ) , 430-431, 449-450 

Oracle and, 1162-1172, 1186-1188 

parallel system and( 并 行 系统 ) , 777-784 

persistent programming language and( 持久 化 程序 设 
计 语 言 ) ，967-968 

physical media for( 物理 介质 ) ，429-432 

PostgreSQL and, 1146-1151 

publishing/shredding data and ( 发 布 /分 解数 据 ) ， 
1013, 1258-1259 

punched card and( 穿孔 卡片 ) 29 

query processor and( 查 询 处 理 器 ) ，21-22 

recovery system and( 恢复 系统 ) 722-7126 (参见 
recovery system ) 

Redundant Array of Independent Disk (RAID) ( 4h 
立 磁 盘 宛 余 阵 列 ) , 435, 441-449 

relational database and( 关 系数 据 库 ) ，1010-1014 

remote backup system and (远程 备份 系统 ) 723, 
756-759, 850, 1095-1096 

replication and( & ffi] ) , 826, 829 

scrubbing and( 擦洗 ) , 448 

seek time and ( 4 iN AY IEJ), 433, 435-439, 450- 
451, 540, 555 

segment and( 段 ) 1163 

sequential-access( 顺序 访问 ) ，431 ，436 

solid-state drive and( 固态 驱动 器 ) ，430 

stable( 稳定 的 ) 632, 722-724 

striping data and( 拆 分 数据 ) , 442-444 


tape( 磁带 ) 431, 450-451 
tertiary ( 第 三 级 ) 431, 449-451 
transaction manager and, 21 (参见 transaction ) 
transparency and( 透明 性 ) , 829-830 
volatile( 易 失 性 ) 431, 632, 722 
wallet and( 钱包 ) ，415 
XML and( 可 扩展 标记 语言 ) ，1009-1016 
Storage Area Network (SAN) (存储 区 域 网 ) 434- 
435, 789 
storage manager ( 存储 管理 器 ) 20-21 
string operation ( 字符 串 运算 ) 
aggregate( 聚集 ) 84 
attribute specification ( 属性 说 明 ) , 77 
escape ( E X), 77 
JDBC and( Java 数据库 连接 ) , 158-166 
like( like 运算 符 ) ，76-77 
lower( lower PAX) , 76 
query result retrieval and( 查询 结果 检索 ) 161-162 
similar to( 类 似 ) ，77 
trim( trim 困 数 ) 76 
tuple display order( 元 组 显示 次 序 ) ， 
upper function( upper PRL) ，76 
where predicate( where 谓词 ) , 78-79 
striping data ( 拆 分 数据 ) , 442-444 
structured type( 结构 化 类 型 ) 138-141, 949-952 
stylesheet ( 样式 表 ) ，380 
sublinear speedup( 亚 线性 加 速 比 ) 778-780 
submultiset( submultiset 谓词 ) ，960 
suffix( G28), 874 
sum ( R #1), 84, 123, 207, 235-236, 566- 
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superclass-subclass relationship ( 超 类 - 子 类 联系 ) , 
296-297 
superkey ( #843) , 45-46, 271-272, 330-333 
superuser ( 超级 用 户 ) 143 
Support Vector Machine (SVM) (支持 向 量 机 )， 
900-901，1191 
swap space( 交换 区 ) ，742 
Swing, 399 
Sybase, 1223 
Symmetric MultiProcessor ( SMP ) ( 对 称 多 处 理 
器 ) 1193 
synonym( 同义词 ) ，925-927 
sysaux ( 辅助 系统 表 空 间 ) 1172-1173 
system architecture ( 系统 体系 结构 ). BI architecture 
system catalog( 系统 目录 ) ，462-464，1132 
System Change Number (SCN) (系统 改变 号 )， 
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table inheritance ( 表 继 承 ) , 954-956 
table( #), 12-13 
filtering and( 过 滤 ) , 1187 
IBM DB2 and, 1200-1203 
materialized ( 物化 的 ) 1212-1214 
Microsoft SQL Server and, 1230, 1234 
. NET Common Language Runtime (CLR) and(. NET 
公共 语言 运行 库 ) 1257-1258 
Oracle and, 1163-1166, 1187, 1189 
partition and( 划分 ) 1169-1172 
relational model and( 关系 模型 ) 39-44, 49-51 
SQL Server Broker and(SQL Server 代理 ) ，1262 
tablespace ( 表 空 间 ) 1146, 1172-1173 
tag library ( 标签 库 ) 388 
tag ( 标签 ) 
application design and ( 应 用 程序 设计 ) , 378-379, 
388, 404 
information retrieval and( 信息 检索 ) 916 
XML and( 可 扩展 标记 语言 )，982-986，989， 
994, 999, 1004, 1019 
tape storage ( 磁带 存储 器 ) , 431, 450-451 
Tapestry, 399 
task flow( 任务 流 ). 参见 workflow 
Tel, 180, 1123-1125, 1136 
temporal data( 时 态 数 据 ) , 1061 
interval and( 间隔 ) ，1063-1064 
query language and( 查 询 语言 ) 1064 
relational database and( 关系 数据 库 ) 364-367 
time in database and (数据 库 中 的 时 间 )， 
1062-1064 
timestamp and( 时 间 惟 ) , 1063-1064 
transaction time and( 事 务 时 间 ) , 1062 
temporal relation( 时 态 关 系 ) 1062-1063 
Teradata Purpose-Built Platform Family ( Teradata 
Purpose-Build 平台 系列 机 ) , 806 
Term Frequency (TF) ( 词 频 ) 918 
termination state( 终止 状态 ) ，1099 
tertiary storage( 三 级 存储 ) , 431, 449-451 
TF-IDF approach( TF-IDF 方法 ) 928-929 
theta join (theta 连接 ) , 584-585 
third normal form (3NF) (第 三 范式 ) 
decomposition algorithm and( 分 解 算 法 ) , 352-355 
relational database and (关系 数据 库 )，336-337 ， 


352-355 
Thomas’ write rule( Thomas 写 规则 ) , 685-686 
thread pooling( 线程 池 ) , 1246 
Three-Phase Commit (3PC) protocol ( 三 阶段 提交 
trix) , 826 
three-tier architecture( 三 层 体系 结构 ) 25 
throughput ( 香 吐 量 ) 
application development and (应 用 程序 开发 )， 
1037 ，1045-1046 
defined( 定义 的 ) 311 
harmonic mean of ( 调和 平均 数 ) 1046 
improved ( 改进 的 ) 635-636, 655 
log record and( 日 志 记 录 ) ，1106 
main memory and( 主 存 ) 1116 
Microsoft SQL Server and, 1255 
Oracle and, 1159, 1184 
parallel system and( 并 行 系统 ) 778 
performance and( 性 能 ) ，1110 
range partitioning and( 范围 划分 ) ，800 
storage and( 存 储 ) 444, 468 
system architecture and (系统 体系 结构 )，771， 
778, 800, 802, 819 
transaction and( #4) , 635-636, 655 
timestamp ( tla) #k) , 136-167 
concurrency control and( 并 发 控制 ) , 682-686, 703 
distributed database and( 分 布 式 数据 库 ) , 842-843 
logical counter and( 逻辑 计数 器 ) 682 
long-duration transaction and( 长 事务 ) 1110 
multiversion scheme and( 多 版 本 机 制 ) ， 690-691 
ordering scheme and( 排序 模式 ) ，682-685 
rollback and( I), 685-686 
temporal data and( 时 态 数据 ) , 1063-1064 
Thomas’ write rule and( Thomas 写 规 则 ) , 685-686 
transaction and( 事务 ) 651-652 
with time zone( 带 时 区 ) , 1063 
time to completion( 完成 时 间 ) , 1045 
time with time zone( 带 时 区 时 间 ) ，1063 
timezone( 时 区 ) , 136-137, 1063 
Tomcat, 386 
top-down design( 自 项 向 下 设计 ) , 297 
top-K optimization ( top-K 优化 ) ，613 
topographic information ( 地 形 信 息 ) 1070 
topological sorting ( 拓扑 排序 ) 644-646 
training instance( 训练 实例 ) 895 
transactional replication( 事务 复制 ) ，1252-1253 
transaction control( 事务 控制 ) 58 
transaction coordinator ( 事务 协调 器 ) 830-831, 


834-835, 850-852 
transaction manager ( 事务 管理 器 )，21，23， 
830-831 
transaction-processing monitor (事务 处 理 监 控 
器 ) ，1091 
application coordination using (应 用 协调 )， 
1095-1096 
architecture of ( 体系 结构 ) , 1092-1095 
durable queue and( f#A BAF) , 1094 
many-server, many-router model and( 多 服务 器 多 路 
由 器 模型 ) ，1094 
many-server，single-router model and( 多 服务 器 单 
路 由 器 模型 ) ，1093 
multitasking and( 多 任务 调度 ) 1092-1095 
presentation facility and( 表示 设施 ) ，1094-1095 
single-server model and ( 单 服 务 器 模型 )， 
1092-1093 
switching and( 切换 ) ，1092 
Transaction Processing Performance Council 
(TPC) (事务 处 理性 能 委员 会 ) 1046-1048 
transaction( 事务 ) 32, 625, 655-656, 1116 
aborted( P1H), 633-634, 647 
action after crash( AYR aE), 736-738 
active( 活动 ) 633 
advanced processing of ( 高 级 处 理 ) , 1091-1116 
association rule and( 关联 规则 ) , 904-907 
atomicity and ( 原子 性 ) 22-23, 628, 633-635, 
646-648 (参见 atomicity) 
availability and( 可用性) , 847-853 
begin/end operation and( begin/end 操作 ) , 627 
cascadeless schedule and( 无 级 联 的 调度 ) , 647-648 
check constraint and( check 约束 ) 628 
cloud computing and( 云 计算 ) 866-868 
commit protocol and( 提交 协议 ) ，832-838 
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concurrency control and ( jf 4 # (l), 661-710, 
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crash and( HAt) , 628 
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defined( 定义 的 ) 22, 627 
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